人工智能大模型工業(yè)應(yīng)用準(zhǔn)確性測評-v3.5_第1頁
人工智能大模型工業(yè)應(yīng)用準(zhǔn)確性測評-v3.5_第2頁
人工智能大模型工業(yè)應(yīng)用準(zhǔn)確性測評-v3.5_第3頁
人工智能大模型工業(yè)應(yīng)用準(zhǔn)確性測評-v3.5_第4頁
人工智能大模型工業(yè)應(yīng)用準(zhǔn)確性測評-v3.5_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

ccAIIchinaAcademyofIndustriallnternet人工智能大模型工業(yè)應(yīng)用準(zhǔn)確性測評2024年3月版12chinaAcademyofIndustriallnternetCAII為貫徹落實(shí)黨中央國務(wù)院關(guān)于促進(jìn)人工智能發(fā)展的決策部署為貫徹落實(shí)黨中央國務(wù)院關(guān)于促進(jìn)人工智能發(fā)展的決策部署,中國工業(yè)互聯(lián)網(wǎng)研究院依托通用人工智能與工業(yè)融合創(chuàng)新中心(簡稱“中心”聯(lián)合香港科技大學(xué)、中國經(jīng)濟(jì)信息社,深入研究人工智能大模型在工業(yè)領(lǐng)域的應(yīng)用性能、技術(shù)架構(gòu)、標(biāo)準(zhǔn)體系,并在此基礎(chǔ)上,形成本報(bào)告。結(jié)合工業(yè)企業(yè)大模型應(yīng)用情況調(diào)研,本報(bào)告在原有工業(yè)知識問答準(zhǔn)確性測評的基礎(chǔ)上,新增數(shù)據(jù)分析、工程建模、文檔生成、代碼理解等四大場景,構(gòu)建測試數(shù)據(jù)集,對國內(nèi)外具有代表性的大模型進(jìn)行測試,發(fā)布新一輪的準(zhǔn)確性測評報(bào)告,供業(yè)界進(jìn)行參考。本報(bào)告測評結(jié)果雖經(jīng)中心專家委論證,但因大模型迭代速度快,技術(shù)復(fù)雜,囿于工作團(tuán)隊(duì)專業(yè)知識和能力,報(bào)告難免存在分析結(jié)論不足等問題,且測評結(jié)果僅適用于測試期間,歡迎大家批評指正。3石化化工行業(yè)代碼理解石化化工行業(yè)代碼理解計(jì)算復(fù)雜性。數(shù)據(jù)分析出結(jié)論。文檔生成工程建模礎(chǔ)數(shù)學(xué)知識,型進(jìn)行求解。chinaAcademyofIndustriallnternetCAII2023年初至今2023年初至今,大模型技術(shù)發(fā)展突飛猛進(jìn),已逐步滲透至工業(yè)領(lǐng)域諸多環(huán)節(jié),涵蓋了知識問答、工程建模、數(shù)據(jù)分析、文檔生成、代碼理解等場景,正快速成長為工業(yè)轉(zhuǎn)型升級和創(chuàng)新發(fā)展的重要?jiǎng)恿?。工業(yè)應(yīng)用準(zhǔn)確性測評知識問答知識問答進(jìn)行判分[2]進(jìn)行判分[2]分標(biāo)準(zhǔn),按步驟賦分。進(jìn)行問答收集大模型答案。生成判分標(biāo)準(zhǔn)[1]為評分標(biāo)準(zhǔn),并通過人工校驗(yàn)篩選題目根據(jù)場景、難度、行業(yè),選取有標(biāo)準(zhǔn)答案的題目,經(jīng)人工校驗(yàn)后形成測試題。提升判分標(biāo)準(zhǔn)科學(xué)性。三、測評方法CAIIchinaAcademyofIndustriallnternet注:各場景題目數(shù)量雖不一致,但考察要點(diǎn)總量保持在同一個(gè)數(shù)量級。4[1]對于GPT4,先獲取其回答,再用其生成標(biāo)準(zhǔn)答案、進(jìn)行判分,避免信息泄露;4[2]GPT4的API承諾不記錄數(shù)據(jù)用于訓(xùn)練,參考業(yè)界成熟方案,使用GPT4的API生成標(biāo)準(zhǔn)答案和判分結(jié)果,減少測評誤差。準(zhǔn)確性chinaAcademyofIndustriallnternetCAII四、測評結(jié)果-綜合排名準(zhǔn)確性chinaAcademyofIndustriallnternetCAII大模型準(zhǔn)確性排名Top20[1]0[1]模型版本號參見附錄1。5口國內(nèi)口國內(nèi)口國際口國際70704025??對比往期測評,2023年下半年國內(nèi)大模型能力提升明顯(以GPT3.5為基準(zhǔn))。6[1]選取國內(nèi)外各能力維度性能最佳的大模型進(jìn)行對比;[2]國內(nèi)大模型發(fā)展趨勢統(tǒng)計(jì)規(guī)則見附錄2。6五、場景測評一:工業(yè)知識問答CAIIchinaAcademyofIndustriallnternet大模型可結(jié)合自身知識大模型可結(jié)合自身知識,回答不同工業(yè)領(lǐng)域問題,將用于員工培訓(xùn)、故障診斷、客服咨詢、市場調(diào)研等交互場景,協(xié)助企業(yè)員工熟悉生產(chǎn)流程,幫助用戶了解產(chǎn)品特性。知識快速獲取數(shù)字人售后服務(wù)工藝輔助優(yōu)化員工自助培訓(xùn)應(yīng)用場景研判?研發(fā)設(shè)計(jì)環(huán)節(jié):研發(fā)工程師可基于大模型快速、便捷獲取高質(zhì)量知識,提升研發(fā)效率;?生產(chǎn)制造環(huán)節(jié):產(chǎn)線工人可實(shí)時(shí)向大模型查詢生產(chǎn)工藝經(jīng)驗(yàn),輔助其進(jìn)行制造工藝優(yōu)化;?售后服務(wù)環(huán)節(jié):企業(yè)可基于大模型,通過數(shù)字人實(shí)時(shí)向客戶提供售后咨詢服務(wù);?技能培訓(xùn)環(huán)節(jié):新員工可通過大模型了解企業(yè)信息、學(xué)習(xí)生產(chǎn)技能。7國際平均4108五、場景測評一:工業(yè)知識問答國際平均4108確確性806040200建材石化化工電力電子制造紡織準(zhǔn)國內(nèi)平均52國內(nèi)平均52性你知道哪些常用邏輯電平?TTL與CMOS電平可以直接[1]圖中數(shù)據(jù)為各行業(yè)國內(nèi)外性能最佳大模型成績。五、場景測評二:工程建模CAIIchinaAcademyofIndustriallnternet大模型具備基礎(chǔ)建模能力大模型具備基礎(chǔ)建模能力,將幫助工程師和企業(yè)管理人員在實(shí)際工程設(shè)計(jì)、生產(chǎn)運(yùn)維等領(lǐng)域進(jìn)行數(shù)學(xué)建模,尋求最佳的解決方案。工程數(shù)學(xué)建模優(yōu)化員工班次布局提高人效預(yù)測模型優(yōu)化生產(chǎn)計(jì)劃營銷收益建模節(jié)約銷售成本應(yīng)用場景研判?研發(fā)設(shè)計(jì)環(huán)節(jié):基于歷史實(shí)踐,建立成本模型,指導(dǎo)新項(xiàng)目的規(guī)劃和預(yù)算編制,提高項(xiàng)目成功率;?生產(chǎn)制造環(huán)節(jié):建立時(shí)序預(yù)測、異常檢測模型,基于預(yù)測優(yōu)化生產(chǎn)計(jì)劃,提高施工效率和安全性;?運(yùn)維管理環(huán)節(jié):建立運(yùn)籌模型,對工廠生產(chǎn)人員進(jìn)行排版優(yōu)化,提升人員效能;?營銷宣傳環(huán)節(jié):建立營銷收益模型,提升營銷效率,節(jié)約營銷成本。9五、場景測評二:工程建模那么該公司2018年年初預(yù)訂的產(chǎn)量為多準(zhǔn)確60性國內(nèi)平均43國內(nèi)平均43國際平均430五、場景測評三:數(shù)據(jù)分析CAIIchinaAcademyofIndustriallnternet大模型可將結(jié)構(gòu)化數(shù)據(jù)提煉為核心結(jié)論大模型可將結(jié)構(gòu)化數(shù)據(jù)提煉為核心結(jié)論,對復(fù)雜業(yè)務(wù)數(shù)據(jù)進(jìn)行自動(dòng)分析,更全面、及時(shí)地幫助企業(yè)管理者運(yùn)營和決策,提升工作效率和運(yùn)營質(zhì)量。分析用戶評價(jià)分析庫存數(shù)據(jù)分析生產(chǎn)時(shí)序數(shù)據(jù)分析安全數(shù)據(jù)應(yīng)用場景研判?研發(fā)設(shè)計(jì)環(huán)節(jié):在海量產(chǎn)品評價(jià)數(shù)據(jù)中提取共性問題,改進(jìn)產(chǎn)品設(shè)計(jì),提升產(chǎn)品品質(zhì);?生產(chǎn)制造環(huán)節(jié):自動(dòng)分析工業(yè)生產(chǎn)時(shí)序數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)異?;驖撛陲L(fēng)險(xiǎn),及時(shí)預(yù)警或報(bào)錯(cuò);?運(yùn)維管理環(huán)節(jié):輔助分析庫存數(shù)據(jù),進(jìn)行呆滯庫存和缺料提醒,提升管理效率;?人員培訓(xùn)環(huán)節(jié):分析事故數(shù)據(jù),杜絕生產(chǎn)事故,消除安全隱患。五、場景測評三:數(shù)據(jù)分析準(zhǔn)確國際平均56國內(nèi)平均53國際平均56國內(nèi)平均530Year...............分。)五、場景測評四:文檔生成CAIIchinaAcademyofIndustriallnternet大模型將幫助用戶快速、高效處理和生成各類文檔大模型將幫助用戶快速、高效處理和生成各類文檔,如宣傳文案、操作手冊、技術(shù)文檔、施工方案等,提高工作效率和質(zhì)量。生成技術(shù)文檔生成設(shè)備運(yùn)行狀態(tài)報(bào)告生成作業(yè)指導(dǎo)書生成庫存管理運(yùn)營文檔應(yīng)用場景研判.研發(fā)設(shè)計(jì)環(huán)節(jié):大模型可基于本地知識庫,輔助工作人員生成技術(shù)方案和設(shè)計(jì)方案,幫助研發(fā)人員提升效率,為設(shè)計(jì)人員提供靈感;.生產(chǎn)制造環(huán)節(jié):大模型可基于生產(chǎn)訂單和生產(chǎn)計(jì)劃,自動(dòng)生成作業(yè)指導(dǎo)書,提高生產(chǎn)效率;.運(yùn)維管理環(huán)節(jié):大模型可根據(jù)設(shè)備運(yùn)行情況,自動(dòng)編寫運(yùn)行報(bào)告;可根據(jù)供應(yīng)鏈庫存情況生成庫存管理報(bào)告文檔,提升運(yùn)營效率。五、場景測評四:文檔生成(要點(diǎn)總結(jié))>準(zhǔn)確國內(nèi)平均87國際平均85.國內(nèi)外平均成績相對較高,文檔五、場景測評四:文檔生成(觀點(diǎn)分析)>準(zhǔn)確國際平均71國內(nèi)平均65過去的一年,QM的工傷事故比鄰近的工廠多$30\%$,鄰近工廠每班工作因此,為減少Q(mào)M的工傷事故數(shù)量,從?(1)兩家公司是否具有可比性,沒有給出具體的?(2)去年的情況今年是否依然不一定會(huì)下降...五、場景測評五:代碼理解CAIIchinaAcademyofIndustriallnternet大模型將面向工業(yè)需求編寫代碼大模型將面向工業(yè)需求編寫代碼,回答計(jì)算機(jī)編程相關(guān)問題,輔助代碼功能性和安全性檢測,提升工程師編碼效率,保障程序安全、平穩(wěn)運(yùn)行。代碼生成與自動(dòng)編程代碼注釋生成代碼錯(cuò)誤檢測與修正工控代碼審查應(yīng)用場景研判應(yīng)用場景研判.研發(fā)設(shè)計(jì)環(huán)節(jié):大模型可根據(jù)自然語言描述,自動(dòng)生成工業(yè)代碼,輔助編寫自動(dòng)化腳本、復(fù)雜的業(yè)務(wù)邏輯代碼,提升編碼效率;.生產(chǎn)制造環(huán)節(jié):大模型可對生產(chǎn)設(shè)備的控制代碼進(jìn)行安全審查,排查代碼中的錯(cuò)誤和漏洞,保障生產(chǎn)安全;.運(yùn)維管理環(huán)節(jié):大模型可自動(dòng)生成代碼注釋,幫助工控運(yùn)維人員高效理解和維護(hù)代碼,提升運(yùn)維效率。五、場景測評五:代碼理解準(zhǔn)國際平均51確60國際平均51性國內(nèi)平均45國內(nèi)平均450publicvoiddoPost(HttpServletRequestrequest,HttpServletResponseresponse)throwsServletException,IOException{javax.servlet.http.Cookie[]theCookies=request.getCookies();...java.util.Propertiesbenchmarkprops=newjava.util.Properties();Stringalgorithm="MD5";java.security.MessageDigest.getInstance(algorithm);byte[]input={(byte)'?'};ObjectinputParam=param;if(inputParaminstanceofString)input=((String)inputParam).getBytes();}Stringalgorithm="MD5";java.security.MessageDigestmd=java.security.MessageDigest.getInstance(algorithm);弱哈希算法有MD5、SHA-1和SHA-2chinaAcademychinaAcademyofIndustriallnternetCAII第一梯隊(duì)點(diǎn)評知識問答知識問答工程建工程建模數(shù)據(jù)分析數(shù)據(jù)分析文檔生成文檔生成文檔生成文檔生成代碼理解代碼理解chinaAcademychinaAcademyofIndustriallnternetCAII.大模型在鋼鐵、電力等行業(yè)有較好的知識儲(chǔ)備.大模型在鋼鐵、電力等行業(yè)有較好的知識儲(chǔ)備,對于紡織、裝備.國內(nèi)大模型在建材、采礦等行業(yè)優(yōu)勢顯著,在裝備制造、化工等.GPT4仍處于領(lǐng)先地位;.近半年國內(nèi)大模型能力顯著開展大模型多模態(tài)能力測評,包括圖像識別、視面向工業(yè)應(yīng)用開展行業(yè)大模型測評工作,在重點(diǎn).大模型在文檔生成領(lǐng)域應(yīng)用成熟度較高,在工業(yè)知識問答、數(shù)據(jù)分析、工程建模、代碼理解場景.國內(nèi)外大模型在文檔生成、數(shù)據(jù)分析、代碼理解場景準(zhǔn)確度差異針對工業(yè)應(yīng)用場景針對工業(yè)應(yīng)用場景,匯聚整理工業(yè)知識語料庫,面向大模型當(dāng)前應(yīng)用成熟度較低

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論