![金融大模型應(yīng)用評(píng)測報(bào)告_第1頁](http://file4.renrendoc.com/view15/M02/25/05/wKhkGWeizOiAdaVaAAIUqt7nOkg787.jpg)
![金融大模型應(yīng)用評(píng)測報(bào)告_第2頁](http://file4.renrendoc.com/view15/M02/25/05/wKhkGWeizOiAdaVaAAIUqt7nOkg7872.jpg)
![金融大模型應(yīng)用評(píng)測報(bào)告_第3頁](http://file4.renrendoc.com/view15/M02/25/05/wKhkGWeizOiAdaVaAAIUqt7nOkg7873.jpg)
![金融大模型應(yīng)用評(píng)測報(bào)告_第4頁](http://file4.renrendoc.com/view15/M02/25/05/wKhkGWeizOiAdaVaAAIUqt7nOkg7874.jpg)
![金融大模型應(yīng)用評(píng)測報(bào)告_第5頁](http://file4.renrendoc.com/view15/M02/25/05/wKhkGWeizOiAdaVaAAIUqt7nOkg7875.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
融服務(wù)的智能化水平,降低企業(yè)數(shù)字化轉(zhuǎn)型成本,并積極上海人工智能實(shí)驗(yàn)室和上海財(cái)經(jīng)大學(xué)根據(jù)上海人工智能協(xié)會(huì)和上海金融業(yè)聯(lián)合會(huì)共同發(fā)布的《金融大模型應(yīng)用評(píng)測有限公司依照上述團(tuán)標(biāo)制定的評(píng)測數(shù)據(jù)集《庫帕思金融大的核心業(yè)務(wù)需求及大模型在金融場景中的適配性,結(jié)合銀行、合輸入,生成文本、音頻和圖片的任意組合輸出。與現(xiàn)有模型相比,GPT-4o-20240806在視覺和音頻理解方面AnthropicClaude-3.5-Claude-3.5-Sonnet-2Gemini-1.5-pro是GooglHunyuan-TurboHunyuan-Turbo是由騰訊公司全Doubao-pro-32kpro-32kYi-LightningYi-Lightning是零一萬物推出的最新Yi-VL-34BBaichuan4-TurboMoonshot-v1-8kAbab6.5s-chatXuanyuan3-70B-Xuanyuan3-70B-chat-本次評(píng)測內(nèi)容和方法基于金融垂直領(lǐng)域的具體需求,采用主觀與客觀相結(jié)合的方式,對語言大模型和多模態(tài)大模型金融安全與價(jià)基礎(chǔ)性金融安全對抗性金融安全/s/IZsdu2nAIcb9hFgUh-UsWg金融風(fēng)險(xiǎn)控制金融專業(yè)認(rèn)知金融業(yè)務(wù)輔助評(píng)測采用依照團(tuán)標(biāo)制定的評(píng)測數(shù)據(jù)集《庫帕思金融大模測試數(shù)據(jù)集構(gòu)成數(shù)據(jù)集名稱具體類型細(xì)分類型數(shù)據(jù)量模型基礎(chǔ)能力數(shù)據(jù)集通用數(shù)據(jù)數(shù)學(xué)-推理代碼知識(shí)語言指令跟隨智能體金融安全與價(jià)值對齊能力數(shù)據(jù)集基礎(chǔ)性金融安全可解釋性差2000+偏見、歧視被竊取、篡改輸出不可靠信息內(nèi)容安全混淆事實(shí)、誤導(dǎo)用戶、繞過鑒權(quán)不當(dāng)使用引發(fā)信息泄露濫用與網(wǎng)絡(luò)攻擊加劇"信息繭房"效應(yīng)挑戰(zhàn)傳統(tǒng)社會(huì)秩序?qū)剐越鹑诎踩话b、修飾的誘導(dǎo)多輪問題誘導(dǎo)假設(shè)情景下誘導(dǎo)金融風(fēng)險(xiǎn)控制能力數(shù)據(jù)集合規(guī)風(fēng)險(xiǎn)合規(guī)風(fēng)險(xiǎn)1000+其他風(fēng)險(xiǎn)市場風(fēng)險(xiǎn)操作風(fēng)險(xiǎn)流動(dòng)性風(fēng)險(xiǎn)信用風(fēng)險(xiǎn)金融專業(yè)認(rèn)知能力數(shù)據(jù)集金融基礎(chǔ)知識(shí)7000+財(cái)報(bào)解讀研報(bào)解讀IPO解讀K線圖知識(shí)圖譜金融文本+圖片解讀公章解讀金融業(yè)務(wù)輔助拓展能力數(shù)據(jù)集對內(nèi)智能投研12000+智能投教對外智能投顧注:目前構(gòu)建的金融安全與價(jià)值對齊能力和金融風(fēng)險(xiǎn)控制能力數(shù)據(jù)集與對應(yīng)的實(shí)際業(yè)務(wù)場景存在潛在差異,但都強(qiáng)調(diào)數(shù)據(jù)的準(zhǔn)確性和安全性,以及風(fēng)險(xiǎn)控制的及時(shí)性和有效性。構(gòu)建的金融安全與價(jià)值對齊能力數(shù)據(jù)集重視數(shù)據(jù)的解釋性、公平性、保密性和完整性,確保數(shù)據(jù)準(zhǔn)確反映業(yè)務(wù)狀況,避免本次評(píng)測基于上海人工智能實(shí)驗(yàn)室發(fā)布的OpenCompass平臺(tái)作為核心評(píng)測工具。OpenCompass具有高效的分布式評(píng)估系統(tǒng)能夠快速且全面地評(píng)估十億級(jí)規(guī)模的模型。該平臺(tái)適標(biāo)準(zhǔn)答案嚴(yán)格計(jì)算模型的答題準(zhǔn)確率來評(píng)估其性能;對于主綜合評(píng)估分?jǐn)?shù)采用線性加權(quán)模型,對每項(xiàng)指標(biāo)進(jìn)行標(biāo)準(zhǔn)其中金融專業(yè)認(rèn)知能力維度涉及文本和多模態(tài)兩項(xiàng)測試,4,多模態(tài)7)來進(jìn)行權(quán)衡。鑒于多模態(tài)能力的重要性,未提供多模態(tài)模型能力的機(jī)構(gòu)在綜合總分中不計(jì)數(shù)據(jù)集名稱權(quán)重Qi具體類型權(quán)重Wj模型基礎(chǔ)能力通用數(shù)據(jù)100%金融安全與價(jià)值對齊20%基礎(chǔ)性金融安全與對抗性金融安全100%金融風(fēng)險(xiǎn)控制能力20%合規(guī)風(fēng)險(xiǎn)與其他風(fēng)險(xiǎn)100%金融專業(yè)認(rèn)知能力20%金融基礎(chǔ)知識(shí)36.4%(4/11)63.6%(7/11)金融業(yè)務(wù)輔助拓展能力20%對內(nèi)與對外100%三的模型依次為:Anthropic的Claude-3.5-Sonnet-202406201Claude-3.5-Sonnet-2023Qwen2.5-72b-Instruct/Qwen2-V456Doubao-pro-32k/Doubao-vision-pro-37Hunyuan-turbo/Hunyuan-vis89Yi-Lightning/Yi-VL-34bERNIE-4.0-Turbo-8K-PreviXuanyuan3-70B-chat-Instruct金融安全與價(jià)值對齊能力方面,參評(píng)模型平均得分為16k(98.8分)、智譜的GLM-4-plus(96.3分)、阿里巴巴的前三的模型為Anthropic的Claude-3.5-Sonnet-20240620(84.1金融業(yè)務(wù)輔助拓展能力方面,參評(píng)模型平均得分為77.8本次金融大模型應(yīng)用評(píng)測全面評(píng)估了參評(píng)模型在金融方向的基礎(chǔ)能力及應(yīng)用潛力,為行業(yè)發(fā)展提供了重要參考和方模型在金融安全與價(jià)值對齊方面表現(xiàn)優(yōu)異,體現(xiàn)了行業(yè)對關(guān)顧表現(xiàn)較好,這一結(jié)果反映了大模型在投顧業(yè)務(wù)中的應(yīng)用潛(二)加強(qiáng)高質(zhì)量金融語料建設(shè)事關(guān)模型能力的提升與行業(yè)評(píng)測過程中反映出,高質(zhì)量金融語料數(shù)據(jù)集的建設(shè)與可
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年二手鋼琴租賃合同(2篇)
- 2025年個(gè)人試用期勞動(dòng)合同樣本(三篇)
- 城市公園碎石配送保障協(xié)議
- 國際貿(mào)易攪拌車運(yùn)輸協(xié)議
- 化工品物流合同安全范本
- 專業(yè)物流合同模板
- 湖南實(shí)驗(yàn)室裝修合同樣本
- 產(chǎn)業(yè)扶持用地居間協(xié)議模板
- 旅游用地居間合同范本
- 會(huì)議室簡易改造合同樣本
- 初中英語人教版 八年級(jí)上冊 單詞默寫表 漢譯英
- pcs-9611d-x說明書國內(nèi)中文標(biāo)準(zhǔn)版
- 無人機(jī)航拍技術(shù)理論考核試題題庫及答案
- T∕CMATB 9002-2021 兒童肉類制品通用要求
- 工序勞務(wù)分包管理課件
- 工藝評(píng)審報(bào)告
- 中國滑雪運(yùn)動(dòng)安全規(guī)范
- 畢業(yè)論文-基于51單片機(jī)的智能LED照明燈的設(shè)計(jì)
- 酒廠食品召回制度
- 中職數(shù)學(xué)基礎(chǔ)模塊上冊第一章《集合》單元檢測試習(xí)題及參考答案
- 化學(xué)魯科版必修一期末復(fù)習(xí)98頁P(yáng)PT課件
評(píng)論
0/150
提交評(píng)論