AI 動(dòng)態(tài)跟蹤系列(三):復(fù)雜推理大模型OpenAIo1亮相數(shù)學(xué)與代碼能力飛躍-平安證券_第1頁
AI 動(dòng)態(tài)跟蹤系列(三):復(fù)雜推理大模型OpenAIo1亮相數(shù)學(xué)與代碼能力飛躍-平安證券_第2頁
AI 動(dòng)態(tài)跟蹤系列(三):復(fù)雜推理大模型OpenAIo1亮相數(shù)學(xué)與代碼能力飛躍-平安證券_第3頁
AI 動(dòng)態(tài)跟蹤系列(三):復(fù)雜推理大模型OpenAIo1亮相數(shù)學(xué)與代碼能力飛躍-平安證券_第4頁
AI 動(dòng)態(tài)跟蹤系列(三):復(fù)雜推理大模型OpenAIo1亮相數(shù)學(xué)與代碼能力飛躍-平安證券_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

行行業(yè)動(dòng)態(tài)跟蹤報(bào)告行行業(yè)報(bào)告復(fù)雜推理大模型OpenAIo1亮相,數(shù)學(xué)與代碼能力飛躍強(qiáng)于大市(維持)行情走勢圖強(qiáng)于大市(維持)行情走勢圖相關(guān)研究報(bào)告【平安證券】行業(yè)動(dòng)態(tài)跟蹤報(bào)告*計(jì)算機(jī)*AI動(dòng)態(tài)跟蹤系列(二):英偉達(dá)GTC2024AI軟件與應(yīng)用有哪些看點(diǎn)?*強(qiáng)于大市20240327【平安證券】行業(yè)動(dòng)態(tài)跟蹤報(bào)告*計(jì)算機(jī)*AI動(dòng)態(tài)跟蹤系列(一Duolingo4Q23業(yè)績超預(yù)期,持續(xù)關(guān)注AI+教育應(yīng)用前景*強(qiáng)于大市20240305證券分析師閆磊投資咨詢資格編號S1060517070006YANLEI511@黃韋涵投資咨詢資格編號S1060523070003HUANGWEIHAN235@研究助理相關(guān)研究報(bào)告【平安證券】行業(yè)動(dòng)態(tài)跟蹤報(bào)告*計(jì)算機(jī)*AI動(dòng)態(tài)跟蹤系列(二):英偉達(dá)GTC2024AI軟件與應(yīng)用有哪些看點(diǎn)?*強(qiáng)于大市20240327【平安證券】行業(yè)動(dòng)態(tài)跟蹤報(bào)告*計(jì)算機(jī)*AI動(dòng)態(tài)跟蹤系列(一Duolingo4Q23業(yè)績超預(yù)期,持續(xù)關(guān)注AI+教育應(yīng)用前景*強(qiáng)于大市20240305證券分析師閆磊投資咨詢資格編號S1060517070006YANLEI511@黃韋涵投資咨詢資格編號S1060523070003HUANGWEIHAN235@研究助理王佳一一般證券從業(yè)資格編號S1060123070023業(yè)領(lǐng)域能力:GPQAdiamond測試(專門用于評估模型在化學(xué)、類專家的表現(xiàn),成為首個(gè)在GPQAdiamond基王佳一一般證券從業(yè)資格編號S1060123070023WANGJIAYI446@OpenAI介紹到,類似于人類在回答困難問題驟分解為更簡單的步驟,學(xué)會(huì)了在當(dāng)前方法不起作用時(shí)嘗試不同的方法,o1-preview解答復(fù)雜問題的邏輯推理過程,o1-preview在過程中逐步顯行業(yè)報(bào)告行業(yè)報(bào)告復(fù)雜推理大模型OpenAIo1亮相,數(shù)學(xué)與代碼能力飛躍行業(yè)動(dòng)態(tài)跟蹤報(bào)告證券研究報(bào)告平安證券計(jì)算機(jī)·行業(yè)動(dòng)態(tài)跟蹤報(bào)告請通過合法途徑獲取本公司研究報(bào)告,,請慎重使用并注意閱讀研究報(bào)告尾頁的聲明內(nèi)容。3/10也達(dá)到新高度。OpenAI的動(dòng)向始終引平安證券計(jì)算機(jī)·行業(yè)動(dòng)態(tài)跟蹤報(bào)告一、OpenAI計(jì)數(shù)器重置回1,o1系列開啟復(fù)雜推理序幕根據(jù)OpenAI官網(wǎng),o1系列模型o1-preview(預(yù)覽版)作為o1系列的早期版本,還不具備ChatGPT的許多有用功能,例如瀏覽網(wǎng)頁獲取信息、上傳文件和圖像等,因此對于許多常見情境,GPT-4o在短期內(nèi)可能會(huì)更有能力。圖表1OpenAI上線o1-preview和o1-mini前的科學(xué)、編碼和數(shù)學(xué)模型更難的問題。OpenAI的大規(guī)模強(qiáng)化學(xué)習(xí)算法,教會(huì)模型如何在數(shù)據(jù)高度有效的訓(xùn)練過程中利用提高。不過這種方法的Scaling受到的限制與普通預(yù)訓(xùn)練有很大不同,OpenAI正在繼續(xù)研究。圖表2隨著訓(xùn)練時(shí)計(jì)算和測試時(shí)計(jì)算的增加,o1性能平穩(wěn)提高平安證券計(jì)算機(jī)·行業(yè)動(dòng)態(tài)跟蹤報(bào)告除了o1-preview,OpenAI還發(fā)布了一款擅長STEM且更快、更便宜的推理模型o1-mini。OpenAI表o1-mini和o1-preview都正確回答,且o1-mini找到答案的速度大約快了3-5倍。價(jià)格方面,OpenAI提供給tier5API用mini作為o1-preview的替代品,具有更高的速率限制和更低的延圖表3o1-mini在數(shù)學(xué)基準(zhǔn)測試上表現(xiàn)對標(biāo)o1,同時(shí)推理成本低二、o1基準(zhǔn)表現(xiàn)明顯優(yōu)于GPT-4o,數(shù)學(xué)與編碼能力實(shí)現(xiàn)飛躍為了突出相對于GPT-4o的推理性能改進(jìn),OpenAI在一系列不同的人類考試和機(jī)器學(xué)習(xí)基準(zhǔn)測試中測試了o1模型。OpenAI實(shí)驗(yàn)結(jié)果表明,在絕大多數(shù)推理任務(wù)中,o1的表現(xiàn)明顯優(yōu)于GPT-4o。樣本上達(dá)成共識的情況下,o1準(zhǔn)確率為83%(12.5/15在使用學(xué)習(xí)評(13.9/1513.9分的成績相當(dāng)于躋身美國前500名學(xué)生之列,高于AIME的分?jǐn)?shù)線。2)編碼能力:在競爭性編程問3)特定專業(yè)領(lǐng)域能力:GPQAdiamond測試專門用于評估模型在化學(xué)、物理和生物學(xué)等領(lǐng)域的專業(yè)知識水平,o1不僅成功完成了測試,更是超越了人類專家的表現(xiàn),成為首個(gè)在GPQAdiamond基準(zhǔn)上擊敗人類專家的AI模型。OpenAI表示,這一突破性成就標(biāo)志著AI在特定專業(yè)領(lǐng)域的能力已經(jīng)達(dá)到了一個(gè)新的高度。平安證券計(jì)算機(jī)·行業(yè)動(dòng)態(tài)跟蹤報(bào)告圖表4在具有挑戰(zhàn)性的推理類基準(zhǔn)上,o1較GPT-4o有了顯著改進(jìn)(%)測試中得分為78.1%,成為首個(gè)能夠與人類專家在該領(lǐng)域展開競爭的AI模型。在MMLU(大規(guī)模多任務(wù)語言理解)測試中,o1的表現(xiàn)更是令人矚目。在總計(jì)57個(gè)子類別中,o1在54個(gè)類別上都超越了GPT-4o的表現(xiàn),這一結(jié)果充分證明了o1在廣泛的知識領(lǐng)域和任務(wù)類型中的全面優(yōu)勢。圖表5o1在廣泛的基準(zhǔn)測試中優(yōu)于GPT-4o(%)注:57個(gè)MMLU子類別上o1在54個(gè)的表現(xiàn)優(yōu)于GPT-4o,圖表僅展示7個(gè)示例平安證券計(jì)算機(jī)·行業(yè)動(dòng)態(tài)跟蹤報(bào)告三、o1引入思維鏈優(yōu)化邏輯推理,助力模型性能與安全提升長時(shí)間,o1在嘗試解決問題時(shí)會(huì)使用思維鏈。通過強(qiáng)化學(xué)習(xí),o1學(xué)會(huì)打磨其思維鏈并改進(jìn)它所使用的策略。o1學(xué)會(huì)了識系統(tǒng)II思考。人們已經(jīng)發(fā)現(xiàn),提示模型「一步步思考」可以提升性能。但是通過試錯(cuò)來訓(xùn)練模型,從頭到尾這樣做,則更為可靠,并且——正如我們在圍棋或Dota等游戲中所見——可以產(chǎn)生極其令人印象深刻的結(jié)果?!痹贠penAI的一個(gè)官方演示中展示了o1-preview解答復(fù)雜問題的邏輯推理過程。題目為“當(dāng)公主的年齡是王子的兩倍時(shí),我們看到模型緩沖了約30秒,過程中逐步顯示思考、翻譯問題、定義變量、理解問題、構(gòu)建方程、解方程等與人類推理相似的步驟,最終輸出結(jié)論,公主的年齡是某個(gè)自然數(shù)k的6倍,圖表6OpenAI視頻展示o1-preview解答復(fù)雜推理問題OpenAI認(rèn)為思維鏈推理也為大模型安全性的提升提供了新思路。OpenAI發(fā)現(xiàn),將模型行為策略整合到推理模型的思維鏈中,可以高效、穩(wěn)健地傳輸人類的價(jià)值觀和原則。通過向模型教導(dǎo)自己的安全規(guī)則以及如何在上下文中推理它們,OpenAI發(fā)現(xiàn)推理能力直接有利于模型穩(wěn)健性的證據(jù):o1-preview在關(guān)鍵越獄評估和用于評估模型安全拒絕邊界的最嚴(yán)格內(nèi)部基準(zhǔn)平安證券計(jì)算機(jī)·行業(yè)動(dòng)態(tài)跟蹤報(bào)告圖表7o1-preview在安全性測試基準(zhǔn)上好于GPT-4o四、投資建議多數(shù)基準(zhǔn)表現(xiàn)不僅明顯超越GPT-4o,而且在數(shù)學(xué)與編碼能力上實(shí)現(xiàn)了重要飛躍,在理化生等專業(yè)領(lǐng)域的知識水平也達(dá)到新提出了更大需求,同時(shí)也將賦能下游AI應(yīng)用(如編程面,推薦工業(yè)富聯(lián)、浪潮信息、中科曙光、萬興科技、福昕軟件、同花順、彩訊股份;4)網(wǎng)絡(luò)安全方面,強(qiáng)烈推薦啟明星辰。五、風(fēng)險(xiǎn)提示芯片的迭代速度不達(dá)預(yù)期,將影響我國AI算力的發(fā)展,進(jìn)而制約大模型的突破。平安證券計(jì)算機(jī)·行業(yè)動(dòng)態(tài)跟蹤報(bào)告和C端應(yīng)用場景持續(xù)落地,如果產(chǎn)品的市場拓展不及預(yù)期,我國大模型產(chǎn)品的應(yīng)用落地將存在低于預(yù)期的風(fēng)險(xiǎn)。國產(chǎn)大模型廠商的追趕進(jìn)度存在不達(dá)預(yù)期的風(fēng)險(xiǎn)。平安證券研究所投資評級:強(qiáng)烈推薦(預(yù)計(jì)6個(gè)月內(nèi),股價(jià)表現(xiàn)強(qiáng)于市場表現(xiàn)20%以上)推薦(預(yù)計(jì)6個(gè)月內(nèi),股價(jià)表現(xiàn)強(qiáng)于市場表現(xiàn)10%至20%之間)中性(預(yù)計(jì)6個(gè)月內(nèi),股價(jià)表現(xiàn)相對市場表現(xiàn)在±10%之間)回避(預(yù)計(jì)6個(gè)月內(nèi),股價(jià)表現(xiàn)弱于市場表現(xiàn)10%以上)行業(yè)投資評級:強(qiáng)于大市(預(yù)計(jì)6個(gè)月內(nèi),行業(yè)指數(shù)表現(xiàn)強(qiáng)于市場表現(xiàn)5%以上)中性(預(yù)計(jì)6個(gè)月內(nèi),行業(yè)指數(shù)表現(xiàn)相對市場表現(xiàn)在±5%之間)弱于大市(預(yù)計(jì)6個(gè)月內(nèi),行業(yè)指數(shù)表現(xiàn)弱于市場表現(xiàn)5%以上)負(fù)責(zé)撰寫此報(bào)告的分析師(一人或多人)就本研究報(bào)告確認(rèn):本人具有中國證券業(yè)協(xié)會(huì)授予的證券投資咨詢執(zhí)業(yè)資格。平安證券股份有限公司具備證券投資咨詢業(yè)務(wù)資格。本公司研究報(bào)告是針對與公司簽署服務(wù)協(xié)議的簽約客戶的專屬研究產(chǎn)品,為該類客戶進(jìn)行投資決策時(shí)提供輔助和參考,雙方對權(quán)利與義務(wù)均有嚴(yán)格約定。本公司研究報(bào)告僅提供給上述特定客戶,并不面向公眾發(fā)布。未經(jīng)書面授權(quán)刊載或者轉(zhuǎn)發(fā)的,本公司將采取維權(quán)措施追究其侵權(quán)責(zé)任。證券市場是一個(gè)風(fēng)險(xiǎn)無時(shí)不在的市場。您在進(jìn)行證券交易時(shí)存在贏利的可能,也存在虧損的風(fēng)險(xiǎn)。請您務(wù)必對此有清醒的認(rèn)識,認(rèn)真考慮是否進(jìn)行證券交易。市場有風(fēng)險(xiǎn),投資需謹(jǐn)慎。此報(bào)告旨為發(fā)給平安證券股份有限公司(以下簡稱“平安證券”)的特定客戶及其他專業(yè)人士。未經(jīng)平安證券事先書面明文批準(zhǔn),不得更改或以任何方式傳送、復(fù)印或派發(fā)此報(bào)告的材料、內(nèi)容及其復(fù)印本予任何其他人。此報(bào)告所載資料的來源及觀點(diǎn)的出處皆被平安證券認(rèn)為可靠,但平安證券不能擔(dān)保其準(zhǔn)確性或完整性,報(bào)告中的信息或所表達(dá)觀點(diǎn)不構(gòu)成所述證券買賣的出價(jià)或詢價(jià),報(bào)告內(nèi)容僅供參考。平安證券不對因使用此報(bào)告的材料而引致的損失而負(fù)上任何責(zé)任,除非法律法規(guī)有明確規(guī)定??蛻舨⒉荒軆H依靠此報(bào)告而取代行使獨(dú)立判斷。平安證券可發(fā)出其它與本報(bào)告所載資料不一致及有不同結(jié)論的報(bào)告。本報(bào)告及該等報(bào)告反映編寫分析員的不同設(shè)想、見解及分析方法。報(bào)告所載資料、意見及推測僅反映分析員于發(fā)出此報(bào)告日期當(dāng)日的判斷,可隨時(shí)更改。此報(bào)告所指的證券價(jià)格、價(jià)值及收入可跌可升。為免生疑問,此報(bào)告所載觀點(diǎn)并不代表平安證券的立場。平安證券在法律許可的情況下可能參與此報(bào)告所提及的發(fā)行商的投資銀行業(yè)務(wù)或投資其發(fā)行的證券。平安證券股份有限公司2024版權(quán)所有。保留一切權(quán)利。平安證券平安證券研究所電話:400886

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論