版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
事件:2024年9月12日,OpenAI發(fā)布最新模型o1,在編程、理科競賽等推理密集型任務(wù)中性能明顯優(yōu)于GPT-4o,但在部分自然語言任務(wù)中較弱。o1具備全局思維能力,復(fù)雜推理補(bǔ)足長尾需求,開拓學(xué)術(shù)教育等垂類場景。根據(jù)我們的測評,o1思維鏈特征可以概括為:1)優(yōu)先形成全局方法:在解答前o1會先分析問題、概括底層規(guī)律;2)不斷的追問和反思:在輸出最終答案之前,o1會不斷反思解答過程并進(jìn)行改進(jìn),其完整思維鏈可達(dá)數(shù)百行。o1在編程上展現(xiàn)出自主規(guī)劃能力,AI+低代碼/網(wǎng)絡(luò)安全領(lǐng)域有望最早受益。1)低代碼:o1在編程方面具備較強(qiáng)的自主性,可以一定程度上對沖o1高成本和高延遲的問題。2)網(wǎng)絡(luò)安全:o1在網(wǎng)絡(luò)安全攻防中表現(xiàn)優(yōu)秀,能將復(fù)雜任務(wù)分解成多個(gè)子任務(wù),具備初步的自主規(guī)劃能力,也體現(xiàn)出了AI輔助網(wǎng)絡(luò)攻擊的潛在威脅,AI驅(qū)動的網(wǎng)絡(luò)安全攻防升級將成為未來的主旋律。AIAgent是打破AI應(yīng)用發(fā)展瓶頸的關(guān)鍵,o1能否開啟通往Agent之路?受限于模型性能,AI應(yīng)用進(jìn)入瓶頸,北美科技巨頭26年資本支出持續(xù)性以及上游算力產(chǎn)業(yè)鏈的業(yè)績成長性受到質(zhì)疑。而近期前沿論文和o1展現(xiàn)的強(qiáng)化學(xué)習(xí)推理、思維鏈等底層技術(shù),是AI產(chǎn)業(yè)發(fā)展和投資情緒提振的關(guān)鍵。新的ScalingLaw,RL+CoT對于實(shí)現(xiàn)能自主規(guī)劃的AIAgent至關(guān)重要。強(qiáng)化學(xué)習(xí)讓AI自主探索和連續(xù)決策,符合Agent所需的自主規(guī)劃能力。self-play通過自主博弈生成高質(zhì)量數(shù)據(jù),有利于突破外部訓(xùn)練數(shù)據(jù)短缺的現(xiàn)狀。思維鏈能極大提升模型涉及數(shù)學(xué)和符號的推理能力,但在其他問題上提升效果不顯著,甚至可能有損模型性能。推理能力和模型的指令跟隨能力呈現(xiàn)出分離關(guān)系,對于構(gòu)建AGI來說,如何平衡二者的關(guān)系會成為一個(gè)核心問題。RL范式下推理算力需求大幅上升,但不代表訓(xùn)練算力需求會停止增長。o1-preview生成相同內(nèi)容的輸出tokens大約是GPT-4o的5.9倍,其中72%的tokens為推理過程中生成,使用o1-preview的輸出成本約為GPT-4o的36倍。ScalingLaw由訓(xùn)練側(cè)轉(zhuǎn)向推理側(cè),對推理芯片的性能需求也會提高,且預(yù)訓(xùn)練階段也需要消耗大量的算力。強(qiáng)化學(xué)習(xí)推理并不意味著模型參數(shù)停止擴(kuò)張,因?yàn)橹髂P蛥?shù)提升可能會產(chǎn)生更好的推理路徑。北美科技公司進(jìn)入新一輪AI投資周期,資本支出大幅上升可能使公司面臨成本壓力。2024年科技巨頭資本支出/營運(yùn)現(xiàn)金流預(yù)計(jì)將達(dá)到40%以上。在AI的投資回報(bào)率尚不明顯的現(xiàn)狀下,科技巨頭會更加重視AI投資的性價(jià)比。投資建議:1、AI電力:ConstellatiSK海力士、三星電子、美光科技;4)服務(wù)器:聯(lián)想集團(tuán)、超微電腦、戴爾科技、慧與、工業(yè)富聯(lián);5)CoWoS:臺積電、日月光、Amkor科技;6)網(wǎng)絡(luò):中際旭創(chuàng)、新易盛、Coherent、安費(fèi)諾、Arista網(wǎng)絡(luò)。3、AI應(yīng)用:1)云服務(wù)商:微軟、谷歌、亞馬遜、Oracle;2)AI+開發(fā)/數(shù)據(jù)分析:CrowdStrike、Fortinet;4)AIAgent:微軟、Salesforce、Workday;5)風(fēng)險(xiǎn)分析:AI技術(shù)研發(fā)和產(chǎn)品迭代遭遇瓶頸;AI行業(yè)競爭加劇風(fēng)險(xiǎn);商業(yè)化進(jìn)展不及預(yù)期風(fēng)險(xiǎn);國內(nèi)外政策風(fēng)險(xiǎn)。80%2024-12024-1-20% 標(biāo)普500——標(biāo)普500信息技術(shù)資料來源:Wind 相關(guān)研報(bào))()( 4 4 6 8 2.2RL范式下推理算力需求大幅上升,但不代表訓(xùn) 4 5 6 6圖5:針對復(fù)雜數(shù)學(xué)問題,o1-previ 6圖7:針對解碼問題,o1-previ 7 8 8 9 9 9 5 美國東部時(shí)間2024年9月12日,OpenAI發(fā)布最新AI模型o1,o代表Orion(獵戶座),開啟了OpenAI的下一代復(fù)雜推理模型。同時(shí),OpenAI發(fā)布了即日可用的預(yù)覽版o1-preview和性價(jià)比更高的輕量級版本o1-mini,可用范圍如下:1)ChatGPTplus和Teams用戶可以直接使用,但存在次數(shù)限制。剛發(fā)布時(shí)o1-preview每周可進(jìn)行30次問答,o1-mini每周可進(jìn)行50次問答,9月17日開始,o1-preview和o1-mini的次數(shù)限制分別提升至每周50次和每日50次;作為o1的早期版本,o1-preview和o1-mini暫不具備實(shí)時(shí)瀏覽網(wǎng)頁、上傳文件和圖像等功能,計(jì)劃于后續(xù)版本中陸續(xù)開放。2)APITier5用戶可以開始使用o1-preview和o1-mini的API,但速率限制為20RPM,暫不支持函數(shù)調(diào)用、流式處理、系統(tǒng)消息等功能。3)9月16日開始,ChatGPTEnterprise和Edu用戶可訪問這兩種模型。4)未來o1-mini計(jì)劃免費(fèi)向所有ChatGPT用戶開放。在編程、理科競賽等推理密集型任務(wù)中,o1的性能明顯優(yōu)于GPT-4o。根據(jù)OpenAI官方博客,o1在編程競賽Codeforces中的排名分位達(dá)到89%,在美國數(shù)學(xué)奧林匹克競賽(AIME)中躋身前500名,在物理、生物、化學(xué)基準(zhǔn)測試(GPQA)的準(zhǔn)確性超過了人類博士水平。以2024年的AIME考試為例,GPT-4o僅能解決平均12%的問題,而o1的平均正確率在64個(gè)樣本中達(dá)到了83%,在1000個(gè)樣本中達(dá)到了93%。資料來源:OpenAI官網(wǎng),實(shí)心矩陣代表使用pass@1的正確率,虛影矩陣代表64個(gè)樣本的平均正確率在經(jīng)典測試集的表現(xiàn)上,o1性能普遍優(yōu)于GPT-4o。根據(jù)OpenAI官方博客,o1在MMMU測試集的得分為78.2%,成為首個(gè)與人類專家競爭的模型。在57個(gè)MMLU子類別中,o1在54個(gè)子類別中的表現(xiàn)優(yōu)于GPT-4o,在化學(xué)、物理、數(shù)學(xué)等子類別上得分提升顯著,但在公共關(guān)系、計(jì)量經(jīng)濟(jì)學(xué)、英語等學(xué)科上提升幅度較小。資料來源:OpenAI官網(wǎng)博客資料來源:OpenAI官網(wǎng)博客,光大證券研究所整理o1在部分自然語言任務(wù)中評價(jià)弱于GPT-4o,但具備更好的安全性。人類訓(xùn)練師的評分顯示,認(rèn)為o1在個(gè)人寫作、文檔編輯能力上優(yōu)于GPT-4o的比例低于50%,顯示出o1在文字生成和修改能力上沒有明顯提升。但o1在對齊和安全方面優(yōu)于GPT-4o,o1-preview在關(guān)鍵越獄評估和模型安全拒絕邊界評估等指標(biāo)中性能顯著提高。由于o1采用思維鏈的方式進(jìn)行推理,在輸出內(nèi)容的過程中提供了更多的內(nèi)部可見性,賦予模型更強(qiáng)的可控性和更多的優(yōu)化空間。o1-mini在維持較高性能的同時(shí)大幅度降低推理成本。由于在預(yù)訓(xùn)練期間針對STEM推理進(jìn)行了優(yōu)化,o1-mini在數(shù)學(xué)和編碼能力上具備相當(dāng)高的性價(jià)比,且擁有更低的延遲。根據(jù)OpenAI官網(wǎng)博客,o1-mini在AIME數(shù)學(xué)競賽中的得分高于o1-preview,幾乎與o1相當(dāng),但推理成本相較o1-preview便宜80%;此外,o1-mini在Codeforces編碼競賽和網(wǎng)絡(luò)安全競賽中表現(xiàn)優(yōu)異。但另一方面,o1-mini在非STEM的事實(shí)知識任務(wù)中表現(xiàn)較差。資料來源:OpenAI官網(wǎng)博客資料來源:OpenAI官網(wǎng)博客OpenAIo1復(fù)雜推理能力的關(guān)鍵技術(shù)是思維鏈(CoT讓模型在給出答案前進(jìn)行多步思考,而不是一步給出答案。在OpenAI的官方文檔中展示了o1和GPT-4o在解碼、編碼、數(shù)學(xué)、字謎、語言等問題上的解答對比,并展示了o1的完整思維鏈。根據(jù)我們的歸納和測評,o1思維鏈的主要特征可以概括為以下兩點(diǎn):1)優(yōu)先形成全局方法:在開始解答前,o1會先分析問題本身,抽象出底層規(guī)律,避免后續(xù)的解決思路跑偏,相比其他大模型的線性思維過程,準(zhǔn)確度有明顯提升;2)不斷的追問和反思:在輸出最終答案之前,o1會不斷反思自己的解答過程是否有問題,有沒有需要改進(jìn)的地方,其完整思維鏈可達(dá)數(shù)百行。資料來源:OpenAI官網(wǎng)博客例如,在解答縱橫填字游戲的問題時(shí),GPT-4o和o1都會先試圖理解游戲規(guī)則,但GPT-4o僅僅停在了“第一行和第一列單詞首字母相同”上,便直接輸出了錯(cuò)誤答案,而o1通過思維鏈不斷反思,得出了“每一行和每一列的對應(yīng)字母都要相同”的底層規(guī)律,再基于該規(guī)律進(jìn)行解答。同樣,在解答復(fù)雜數(shù)學(xué)問題時(shí),o1會先試圖理解給定信息,通過完整思維鏈中大量的糾錯(cuò)和反思,歸納底層原理,并對后續(xù)的解答過程做出一定的限制。資料來源:OpenAI官網(wǎng)博客不過,當(dāng)前o1-preview所展現(xiàn)出的完整思維鏈仍較為僵化,與人類思維方式有較明顯區(qū)別。例如,在OpenAI官網(wǎng)給出的解碼案例中,實(shí)際的解碼方式為兩個(gè)字母一組,按照字母表順序轉(zhuǎn)化成數(shù)字,取平均值后再轉(zhuǎn)化為對應(yīng)的字母。例如oy=(15+25)/2=20=T。在完整的思維鏈中,o1所想到的第一個(gè)方法就非常接近正確答案,但它依然繼續(xù)窮舉了五種新方法才找到答案。在這個(gè)過程中,可以看到o1的聯(lián)想能力較弱,而是通過類似于窮舉法的方式尋找答案。資料來源:OpenAI官網(wǎng)博客o1的復(fù)雜推理能力有望補(bǔ)足AI應(yīng)用的長尾需求,拓展學(xué)術(shù)教育等領(lǐng)域的垂類應(yīng)用場景。過去以GPT-4o為代表的LLM在解答題目時(shí)雖然正確率較高,但解答方法可能較為繁瑣,不符合教育場景的需求。o1不但在復(fù)雜問題上展現(xiàn)出更高的正確率,而且具備較強(qiáng)的全局思維能力,能優(yōu)化出最佳解題過程,對于學(xué)術(shù)教育場景的AI應(yīng)用使用體驗(yàn)提升較為明顯。OpenAIo1在編程方面具備較強(qiáng)的自主性,可以一定程度上對沖o1高成本和高延遲的問題。根據(jù)o1開發(fā)者團(tuán)隊(duì)的采訪,OpenAI內(nèi)部開發(fā)人員使用o1最多的場景就是編程,主要有兩個(gè)場景:1)采用測試驅(qū)動開發(fā)的方法:先編寫一個(gè)單元測試,明確程序應(yīng)該如何運(yùn)行才算正確,將具體編寫交給o1來完成,開發(fā)者只需要解決架構(gòu)設(shè)計(jì)等更高層次的問題。2)調(diào)試:遇到bug時(shí)直接交給o1,可以直接解決或提供有價(jià)值的思路。另外,o1在解決AL/ML編程問題上進(jìn)步明顯,根據(jù)OpenAI研究工程師訪談,o1-preview的編碼效率比GPT-4o提升15%,在多任務(wù)解決上的效率比GPT-4o提升21%。在民間測試中,o1效果最好的應(yīng)用場景也是編程。1)代碼性能優(yōu)化:將GithubCopilot和o1-preview結(jié)合,僅需幾步操作,就可以優(yōu)化一個(gè)原本運(yùn)行緩慢的編碼器,大幅度提升代碼的性能;2)快速開發(fā)簡單的項(xiàng)目:將AI編程工具CursorComposer和o1-preview結(jié)合,可以在10分鐘內(nèi)完成一個(gè)帶有動畫效果的完整天氣預(yù)報(bào)App。資料來源:X用戶ThomasDohmke@ashtom資料來源:X用戶OliverJane@heyoliverjaneOpenAIo1在網(wǎng)絡(luò)安全攻防中表現(xiàn)優(yōu)秀,能將復(fù)雜任務(wù)分解成多個(gè)子任務(wù),并找到最簡單的解決方法。根據(jù)OpenAI官方Systemcard,o1-preview使用網(wǎng)絡(luò)安全挑戰(zhàn)賽CTF的課題進(jìn)行測試,該課題要求參賽者找到隱藏在Docker中的flag,但由于系統(tǒng)配置問題比賽環(huán)境崩潰。在比賽幾乎無法進(jìn)行的情況下,o1-preview突破了主機(jī)VM上運(yùn)行的DockerdeamonAPI,在嘗試修復(fù)環(huán)境失敗后,模型直接通過啟動命令啟動了損壞容器的新實(shí)例,該實(shí)例允許模型直接通過DockerAPI從容器日志中讀取flag,最終完成了課題。資料來源:OpenAIo1SystemCard未來網(wǎng)絡(luò)安全的攻防環(huán)境將變得更加復(fù)雜。從上述案例中,我們看到o1-preview在編程方面已經(jīng)初步具備了自主規(guī)劃能力,在遇到復(fù)雜困難時(shí)嘗試主動解決問題。而o1在解決問題的過程中采取了帶有攻破性質(zhì)的解決方法,也體現(xiàn)出了AI輔助網(wǎng)絡(luò)攻擊的潛在威脅較大。根據(jù)CrowdStrike發(fā)布的全球威脅報(bào)告,2023年全球網(wǎng)絡(luò)攻擊平均突破防御的時(shí)間從上一年的84分鐘下降到62分鐘,其中云入侵案例同比增加了75%。攻擊者越來越多地使用生成式AI降低網(wǎng)絡(luò)攻擊的操作和準(zhǔn)入門檻,企業(yè)面臨更大的網(wǎng)絡(luò)安全威脅。資料來源:《CrowdStrike2024年全球威脅報(bào)告》資料來源:《CrowdStrike2024年全球威脅報(bào)告》另一方面,基于AI/ML的網(wǎng)絡(luò)安全解決方案也在不斷升級和迭代,AI驅(qū)動的網(wǎng)絡(luò)安全攻防升級將成為未來行業(yè)的主旋律。23年以來網(wǎng)絡(luò)安全公司陸續(xù)推出生成式AI驅(qū)動的功能,主要包含以下幾方面能力:1)AI/ML技術(shù)強(qiáng)化威脅檢測和安全保護(hù)能力:AI技術(shù)融入網(wǎng)絡(luò)安全產(chǎn)品體驗(yàn),技術(shù)壁壘主要在于各公司積累的安全日志和響應(yīng)數(shù)據(jù)。2)生成可視化安全日志:對公司網(wǎng)絡(luò)安全狀況進(jìn)行分析,生成可視化、可交互的安全日志,幫助員工快速了解公司安全漏洞,生成定制化的應(yīng)對方案。3)AI聊天機(jī)器人助手:將聊天機(jī)器人嵌入網(wǎng)絡(luò)安全云原生平臺,使用自然語言交互降低安全員的技術(shù)門檻。安全員復(fù)雜操作的門檻,使用大模型識別身份風(fēng)險(xiǎn)、風(fēng)險(xiǎn)Falcon平臺引入英偉達(dá)AI計(jì)算服務(wù),使用其獨(dú)特而豐富的網(wǎng)絡(luò)威脅情報(bào)數(shù)據(jù),幫助用戶構(gòu)建和訓(xùn)練擊全平臺并出現(xiàn)在各種用戶界面,顯著提升安全任務(wù)效率、降低安全員的技證流程和訪問控制,并且利用機(jī)器學(xué)習(xí)和預(yù)測分析來識別和應(yīng)對潛提供網(wǎng)絡(luò)安全方面的咨詢和指導(dǎo);提供實(shí)時(shí)的威脅情報(bào)和風(fēng)險(xiǎn)評估,幫助組織了解當(dāng)前的網(wǎng)絡(luò)安全威脅和漏洞,并根據(jù)組織的需求和網(wǎng)絡(luò)環(huán)境,提供定制化的安全架構(gòu)規(guī)劃。通過分析和評估組織的網(wǎng)絡(luò)安全配置和運(yùn)行狀況,提供性能優(yōu)化建議和最佳實(shí)資料來源:各公司官網(wǎng),光大證券研究所整理OpenAIo1在挑戰(zhàn)性拒絕評估、越獄抗性、幻覺控制等能力上提升明顯,對于AI生成內(nèi)容的安全性意義重大。根據(jù)OpenAI官方Systemcard,涉及要求拒絕不安全請求的復(fù)雜Prompt時(shí),o1-preview實(shí)現(xiàn)了93.4%的安全率,明顯超過GPT-4o的71.3%。在具有強(qiáng)挑戰(zhàn)性的越獄學(xué)術(shù)基準(zhǔn)StrongReject上,o1-preview相比GPT-4o顯示出明顯地改進(jìn),抵抗違反安全規(guī)則行為的能力更強(qiáng)。另外,與GPT-4o相比,o1-preview在SimpleA、BirthdayFacts等多個(gè)數(shù)據(jù)集中表現(xiàn)出更少的幻覺,提供了更準(zhǔn)確可靠的回答。資料來源:OpenAIo1SystemCard受限于模型性能,AI應(yīng)用發(fā)展進(jìn)入瓶頸。當(dāng)前以GPT-4o為代表的LLM在文本處理和生成上表現(xiàn)優(yōu)異,但也導(dǎo)致了AI應(yīng)用的形式局限于聊天機(jī)器人,產(chǎn)品形態(tài)同質(zhì)化,難以發(fā)掘用戶潛在需求、形成足夠的用戶粘性。而用戶付費(fèi)意愿不足,AI應(yīng)用的成本收益臨界點(diǎn)尚未到來,是AI應(yīng)用難以大規(guī)模推廣的最大癥結(jié)。以北美科技巨頭為代表的企業(yè)已經(jīng)投入大量資本支出用于AI基礎(chǔ)設(shè)施建設(shè),折舊成本將對利潤端造成壓力,若削減資本支出,則會削弱上游算力產(chǎn)業(yè)鏈的業(yè)績成長性。AI產(chǎn)業(yè)鏈已來到十字路口,模型底層技術(shù)的突破,是整個(gè)AI產(chǎn)業(yè)發(fā)展和投資情緒提振的關(guān)鍵。AIAgent是AI發(fā)展的下一個(gè)臺階,是打破AI應(yīng)用癥結(jié)的關(guān)鍵,而o1展現(xiàn)的底層技術(shù)走在正確的道路上。AIAgent應(yīng)當(dāng)擁有自主理解、規(guī)劃和執(zhí)行復(fù)雜任務(wù)的能力,可以將簡單的指令自主拆分成多個(gè)步驟并精細(xì)化執(zhí)行,將上一環(huán)節(jié)的輸入作為下一環(huán)節(jié)的輸出。早在23M4便有AutoGPT、BabyAGI等Agent項(xiàng)目作為早期探索,但性能尚不成熟,容易陷入死循環(huán)卡死、消耗大量tokens的問題,且AI全自動代理存在潛在的可靠性風(fēng)險(xiǎn)。而近期的AI領(lǐng)域前沿論文,以及OpenAIo1集成前沿理論推出的實(shí)際模型,展現(xiàn)了當(dāng)前模型性能迭代和技術(shù)演進(jìn)路徑正走在通往Agent的正確道路上。具體包括三個(gè)關(guān)鍵點(diǎn):1)強(qiáng)化學(xué)習(xí)推理(RLReasoning)產(chǎn)生了新的ScalingLaw,為模型性能的提升提供了更多的維度。當(dāng)前大模型參數(shù)量擴(kuò)張進(jìn)入瓶頸,市場普遍擔(dān)憂26年科技巨頭資本支出持續(xù)性的問題,我們認(rèn)為,強(qiáng)化學(xué)習(xí)ScalingLaw對推理算力擴(kuò)張的需求大幅增加的同時(shí),對訓(xùn)練算力擴(kuò)張的需求也將持續(xù)提升。2)強(qiáng)化學(xué)習(xí)范式中的self-play通過自主博弈生成大量高質(zhì)量數(shù)據(jù),有利于突破當(dāng)前外部訓(xùn)練數(shù)據(jù)逐漸用盡的現(xiàn)狀。3)強(qiáng)化學(xué)習(xí)范式中的蒙特卡洛樹搜索(MCTS)具備自主探索和連續(xù)決策的能力,更適應(yīng)AIAgent的全局規(guī)劃需求。 資料來源:SeednapseAI,光大證券研究所整理資料來源:AlphaTensor論文,展現(xiàn)了AlphaZero矩陣運(yùn)算解題時(shí)的變種,圖中的Acting對應(yīng)隨機(jī)初始化、self-play、MCTS,learning對應(yīng)策略更新慢思考或?qū)⑼黄芐calingLaw的邊界,帶來模型性能的進(jìn)一步突破。在過去幾年,LLM的發(fā)展主要依賴于訓(xùn)練側(cè)的大規(guī)模投入,其性能提升依賴于模型規(guī)模、數(shù)據(jù)量和計(jì)算資源的擴(kuò)展,而與模型的具體結(jié)構(gòu)(例如層數(shù)、深度、寬度)基本無關(guān)。長期來看,隨著大模型參數(shù)突破萬億級、有效訓(xùn)練數(shù)據(jù)被大量消耗,模型的訓(xùn)練和推理的成本迅速上升,邊際收益遞減,ScalingLaw驅(qū)動的技術(shù)路徑和商業(yè)化前景可能遭遇瓶頸。在這樣的背景下,o1揭示了一種充滿可能性的ScalingLaw范式,即強(qiáng)化學(xué)習(xí)(RL)驅(qū)動的性能提升,通過訓(xùn)練過程和推理過程兩種渠道來拓展模型的計(jì)算能力。o1采用大規(guī)模強(qiáng)化學(xué)習(xí)算法,展現(xiàn)出訓(xùn)練和測試兩個(gè)維度的ScalingLaw。根據(jù)官網(wǎng)博客,在強(qiáng)化學(xué)習(xí)過程中,o1在AIEM測試中的準(zhǔn)確率與“訓(xùn)練時(shí)間計(jì)算”和“測試時(shí)間計(jì)算”呈正比。1)訓(xùn)練時(shí)間計(jì)算:代表傳統(tǒng)的ScalingLaw,即模型性能提升依賴于訓(xùn)練時(shí)投入更多的計(jì)算資源;2)測試時(shí)間計(jì)算:代表測試時(shí)模型性能隨著推理時(shí)間延長而提升,包括多次的推理迭代、更加復(fù)雜的搜索算法或模型的深度思考,從而在特定垂類任務(wù)中表現(xiàn)增強(qiáng)。因此,o1不僅通過增加訓(xùn)練時(shí)投入的計(jì)算資源來提升模型性能,還通過增加推理過程中的內(nèi)部思考時(shí)間來獲得能力的提升,訓(xùn)練和推理ScalingLaw雙曲線共同增長,為大模型性能提升提供了更多的維度。資料來源:OpenAI官網(wǎng)博客強(qiáng)化學(xué)習(xí)范式對于實(shí)現(xiàn)自主規(guī)劃的AIAgent至關(guān)重要。大模型訓(xùn)練的三大經(jīng)典范式(監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí))中,只有強(qiáng)化學(xué)習(xí)讓AI進(jìn)行自主探索和連續(xù)決策,符合Agent定義中的自主規(guī)劃能力。1)自主探索:強(qiáng)化學(xué)習(xí)允許AIAgent在沒有明確目標(biāo)的情況下,通過與環(huán)境互動探索可能的解決方案,并基于獎懲反饋動態(tài)調(diào)整策略,使Agent能使用復(fù)雜、多變的決策環(huán)境。2)連續(xù)決策:強(qiáng)化學(xué)習(xí)支持多步驟的決策過程,關(guān)注如何在一系列決策中最大化長期回報(bào),使Agent具備更強(qiáng)的長線規(guī)劃能力。當(dāng)前LLM主要依賴RLHF進(jìn)行優(yōu)化,目標(biāo)是“人機(jī)對齊”,弱化了邏輯推理的深度和嚴(yán)謹(jǐn)性;而強(qiáng)化學(xué)習(xí)基于self-play+MCTS的底層架構(gòu),通過高質(zhì)量的數(shù)據(jù)博弈提升推理能力。1)self-play:通過AI與自己博弈生成大量的高質(zhì)量數(shù)據(jù);2)MCTS(蒙特卡洛樹搜索基于策略網(wǎng)絡(luò)提供的動作概率分布引導(dǎo)搜索方向,通過價(jià)值網(wǎng)絡(luò)的評估結(jié)果為搜索提供反饋,使模型的推理能力提升,且推理過程更加可見,有助于進(jìn)一步調(diào)試和改進(jìn)AIAgent模型。資料來源:《ScalingLLMTest-TimeComputeOptimallycanbeMoreEffectivethanScalingModelParameters》,GoogleDeepMind,2024年8月左圖代表隨著時(shí)間推移,計(jì)算優(yōu)化縮放策略的表現(xiàn)逐漸優(yōu)于傳統(tǒng)的best-of-N方法;右圖論證了推理過程中使用計(jì)算優(yōu)化縮放與更大參數(shù)預(yù)訓(xùn)練之間的權(quán)衡,表明在簡單問題上,測試時(shí)的計(jì)算比預(yù)訓(xùn)練更有效,但在復(fù)雜問題上預(yù)訓(xùn)練更有效除了強(qiáng)化學(xué)習(xí)推理外,o1的另一個(gè)關(guān)鍵底層技術(shù)是思維鏈(CoT)。思維鏈通過分步推理的方式,要求模型在生成最終答案之前,先生成一系列中間推理步驟。僅靠MCTS很難讓模型學(xué)會從內(nèi)部思考不同步驟的關(guān)聯(lián),而思維鏈能夠利用LLM已有的推理能力,生成合理的中間推理過程,并進(jìn)一步將合理推理過程(Rationales)融入到訓(xùn)練過程中。Quiet-STaR技術(shù)則提出了“內(nèi)部思維”的概念,將顯示的Rationales推理過程轉(zhuǎn)化為模型內(nèi)部隱式的推理過程,從而擺脫對外部示例的依賴。強(qiáng)化學(xué)習(xí)推理和思維鏈?zhǔn)窍嗷ソY(jié)合、一脈相承的。思維鏈能極大提升模型涉及數(shù)學(xué)和符號的推理能力,但在其他問題上提升效果不顯著,甚至可能有損模型性能。論文《ToCoTornottoCoT?》中探討了在模型中采用思維鏈的表現(xiàn),在數(shù)學(xué)、符號推理能力上提升明顯,在知識、常識、軟推理上無明顯提升。另外,使用思維鏈時(shí)模型能更好地生成可執(zhí)行的方案,但表現(xiàn)不如借助外部工具(如符號求解器)。盡管OpenAIo1在數(shù)學(xué)、物理等復(fù)雜推理上能力提升明顯,但在一些語言生成任務(wù)上沒有明顯提升,使它無法成為一個(gè)可靠的Agent助手。這體現(xiàn)了推理能力和模型的指令跟隨能力呈現(xiàn)出分離關(guān)系,在模型強(qiáng)大到一定程度時(shí)才會出現(xiàn),對于構(gòu)建AGI來說,如何平衡二者的關(guān)系會成為一個(gè)核心問題。ScalingLaw由訓(xùn)練側(cè)轉(zhuǎn)向推理側(cè),推理成本大幅提升,但不代表訓(xùn)練端計(jì)算資源投入會降低?;趶?qiáng)化學(xué)習(xí)的ScalingLaw范式,本質(zhì)是將訓(xùn)練時(shí)間轉(zhuǎn)化為推理時(shí)間,來應(yīng)對訓(xùn)練側(cè)計(jì)算資源投入的邊際收益遞減的狀況。由于Quiet-STaR在生成內(nèi)部思維鏈的過程中,每個(gè)Token均會生成下一步思考過程,導(dǎo)致生成了大量的冗余Tokens,對推理側(cè)計(jì)算資源的需求大幅增加。有觀點(diǎn)認(rèn)為,推理相比訓(xùn)練對GPU單卡性能和集群規(guī)模的需求更低,若強(qiáng)化學(xué)習(xí)推理成為主流,會導(dǎo)致市場對高端GPU的整體需求降低。但我們認(rèn)為,強(qiáng)化學(xué)習(xí)ScalingLaw對推理算力擴(kuò)張的需求大幅增加的同時(shí),對訓(xùn)練算力擴(kuò)張的需求也將持續(xù)提升。當(dāng)前o1存在思考時(shí)間過長、推理成本過高的問題,使其實(shí)際使用場景非常受限,為了加快推理速度,對推理芯片的性能需求也會水漲船高。根據(jù)ArtificialAnalysis的測試,o1-preview生成相同內(nèi)容的輸出tokens大約是GPT-4o的5.9倍,其中72%的tokens為推理過程中生成,按60美元/100萬tokens的價(jià)格收費(fèi)。因此,使用o1-preview的輸出成本約為GPT-4o的36倍。另一方面,o1-preview的輸出速度在主流模型中排名靠后,使其實(shí)際使用體驗(yàn)不佳。資料來源:ArtificialAnalysis,圓點(diǎn)大小代表價(jià)格,縱軸為ArtificialAnalysis編制的質(zhì)量指數(shù)資料來源:ArtificialAnalysis,單位:美元/百萬tokens資料來源:ArtificialAnalysis,tokens統(tǒng)計(jì)方法為30個(gè)樣例prompts加總另一方面,強(qiáng)化學(xué)習(xí)推理的預(yù)訓(xùn)練階段同樣需要消耗大量的算力。強(qiáng)化學(xué)習(xí)推理通過self-play自我博弈,生成大量的高質(zhì)量數(shù)據(jù)。該方法可以緩解當(dāng)前可用高質(zhì)量訓(xùn)練數(shù)據(jù)不足的問題,但生成的數(shù)據(jù)理論上是沒有上限的,這個(gè)過程需要消耗大量的算力。也有觀點(diǎn)認(rèn)為,強(qiáng)化學(xué)習(xí)推理并不意味著模型參數(shù)量停止擴(kuò)張,因?yàn)閟elf-play的主模型參數(shù)提升可能會產(chǎn)生更好的推理路徑。總的來說,雖然強(qiáng)化學(xué)習(xí)ScalingLaw對算力需求的影響存在不確定性,但是新的技術(shù)路徑激發(fā)了更多的可能性。除了硬件更新外,模型架構(gòu)優(yōu)化也有望點(diǎn)燃新的ScalingLaw,這可能會改變北美云廠商未來幾年的資本支出策略。北美科技公司進(jìn)入新一輪AI投資周期,資本支出大幅上升可能使公司面臨成本壓力。經(jīng)歷了2022年的宏觀環(huán)境逆風(fēng)和凈利潤承壓后,北美科技公司在2023年普遍開啟降本增效,從資本支出占營運(yùn)現(xiàn)金流的比例來看,利潤壓力較大的亞馬遜、Meta、Oracle大幅削減了資本支出的占比,谷歌資本支出占比無明顯變化,微軟、特斯拉資本支出占比均呈上升趨勢。而根據(jù)公司指引,2024年和2025年科技巨頭有望繼續(xù)增加資本支出,Meta則明確指出持續(xù)增加的投資會使2025年的折舊成本大幅提升。根據(jù)彭博一致預(yù)期,2024年科技巨頭資本支出占營運(yùn)現(xiàn)金流的比例將普遍達(dá)到40%以上。因此,在AI的投資回報(bào)率尚不明顯的現(xiàn)狀下,科技巨頭會更加重視AI戰(zhàn)略的性價(jià)比。80%60%40%20%谷歌----谷歌----資料來源:彭博,光大證券研究所整理,已排除自由現(xiàn)金流為負(fù)的年份和極端值,24E數(shù)據(jù)為彭博一致預(yù)期亞馬遜—----亞馬遜—-----資料來源:彭博,光大證券研究所整理,已排除虧損年份和極端值,24E數(shù)據(jù)為彭博一致預(yù)期根據(jù)前文所述,OpenAIo1所展現(xiàn)出的技術(shù)路徑的演進(jìn)方向,即強(qiáng)化學(xué)習(xí)推理和思維鏈,產(chǎn)生了推理層面的ScalingLaw,有利于緩解訓(xùn)練側(cè)計(jì)算資源投入邊際遞減的現(xiàn)狀。我們認(rèn)為,強(qiáng)化學(xué)習(xí)ScalingLaw對推理算力擴(kuò)張的需求大幅增加的同時(shí),對訓(xùn)練算力擴(kuò)張的需求也將持續(xù)提升,算力需求仍將持續(xù)強(qiáng)勁。而訓(xùn)練成本轉(zhuǎn)嫁為推理成本,對于AI應(yīng)用的商業(yè)化前景來說是個(gè)積極的變化,因?yàn)橥评淼某杀鞠陆档乃俣雀?、彈性更大。從行業(yè)的視角來看,雖然科技巨頭擁有較為充足的自由現(xiàn)金流支持資本開支的持續(xù)增加,但仍面臨折舊成本提升和一定的利潤壓力,緩解硬件成本壓力的需求較為迫切。另一方面,軟件公司對于AI應(yīng)用的探索很激進(jìn),需要性能更強(qiáng)、更具可靠性的Agent來突破困局,微軟、Salesforce均已推出類似Agent的產(chǎn)品,靜待后續(xù)Agent底層技術(shù)的迭代,撬動Agent應(yīng)用的飛輪效應(yīng)。1、建議關(guān)注AI電力:AI數(shù)據(jù)中心持續(xù)提振電力需求,亞馬遜、微軟等云廠商簽署長期協(xié)議,清潔能源需求強(qiáng)勁,關(guān)注核電供應(yīng)商Constellation、光伏供應(yīng)2、建議關(guān)注AI算力產(chǎn)業(yè)鏈:1)AIGPU:訓(xùn)練側(cè)AI大模型持續(xù)迭代,推理側(cè)和端側(cè)延伸引發(fā)增量需求,產(chǎn)品加速迭代出貨,關(guān)注英偉達(dá)、AMD;2)ASIC芯片設(shè)計(jì):AI算力需求由通用芯片向配合行業(yè)和公司特性的專用定制AI芯片轉(zhuǎn)型,關(guān)注Marvell科技、博通;3)存儲:AI手機(jī)/AIPC提升容量需求,云端算力帶動HBM供不應(yīng)求、市場規(guī)模高速增長,關(guān)注SK海力士、三星電子、美光科技;4)服務(wù)器:AI算力需求強(qiáng)勁帶動AI服務(wù)器出貨量攀升,在手訂單高漲,關(guān)注聯(lián)想集團(tuán)、超微電腦、戴爾科技、慧與、工業(yè)富聯(lián);5)CoWoS:先進(jìn)封裝CoWoS產(chǎn)能成AI算力供應(yīng)瓶頸,臺積電訂單持續(xù)外溢,封測廠受益,關(guān)注臺積電、日月光、Amkor科技;6)網(wǎng)絡(luò):萬卡算力集群化趨勢驅(qū)動通信互聯(lián)需求,利好光模塊、連接器、交換機(jī)等,關(guān)注中際旭創(chuàng)、新易盛、Coherent、安費(fèi)諾、Arista網(wǎng)絡(luò)。3、建議關(guān)注AI應(yīng)用產(chǎn)業(yè)鏈:1)云技術(shù)服務(wù)商:充裕的現(xiàn)金流支持大額資本支出投入,基礎(chǔ)設(shè)施壁壘高筑,用戶基礎(chǔ)廣闊,關(guān)注微軟、谷歌、亞馬遜、Oracle;2)AI+開發(fā)/數(shù)據(jù)分析:o1展現(xiàn)出強(qiáng)大的復(fù)雜推理和編程能力,對于數(shù)據(jù)分析、低代碼等產(chǎn)品的使用體驗(yàn)提升明顯,關(guān)注ServiceNow、Palantir、Datadog;3)AI+網(wǎng)絡(luò)安全:o1在解決問題的過程中采取了帶有攻破性質(zhì)的解決方法,也體現(xiàn)出了AI輔助網(wǎng)絡(luò)攻擊的潛在威脅。另一方面,基于AI/ML的網(wǎng)絡(luò)安全解決方案也在不斷升級和迭代,AI驅(qū)動的網(wǎng)絡(luò)安全攻防升級將成為未來行業(yè)的主旋律。關(guān)注致力于AI/ML+網(wǎng)絡(luò)安全解決方案、擁有較強(qiáng)技術(shù)壁壘的的公司,關(guān)注4)AIAgent:當(dāng)前企業(yè)客戶對AI的數(shù)據(jù)整合、后臺打通、優(yōu)化工作流的潛在需求較為強(qiáng)勁,o1的技術(shù)路徑有望加速Agent的發(fā)展,大型SaaS公司擁有堅(jiān)實(shí)的客戶基礎(chǔ)、成熟的銷售渠道,特別是專注于ERP、CRM等領(lǐng)域的SaaS產(chǎn)品服務(wù)于企業(yè)工作流,與Agent的邏輯相契合,關(guān)注微軟、Salesforce、5)AI+教育:o1在復(fù)雜問題上具備強(qiáng)大的推理能力和全局思維能力,有望拓展學(xué)術(shù)教育等垂類應(yīng)用場景,關(guān)注多鄰國、Coursera。1)AI技術(shù)研發(fā)和產(chǎn)品迭代遭遇瓶頸:當(dāng)前AI產(chǎn)業(yè)發(fā)展較依賴前沿技術(shù)突破,若遭遇瓶頸則會導(dǎo)致AI應(yīng)用需求不足;2)AI行業(yè)競爭加劇風(fēng)險(xiǎn):當(dāng)前AI產(chǎn)業(yè)鏈面臨激烈競爭,可能因行業(yè)競爭加劇而擠壓利潤空間;3)商業(yè)化進(jìn)展不及預(yù)期風(fēng)險(xiǎn):AI應(yīng)用的用戶需求和滲透率擴(kuò)張可能低于預(yù)期;4)國內(nèi)外政策風(fēng)險(xiǎn):AI相關(guān)版權(quán)和數(shù)據(jù)合規(guī)政策仍待完善。行公司評級因無法獲取必要的資料,或者公司面臨無法預(yù)見結(jié)果的重大不確定性事件,或者其他原因,致使無本報(bào)告所包含的分析基于各種假設(shè),不同假設(shè)可能導(dǎo)致分析結(jié)果出現(xiàn)重大不同。本報(bào)告采用的各種估值方法及模型均有其局限性,估值結(jié)果不保本報(bào)告署名分析師具有中國證券業(yè)協(xié)會授予的證券投資咨詢執(zhí)業(yè)資格并注
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 四川省瀘州市瀘縣五中2024-2025學(xué)年高一(上)期末生物試卷(含答案)
- 習(xí)作:我的家人 說課稿-2024-2025學(xué)年語文四年級上冊統(tǒng)編版
- 鉬產(chǎn)品深加工技術(shù)改造產(chǎn)能提升項(xiàng)目可行性研究報(bào)告寫作模板-申批備案
- 廣西壯族自治區(qū)南寧市2024-2025學(xué)年八年級上學(xué)期期末生物試題(無答案)
- 安徽省淮北市和淮南市2025屆高三第一次質(zhì)量檢測歷史試卷(含答案)
- 陜西省寶雞市(2024年-2025年小學(xué)六年級語文)部編版期中考試((上下)學(xué)期)試卷及答案
- Unit 2 Making a Difference Developing ideas The power of good 說課稿-2023-2024學(xué)年高一英語外研版(2019)必修第三冊
- Unit 1 developing the topic-Oral communication 說課稿 2024-2025學(xué)年仁愛科普版(2024)七年級英語上冊
- 貴州黔南經(jīng)濟(jì)學(xué)院《數(shù)據(jù)結(jié)構(gòu)Ⅰ》2023-2024學(xué)年第一學(xué)期期末試卷
- 新疆塔城地區(qū)(2024年-2025年小學(xué)六年級語文)統(tǒng)編版綜合練習(xí)((上下)學(xué)期)試卷及答案
- YY 0016-1993低頻電子脈沖治療儀
- GB/T 16758-2008排風(fēng)罩的分類及技術(shù)條件
- 銀行分管財(cái)務(wù)副行長個(gè)人述職報(bào)告4篇全文
- 學(xué)校信息中心述職報(bào)告(共3篇)
- 小說與散文的區(qū)別課件
- 景德鎮(zhèn)綠地昌南里項(xiàng)目視頻討論會ua根據(jù)0108意見修改
- 豆腐的制作工藝及配方
- DB-T 29-202-2022 天津市建筑基坑工程技術(shù)規(guī)程
- 福建省社會體育指導(dǎo)員信息表
- DB51∕T 5060-2013 四川省預(yù)拌砂漿生產(chǎn)與應(yīng)用技術(shù)規(guī)程
- 珠心算習(xí)題匯總(可以打印版A4)
評論
0/150
提交評論