生成式人工智能行業(yè)專題研究:海外大模型篇:生成式AI加速創(chuàng)新行業(yè)迎歷史性機(jī)遇_第1頁
生成式人工智能行業(yè)專題研究:海外大模型篇:生成式AI加速創(chuàng)新行業(yè)迎歷史性機(jī)遇_第2頁
生成式人工智能行業(yè)專題研究:海外大模型篇:生成式AI加速創(chuàng)新行業(yè)迎歷史性機(jī)遇_第3頁
生成式人工智能行業(yè)專題研究:海外大模型篇:生成式AI加速創(chuàng)新行業(yè)迎歷史性機(jī)遇_第4頁
生成式人工智能行業(yè)專題研究:海外大模型篇:生成式AI加速創(chuàng)新行業(yè)迎歷史性機(jī)遇_第5頁
已閱讀5頁,還剩89頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

——生成式人工智能行業(yè)專題研究:海外大模型篇SAC執(zhí)業(yè)資格證書編碼:S0020519070002??第一部分:生成式AI快速發(fā)展,技術(shù)奇點(diǎn)有望到來?第二部分:技術(shù)創(chuàng)新百花齊放,海外巨頭引領(lǐng)創(chuàng)新請務(wù)必閱讀正文之后的免責(zé)條款部分 1基礎(chǔ)的生成算法模型是驅(qū)動AI的關(guān)鍵4請務(wù)必閱讀正文之后的免責(zé)條款部分資料來源:騰訊研究院《AIGC發(fā)展趨勢報告》,國元證券研究所4 1基礎(chǔ)的生成算法模型是驅(qū)動AI的關(guān)鍵一種基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,最初用來完成不包含Encoder和Decoder部分,分別提出了一種從一組輸入圖像中優(yōu)化連續(xù)5D神經(jīng)輻射場的表示(任何連續(xù)位置的進(jìn)行另一個模型的訓(xùn)練,不斷調(diào)整兩個模型的內(nèi)部參數(shù),使得模型分別輸Transformer的注意力機(jī)制學(xué)習(xí)圖像的全局依賴關(guān)系,具有良好的可擴(kuò)展性,可以訓(xùn)練到更資料來源:騰訊研究院《AIGC發(fā)展趨勢報告》,經(jīng)55 1基礎(chǔ)的生成算法模型是驅(qū)動AI的關(guān)鍵>通過梳理全球主流大語言模型(LLM)的發(fā)展脈絡(luò),2018年以來的GPT系列、LLaMA系列、BERT等多款大模型均發(fā)66 2預(yù)訓(xùn)練模型引發(fā)了AI技術(shù)能力的質(zhì)變77 2預(yù)訓(xùn)練模型引發(fā)了AI技術(shù)能力的質(zhì)變AlphaCodeAlphaCode4810億4810億AnthropicAnthropic 3預(yù)訓(xùn)練數(shù)據(jù)直接決定AI大模型性能成本(GPU的數(shù)量和訓(xùn)練時間等)是受限的,因此一般通過增加數(shù)據(jù)集大小和增加模型中的參數(shù)量兩種途徑來提升模型性能。99 3預(yù)訓(xùn)練數(shù)據(jù)直接影響AI大模型性能用來訓(xùn)練數(shù)據(jù)的數(shù)據(jù)規(guī)模和質(zhì)量卻有很大的提升,進(jìn)而引發(fā)模型性能的飛躍。以吳恩達(dá)(AndrewNg)為代表的學(xué)者觀點(diǎn)認(rèn)為,人工智來源多樣性來源多樣性數(shù)據(jù)規(guī)模數(shù)據(jù)規(guī)模數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量針對大模型需求制定配比足夠規(guī)模的高質(zhì)量語料高質(zhì)量訓(xùn)練集能提高模型精度,不同場景/領(lǐng)域的數(shù)據(jù)具有不同的語言隨著模型參數(shù)量的增加,也需要更多數(shù)減少訓(xùn)練時長特征,對模型能力提升的點(diǎn)也不同。如:據(jù)來訓(xùn)練。只有參數(shù)規(guī)模突破了100億有重復(fù)、噪聲、錯誤數(shù)據(jù)等低質(zhì)量語料書籍語料占比提升,可以提升上下文理以上的大模型才具有“涌現(xiàn)能力”會損害模型性能。如:訓(xùn)練語料有重復(fù), 3預(yù)訓(xùn)練數(shù)據(jù)直接影響AI大模型性能>為了追求更好的模型性能,模型參數(shù)規(guī)模也與訓(xùn)練數(shù)據(jù)量同步快速增長,模型參數(shù)量大約每18個月時間就會增長40倍。例如2016年 根據(jù)第三方咨詢機(jī)構(gòu)格物致勝的統(tǒng)計數(shù)據(jù),2022年中國人工智能市場規(guī)模達(dá)到2058億元,預(yù)計2023-2027年市場規(guī)模將保持28.2%的復(fù)合增長率,2027年中國人工智能市場規(guī)模將達(dá)到7119億元。根據(jù)statista的02020202120222023E2024E0202120222023請務(wù)必閱讀正文之后的免責(zé)條款部分?》1.2趨勢展望:從單一模態(tài)到多模態(tài),從AI邁向AGI >多模態(tài)較單一模態(tài)更進(jìn)一步,已經(jīng)成為大模型主戰(zhàn)場。人類通過圖片、文字、語言等多合多種模態(tài)、對齊不同模態(tài)之間的關(guān)系,使信息在模態(tài)之間傳遞。2023年以來,OpenAI發(fā)布的GPT-4V、Google發(fā)布的Gemini、Anthropic發(fā)布的Claude3均為多模態(tài)模型,展現(xiàn)出了出色的多模態(tài)輸出,包括文本、圖像、音頻、視頻、3D模型等多種模1.2趨勢展望:從單一模態(tài)到多模態(tài),從AI邁向AGI >多模態(tài)大型語言模型(MLLMs)的通用架構(gòu),由1)視覺編碼器(VisualEncoder)、2)語言模型(LanguageModel)和3)適配器模塊(AdapterModule)組成。1)負(fù)?》1.2趨勢展望:從單一模態(tài)到多模態(tài),從AI邁向AGI >3D生成技術(shù)應(yīng)用廣闊,但仍處在技術(shù)臨界點(diǎn)以前。3D生成技術(shù)可廣泛應(yīng)用于3D虛擬人、3D人臉、3D場景等領(lǐng)域,目前3D生成的主3D,該路徑直接使用3D數(shù)據(jù)進(jìn)行訓(xùn)練,從訓(xùn)練到微調(diào)到推理都基于31.2趨勢展望:從單一模態(tài)到多模態(tài),從AI邁向AGI 3具身智能:智能涌現(xiàn)從虛擬世界走向物理世界>當(dāng)大模型遷移到機(jī)器人身上,大模型的智能和泛化能力有望點(diǎn)亮通用機(jī)器人的曙光。2023年7月,谷歌推出機(jī)器人模型RoboticsTransformer2(RT-2),這是一個全新的視覺-語言-動作(VLA)模型,從網(wǎng)絡(luò)和機(jī)器人數(shù)據(jù)中學(xué)習(xí),并將這些知識轉(zhuǎn)化為機(jī)器人控制的通用指令。2024年3月,機(jī)器人初創(chuàng)企業(yè)Figure展示了基于OpenAI模型的全尺寸人形機(jī)器人Figur),請務(wù)必閱讀正文之后的免責(zé)條款部分 一個衡量“性能”和“通用性”的矩陣,涵蓋從無人工智能到超人類AGI(一個在所有任務(wù)上都優(yōu)于所有人的通用人1.2趨勢展望:從單一模態(tài)到多模態(tài),從AI邁向AGI 領(lǐng)的DeepMind研究團(tuán)隊在Arxiv上公布了一篇名為《AGI的水平:實現(xiàn)AGI》,國元證券研究所?第一部分:生成式AI快速發(fā)展,技術(shù)奇點(diǎn)有望到來??第二部分:技術(shù)創(chuàng)新百花齊放,海外巨頭引領(lǐng)潮流請務(wù)必閱讀正文之后的免責(zé)條款部分2.1OpenAI引領(lǐng)大模型技術(shù),終極目標(biāo)劍指AGI 1OpenAI創(chuàng)立:以實現(xiàn)安全的AGI為主旨>OpenAI由SamAltman、ElonMusk等在2015年創(chuàng)辦OpenAI宣布成OpenAI于3月OpenAI于2月立;公司定位月發(fā)布聊天機(jī)發(fā)布AI視頻生為“非盈利組“封頂盈利”型,9月微軟織”,主旨是獲得該模型獨(dú)能根據(jù)提示詞努力在安全的微軟10億美元夠與人類進(jìn)行生成長達(dá)一分前提下創(chuàng)建通投資,雙方合多輪連續(xù)的各美元,相比去鐘的高清視頻。種對話,給出年增長56倍,Azure云端平較為合理的回全人類共同受臺服務(wù)開發(fā)AI答,引發(fā)全球請務(wù)必閱讀正文之后的免責(zé)條款部分?》2.1OpenAI引領(lǐng)大模型技術(shù),終極目標(biāo)劍指AGI 2GPT發(fā)展回顧:模型性能隨結(jié)構(gòu)、規(guī)模的提升不斷優(yōu)化監(jiān)督預(yù)訓(xùn)練,模型參數(shù)量達(dá)到15億;GPT-3的模型參數(shù)和數(shù)據(jù)集進(jìn)一步擴(kuò)大,模型參數(shù)量增加到1750億,上下文窗口寬度增加到?》2.1OpenAI引領(lǐng)大模型技術(shù),終極目標(biāo)劍指AGI 認(rèn)自身錯誤、質(zhì)疑不正確的問題、承認(rèn)自身的無知和對專業(yè)技術(shù)的不了解以及支持連續(xù)多輪對話,極大提升了對話交互模式下的用2.1OpenAI引領(lǐng)大模型技術(shù),終極目標(biāo)劍指AGI 2GPT發(fā)展回顧:多模態(tài)大模型GPT-4>2023年3月14日,OpenAI宣布推出大型的多模態(tài)模型GPT-4,可以接收圖像和文本輸入。OpenAI稱,GPT-4參加2.1OpenAI引領(lǐng)大模型技術(shù),終極目標(biāo)劍指AGI 2GPT發(fā)展回顧:更快更強(qiáng)更便宜的GPT-4Turbo便宜:新模型的價格是每千輸入token1美分,而每千輸出token3美分,輸入和輸出費(fèi)用分別降至GPT-4(8K)的1/3和1/2,總體使翻倍,可通過API賬戶申請進(jìn)一步提速。0GPT-4(8K)GPT4(?》2.1OpenAI引領(lǐng)大模型技術(shù),終極目標(biāo)劍指AGI 功能包括自然語言處理、文本生成、理解、語音轉(zhuǎn)錄2.1OpenAI引領(lǐng)大模型技術(shù),終極目標(biāo)劍指AGI >2023年9月,OpenAI發(fā)布DALL.E3,比以往系統(tǒng)更能理解細(xì)微差別和細(xì)節(jié),能夠讓>DALL.E3的技術(shù)架構(gòu)主要分為圖像描述生成和圖像生成兩大模塊。圖像描述生成模塊使用了CLIP圖像編碼器和GPT語言模型(GPT-4),可為每張圖像生成細(xì)致的文字描述;圖像生成模塊先用VAE將高分辨率圖像壓縮為低維向量,降低學(xué)習(xí)難度。然后使用T5Transformer將文本編碼為向量,并2.1OpenAI引領(lǐng)大模型技術(shù),終極目標(biāo)劍指AGI >2024年2月16日,OpenAI發(fā)布AI生成視頻模型Sora,其卓越之處在于能夠生成跨越不同持續(xù)時間、縱橫比和分辨率的視甚至包括生成長達(dá)一分鐘的高清視頻,“碾壓”了行業(yè)目前平均約”4s”的視頻生成長度,AI視頻生成領(lǐng)域迎來Chgeneralpurposesimu請務(wù)必閱讀正文之后的免責(zé)條款部分?》2.1OpenAI引領(lǐng)大模型技術(shù),終極目標(biāo)劍指AGI >Sora不僅接受文字輸入,還可根據(jù)圖像和視頻輸入來生成視頻。Sora能夠執(zhí)行各種圖像和視頻編輯任務(wù)——創(chuàng)建完美循環(huán)的視頻、為靜態(tài)圖像制作動畫、在時間維度上向前或向后擴(kuò)展視頻、在兩個截然不同的輸入視頻之間實現(xiàn)無縫過渡格和場景,展示了該模型在圖像和視頻編輯領(lǐng)域的強(qiáng)大能力和應(yīng)用潛力,有望給產(chǎn)業(yè)端帶來革命請務(wù)必閱讀正文之后的免責(zé)條款部分2.1OpenAI引領(lǐng)大模型技術(shù),終極目標(biāo)劍指AGI 像頭運(yùn)動的視頻。隨著攝像頭的移動和旋轉(zhuǎn),人物和場景元素在三維空間中始終保持一致的運(yùn)動規(guī)律。2)較長視頻的連貫性和對象持久性:這是視頻生成領(lǐng)域面對的一個重要挑戰(zhàn),而Sora能有效為短期和長期物體間的依賴關(guān)系建模,人和物被遮擋或離開畫請務(wù)必閱讀正文之后的免責(zé)條款部分2.1OpenAI引領(lǐng)大模型技術(shù),終極目標(biāo)劍指AGI 請務(wù)必閱讀正文之后的免責(zé)條款部分資料來源:深度學(xué)習(xí)與計算機(jī)視覺公眾號,國元證券研究所30?》2.1OpenAI引領(lǐng)大模型技術(shù),終極目標(biāo)劍指AGI 視頻幀分割成的一系列小塊區(qū)域,是模型處理和理解原始數(shù)據(jù)的基本單元,這是從大語言模型的token汲取的靈感。Token統(tǒng)一了文本的多種模式——代碼、數(shù)學(xué)和各種自然語言,而patch則統(tǒng)一了圖像與視頻。過去的圖像和視頻生成方法通常會將視頻調(diào)整大小、裁剪或修剪為標(biāo)準(zhǔn)尺寸,而這損耗了視頻生成的質(zhì)量,將圖片與視頻數(shù)據(jù)patch化之后,無需對數(shù)據(jù)進(jìn)行壓縮,就能夠?qū)Σ煌?》2.1OpenAI引領(lǐng)大模型技術(shù),終極目標(biāo)劍指AGI 為此OpenAI借鑒了DALL·E3中的re-captioning技術(shù),首先訓(xùn)練了一個高度描述性的轉(zhuǎn)譯員模型,然后使用它為訓(xùn)練集中的所有視頻生成文本轉(zhuǎn)譯。通過這種方式對高度描述性的視頻轉(zhuǎn)譯進(jìn)行訓(xùn)練,可顯著提高文本保真度OpenAI利用GPT技術(shù)將簡短的用戶提示轉(zhuǎn)換為更長的詳細(xì)轉(zhuǎn)譯,并發(fā)送到視頻模型,令Sora能精確按照用戶提示生成高質(zhì)量視頻。圖:提示詞“一個玩具機(jī)器人穿著綠色的連衣裙和太陽帽在美麗的日落期間在南極洲愉快地漫步”2.2Meta采取開源策略,發(fā)布多款重磅大模型 擁有70億、130億和700億三種參數(shù),并且允許商業(yè)化。技術(shù)方面,該預(yù)訓(xùn)練模型接受了2萬億個標(biāo)記的訓(xùn)練,上下文本的兩倍,能處理更長的文本內(nèi)容;性能方請務(wù)必閱讀正文之后的免責(zé)條款部分2.2Meta采取開源策略,發(fā)布多款重磅大模型 2視覺大模型:開源圖片分割基礎(chǔ)模型SAM集上進(jìn)行了訓(xùn)練,具有超強(qiáng)的自動識別、切割功能。SAM能感知超出數(shù)據(jù)訓(xùn)練的對象和圖像,就算圖片不在SAM訓(xùn)練范圍內(nèi),它也能識別。這意味著,用戶無需再收集自己的細(xì)分?jǐn)?shù)據(jù),并為用例模型進(jìn)行微調(diào)。SAM可以集成在任何希望識別、切割對象的應(yīng)?》2.2Meta采取開源策略,發(fā)布多款重磅大模型 >2023年5月,Meta開源了多模態(tài)大模型ImageBind,可跨越圖像、視頻、音頻、深度、熱量和空間運(yùn)動6種模態(tài)進(jìn)行檢索。例如,輸入鴿子的圖片,外加一個摩托音頻,模型能夠檢索出一張摩托和鴿子的圖片。ImageBind模型把不同模態(tài)數(shù)據(jù)串聯(lián)在一個嵌入空間(EmbeddingSpace),從多維度理解世請務(wù)必閱讀正文之后的免責(zé)條款部分2.3Google技術(shù)積累深厚,模型發(fā)布節(jié)奏加速 1多年布局:理論基礎(chǔ)深厚,發(fā)布多個基礎(chǔ)架構(gòu));法具有“意識”Google發(fā)布Google發(fā)布2.3Google技術(shù)積累深厚,模型發(fā)布節(jié)奏加速 2大語言模型:PaLM2實現(xiàn)輕量化,可在移動設(shè)備上離線運(yùn)行>PaLM2性能升級,部分測試結(jié)果超過GPT-4,輕量版可運(yùn)行在移動設(shè)備上:2023年5月,谷歌發(fā)布PaLM2,對于具有思維鏈>谷歌將PaLM2融入辦公軟件、搜索引擎等產(chǎn)品:AI聊天機(jī)器人Bard被整合到谷歌的辦公軟件“全家桶”中,為Gmail、Google2.3Google技術(shù)積累深厚,模型發(fā)布節(jié)奏加速 3多模態(tài)模型:最新發(fā)布Gemini1.5,支持超長上下文窗口組成,核心思想是使用一個門控網(wǎng)絡(luò)來決定每個數(shù)據(jù)應(yīng)該>支持超長的上下文窗口,信息處理能力進(jìn)一步增強(qiáng)。谷歌增加了G2.3Google技術(shù)積累深厚,模型發(fā)布節(jié)奏加速 逼真的手和人臉,以及保持圖像沒有干擾視覺>Imagen2基于擴(kuò)散技術(shù)提供了高度的靈活性,使控制和調(diào)整圖像風(fēng)格變得更加容易。通過提供參考風(fēng)格的圖像并結(jié)合文字提示,使用者可以調(diào)節(jié)Imagen2生成相同風(fēng)格的新圖像;此外,還支持修補(bǔ)(inpainting)和擴(kuò)圖(outpainting2.3Google技術(shù)積累深厚,模型發(fā)布節(jié)奏加速 示生成可玩的交互式環(huán)境。谷歌認(rèn)為Genie是實現(xiàn)通用智能體的基石之作,未來的AI智能體可以在新生成世界的無休止的curriculum中接受訓(xùn)練,從Genie學(xué)到的潛在動作可以轉(zhuǎn)移到真實的人類設(shè)計的環(huán)境中。>Genie包含三個關(guān)鍵組件:1)潛在動作模型(LatentActionModel,LAM),用于推理每對幀之間的潛在動作;2)視頻分詞器(Tokenizer),用于將原始視頻幀轉(zhuǎn)換為離散tokenz;3)動態(tài)模型,給定潛在動作和過去幀的token,用來預(yù)測視頻的下一幀。?》2.4Anthropic與OpenAI一脈相承,發(fā)布Claude大模型 1AI獨(dú)角獸Anthropic>Anthropic是一家人工智能創(chuàng)業(yè)公司,由OpenAI前研究副總裁達(dá)里奧·姆·布朗(TomBrown)等人在2021年創(chuàng)立。2023年2月,獲得Google投資3億美元,Google持股10%;2023年3月,發(fā)布類似請務(wù)必閱讀正文之后的免責(zé)條款部分?》2.4Anthropic與OpenAI一脈相承,發(fā)布Claude大模型 2多模態(tài)模型:Claude3基準(zhǔn)測試表現(xiàn)優(yōu)秀個維度樹立了新的行業(yè)基準(zhǔn)。多模態(tài)方面,用戶可以上傳照片、圖表、文檔和其他類型的非結(jié)構(gòu)化數(shù)據(jù),讓AI分析和解答。?第一部分:生成式AI快速發(fā)展,技術(shù)奇點(diǎn)有望到來?第二部分:技術(shù)創(chuàng)新百花齊放,海外巨頭引領(lǐng)潮流請務(wù)必閱讀正文之后的免責(zé)條款部分?》風(fēng)險提示>人工智能產(chǎn)業(yè)政策落地不及預(yù)期的風(fēng)險;>人工智能相關(guān)技術(shù)迭代不及預(yù)期的風(fēng)險;>行業(yè)競爭加劇的風(fēng)險。請務(wù)必閱讀正文之后的免責(zé)條款部分分析師聲明作者具有中國證券業(yè)協(xié)會授予的證券投資咨詢執(zhí)業(yè)資格或相當(dāng)?shù)膶I(yè)勝任能力,以勤勉的職業(yè)態(tài)度,獨(dú)立、客觀地出具本報告。本人承諾報告所采用的數(shù)據(jù)均來自合規(guī)渠道,分析邏輯基于作者的職業(yè)操守和專業(yè)能力,本報告清晰準(zhǔn)確地反映了本人的研究觀點(diǎn)并通過合理判斷得出結(jié)論,結(jié)論不受任何第三方的授意、影響。證券投資咨詢業(yè)務(wù)的說明根據(jù)中國證監(jiān)會頒發(fā)的《經(jīng)營證券業(yè)務(wù)許可證》(Z23834000),國元證券股份有限公司具備中國證監(jiān)會核準(zhǔn)的證券投資咨詢業(yè)務(wù)資格。證券投資咨詢業(yè)務(wù)是指取得監(jiān)管部門頒發(fā)的相關(guān)資格的機(jī)構(gòu)及其咨詢?nèi)藛T為證券投資者或客戶提供證券投資的相關(guān)信息、分析、預(yù)測或建

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論