GPT大模型多模態(tài)應(yīng)用展望

上傳人：b*** IP屬地：北京上傳時間：2023-04-09 格式：PPTX 頁數(shù)：39 大?。?.98MB 積分：22 舉報 版權(quán)申訴

已閱讀5頁，還剩34頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

CONTENTS目錄3ChatGPT通過大模型突破AI瓶頸，GPT-4多模態(tài)應(yīng)用帶動商業(yè)化加速Transformer架構(gòu)支撐GPT走向多模態(tài)，構(gòu)筑AIGC領(lǐng)域核心基石通用與垂直場景多點開花，GPT變革內(nèi)容生成與交互方式投資策略風險提示41.ChatGPT通過大模型突破AI瓶頸，GPT-4多模態(tài)應(yīng)用帶動商業(yè)化加速5ChatGPT是自然語言處理（NLP）下的AI大模型，通過大算力、大規(guī)模訓練數(shù)據(jù)突破AI瓶頸。2022年11月，OpenAI推出ChatGPT，ChatGPT基于GPT-3.5，使用人類反饋強化學習技術(shù)，將人類偏好作為獎勵信號并微調(diào)模型，實現(xiàn)有邏輯的對話能力。ChatGPT本質(zhì)上是通過超大的統(tǒng)計語言模型，對詞語序列的概率分布進行建模，利用上下文信息預測后續(xù)詞語出現(xiàn)的概率分布，其表現(xiàn)的超預期反映了在算力水平提升的情況下大語言模型技術(shù)路線的成功，通過對大規(guī)模的未標注的文本數(shù)據(jù)進行訓練，突破了AI發(fā)展的技術(shù)瓶頸。根據(jù)《瞭望》新聞周刊報道，OpenAI為了讓ChatGPT的語言合成結(jié)果更自然流暢，使用了45TB的數(shù)據(jù)、近1萬億個單詞來訓練模型，訓練一次的成本高達千萬美元，一個月的運營成本需要數(shù)百萬美元。OpenAI官網(wǎng)OpenAI官網(wǎng)ChatGPT幫助用戶給鄰居寫信ChatGPT幫助用戶debug1.1

概述：ChatGPT為NLP下的AI大模型，性能和使用體驗超預期6ChatGPT出自美國AI創(chuàng)業(yè)公司OpenAI，是AI大模型領(lǐng)域的領(lǐng)軍者。OpenAI在2015年由Sam

Altman、Peter

Thiel、ReidHoffman、Elon

Musk等人創(chuàng)辦。公司成立之初，即確定了包括制造“通用”機器人和使用自然語言的聊天機器人的發(fā)展目標。2019年，OpenAI獲得來自微軟的10億美元投資，為Azure云端平臺服務(wù)開發(fā)AI技術(shù)。2018年起，OpenAI開始發(fā)布GPT（Generative

Pre-trained

Transformer）模型，2020年發(fā)布GPT-3，可以完成答題、寫論文、代碼生成等任務(wù)，被視為人工智能競賽的里程碑事件，并直至ChatGPT的推出引起AI的熱潮。除了NLP領(lǐng)域，OpenAI還在多模態(tài)領(lǐng)域取得成就，包括發(fā)布了AI圖像生成器DALL-E2，對音頻轉(zhuǎn)錄編輯器Descript、AI筆記應(yīng)用Mem等進行投資。OpenAI官網(wǎng)，中信證券研究部1.1

概述：OpenAI傾力打造ChatGPT，獲得微軟有力加持OpenAI發(fā)展歷程2015OpenAI成立，馬斯克等人參與2016OpenAI宣布其發(fā)展的主要目標，發(fā)布第一個項目——OpenAIGym

Beta2017發(fā)布ProximalPolicyOptimization算法2018發(fā)布GPT-12019202020212022發(fā)布GPT-2，獲微軟10億美元投資發(fā)布GPT-3，開放人工智能應(yīng)用程序接口研究從文本創(chuàng)建圖像神經(jīng)網(wǎng)絡(luò)DALL·E發(fā)布人工智能系統(tǒng)DALL·E

2與ChatGPT7GPT-1發(fā)布于2018年6月，參數(shù)量達1.17億，預訓練數(shù)據(jù)量約5GB。GPT-1包含預訓練和微調(diào)兩個階段，考慮到自然語言處理任務(wù)中有標簽的語料少，GPT-1先在大量的無標簽數(shù)據(jù)上訓練語言模型，然后在下游具體任務(wù)（如分類、常識推理、自然語言推理等）的有標簽數(shù)據(jù)集上進行微調(diào)。1）在無監(jiān)督訓練中，GPT-1采用Transformer的架構(gòu)，即標準的語言模型的目標函數(shù)，通過前面的詞預測后面的詞；2）在有監(jiān)督訓練中，采用標準的分類目標函數(shù)，僅需對第一階段預訓練的語言模型做出很小的結(jié)構(gòu)改變，即可應(yīng)用于各種下游任務(wù)。GPT-1使用了BooksCorpus數(shù)據(jù)集來訓練語言模型，其中有7000余本未出版的書籍。具體表現(xiàn)上，在有監(jiān)督學習的12項任務(wù)中，GPT-1在其中9項上的表現(xiàn)優(yōu)于專門訓練的受監(jiān)督模型。-Training》（Alec

Radford、《Improving

Language

Understanding

byGenerative

PreKarthik

Narasimhan、Tim

Salimans等）《Improving

Language

Understanding

Generative

Pre-Training》

（Alec

Radford、Karthik

Narasimhan、Tim

Salimans等）GPT-1包含預訓練和微調(diào)兩個訓練階段GPT-1在自然語言推理任務(wù)、問答和常識推理任務(wù)中的表現(xiàn)1.2

演變：GPT-1—無監(jiān)督預訓練+有監(jiān)督微調(diào)8GPT-2發(fā)布于2019年2月，參數(shù)量達15億，預訓練數(shù)據(jù)量約40GB。GPT-1使用的概率條件模型為p(output|input)，GPT-2使用相同的無監(jiān)督模型學習多個任務(wù)，將概率條件模型修改為p(output|input,

task)

，期望模型對不同任務(wù)的相同輸入產(chǎn)生不同的輸出。此外，GPT-2采取Zero-shot設(shè)定，不需要下游任務(wù)的標注信息，而是根據(jù)給定的指令理解任務(wù)。因此GPT-2的核心思想在于多任務(wù)學習。GPT-2訓練的數(shù)據(jù)集來自社交新聞平臺Reddit，共有約800萬篇文章，體積超40GB。具體表現(xiàn)上，在8個語言模型任務(wù)中，僅通過Zero-Shot學習，GPT-2在其中7個上領(lǐng)先。GPT-2表明，隨著模型容量和數(shù)據(jù)量增大，GPT模型的潛力仍有望進一步顯現(xiàn)?！禠anguage

Models

are

Unsupervised

Multitask

Learners》（Alec

Radford、

Jeffrey

Wu、

Rewon

Child等）1.2

演變：GPT-2—無監(jiān)督預訓練+多任務(wù)學習語言模型參數(shù)增加，Zero-shot在NLP任務(wù)上表現(xiàn)提升9GPT-3發(fā)布于2020年5月，參數(shù)量達1750億，預訓練數(shù)據(jù)量約45TB。GPT-3采用海量的參數(shù)來進行訓練和學習，不追求GPT-2中的Zero-shot設(shè)定，而是通過少量樣例（Few-shot或One-shot）理解并執(zhí)行任務(wù)，對應(yīng)為模型的上下文學習能力。GPT-3在作用到子任務(wù)時，無需進行微調(diào)，以避免龐大的模型體量所帶來的高成本。具體表現(xiàn)上，在大量的語言模型數(shù)據(jù)集中，Zero-shot或Few-shot設(shè)置下，GPT-3超過了LAMBADA和Penn

Tree

Bank；GPT-3也在很多復雜的NLP任務(wù)中超過微調(diào)后的最佳方法?！禠anguage

Models

are

Few-Shot

Learners》（Tom

B.Brown、BenjaminMann、Nick

Ryder等）《Language

Models

are

Few-ShotLearners》

（Tom

B.Brown、Benjamin

Mann、Nick

Ryder等）Few-shot準確性表現(xiàn)增速更快表明大模型在上下文學習上更強大Zero-shot、one-shot、few-shot與fine-tune對比1.2

演變：GPT-3—無監(jiān)督預訓練+海量參數(shù)10ChatGPT基于GPT-3.5開發(fā)，最大的變化在于引入人類反饋強化學習。ChatGPT引入人類反饋強化學習，使用人工對模型回復進行打分排名，使得其更好地理解并完成指令。在表現(xiàn)上，ChatGPT能夠理解指令、提供基本令人滿意甚至是超預期的回答、進行多輪對話以及拒絕不合理的請求等。相較于GPT-3，ChatGPT的回答更有體系性、邏輯性；相較于對話機器人，ChatGPT能夠回答假設(shè)性的問題，并可以連續(xù)對話。未來，ChatGPT待強化的方向還包括：納入最新的網(wǎng)絡(luò)語料、避免不合理的答案輸出等。OpenAI官網(wǎng)1.2

演變：ChatGPT—基于GPT-3.5，引入人類反饋強化學習ChatGPT訓練包括訓練監(jiān)督策略模型、訓練獎勵模型、PPO強化學習三個階段11GPT-4備受業(yè)界期待，訓練成本控制有望帶動商業(yè)潛力的極大增強。ChatGPT的突出表現(xiàn)使得外界對GPT-4十分期待，自2021年以來便有報道稱GPT-4“即將推出”，OpenAI公司CEO

Sam

Altman今年受StrictlyVC采訪時表示GPT-4將在“有信心可以安全且負責任地運行時”推出。外界此前也曾預期，GPT-4的推出或分階段進行，例如GPT-3也是先開放給合作伙伴、付費用戶和學術(shù)機構(gòu)，才在2022年底開放給公眾。在參數(shù)量上，針對有傳言稱GPT-4參數(shù)量將達到百萬億，OpenAI公司CEO

Sam

Altman予以否定。此外，AI專家AlbertoRomero預測，GPT-4的重點在數(shù)據(jù)處理優(yōu)化上，因此其使用門檻有望降低，我們預計訓練成本的控制將帶動其商業(yè)潛力的增強。資料來源：微信公眾號“機器之心”The

VergeGPT-4參數(shù)量的傳聞遭到否定Altman談及GPT-4預計推出時間1.3

展望：GPT-4—此前外界預期參數(shù)量變化不大、使用門檻有望降低12最新消息稱GPT-4將于下周推出，支持多模態(tài)應(yīng)用，開啟通往人工通用智能之路。根據(jù)德國科技媒體“heise在線”報道，當?shù)貢r間3月9日，微軟德國公司首席技術(shù)官Andreas

Braun在名為“AI

Focus

Digital

Kickoff”的活動中透露稱“將在下周推出GPT-4，它將是一個多模態(tài)模型，會提供完全不同的可能性——例如視頻”。這意味著GPT-4可以管理不同語言數(shù)據(jù)的輸入和輸出，也能夠做到輸出圖像甚至視頻。在活動上，微軟AI技術(shù)專家對多模態(tài)AI的應(yīng)用案例進行了介紹，例如能夠?qū)㈦娫捄艚械恼Z音直接記錄成文本，這為微軟位于荷蘭的一家大型客戶節(jié)省500個工作小時/天。GPT-4對多模態(tài)的支持使得外界對模型潛力的預期進一步強化，原因在于多模態(tài)感知是建立人工通用智能（AGI）的重要一步，基于此能夠執(zhí)行人類水平的一般任務(wù)。heise

online資料來源：微信公眾號“水木學堂”微軟德國公司首席技術(shù)官Andreas

Braun稱GPT-4即將推出人工智能已從單模態(tài)轉(zhuǎn)向多模態(tài)1.3

展望：GPT-4—最新消息稱推出在即、支持多模態(tài)13ChatGPT迅速走紅，以訂閱制服務(wù)B端、C端客戶，成本控制下將有效加速商業(yè)化落地。ChatGPT自年初以來，持續(xù)出圈，截至2023年1月末月活突破1億，成為史上增長最快的消費者應(yīng)用?？紤]到計算資源所牽涉的龐大訓練成本、運行成本，ChatGPT的商業(yè)化路徑已正在探索、明確中。商業(yè)模式—1）C端：OpenAI發(fā)布ChatGPT

Plus訂閱計劃，每月收費20美元，相較于免費版本，即便在高峰時段用戶也能正常訪問ChatGPT，響應(yīng)時間更快，可以優(yōu)先使用新功能，有望引領(lǐng)AI技術(shù)變現(xiàn)新模式；2）B端：OpenAI發(fā)布ChatGPT

API，開發(fā)者可以將ChatGPT集成到產(chǎn)品中，價格為$0.002/1k

token，相較于GPT-3.5降低90%，我們預計成本控制后有望快速帶動GPT相關(guān)應(yīng)用爆發(fā)。根據(jù)微信公眾號“智東西”，生鮮電商Instacart、跨境電商Shopify、照片分享應(yīng)用Snap、單詞背誦應(yīng)用Quizlet等已率先接入ChatGPT

API。OpenAI官網(wǎng)OpenAI官網(wǎng)OpenAI上線ChatGPT

Plus訂閱計劃Quizlet將基于ChatGPT

API推出Q-Chat1.4

商業(yè)模式：C端推出訂閱制會員，B端提供調(diào)用API接口142.Transformer架構(gòu)支撐GPT走向多模態(tài)，構(gòu)筑AIGC領(lǐng)域核心基石15GPT沿用主流Transformer模型，該模型采用自注意力機制，在NLP上表現(xiàn)優(yōu)于RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）。2017年，谷歌在《Attention

All

You

Need》中提出Transformer模型，

可用于文本摘要、機器翻譯等NLP任務(wù)。在NLP方面，Transformer模型的自注意力（self-attention）機制可以為輸入序列中的任意位置提供上下文，進而模型能夠一次性處理所有輸入數(shù)據(jù)，而非RNN一次只處理一個單詞的情況，由此模型可以減少訓練時間，能夠在更大的數(shù)據(jù)集上進行訓練。目前，基于Transformer的預訓練語言模型已成為NLP領(lǐng)域的主流。資料來源《Attention

AllYou

Need》（Google），中信證券研究部《動手學深度學習》（李沐）Transformer的Encoder-Decoder示意圖Transformer在長序列處理上解決了CNN的最長路徑問題，也解決了RNN的并行度和遺忘問題2.1

GPT采用的Transformer架構(gòu)在NLP領(lǐng)域已躋身主流輸入部分自注意力機制前饋神經(jīng)網(wǎng)絡(luò)多頭自注意力機制交互層16Transformer也可用于CV（計算機視覺）領(lǐng)域，表現(xiàn)出巨大的性能提升。CV領(lǐng)域此前更多由CNN（卷積神經(jīng)網(wǎng)絡(luò)）主導，而Transformer憑借著自注意力機制，表現(xiàn)出了巨大的性能提升。根據(jù)微軟亞洲研究院，Transformer在圖像分類、物體檢測等任務(wù)中刷新了測評記錄，例如2020年Transformer被首次應(yīng)用于圖像分類任務(wù)，結(jié)合海量的預訓練數(shù)據(jù)，ViT在ImageNet-1K的validation評測集上取得88.55%的準確率。Transformer也在視頻動作識別、視覺自監(jiān)督學習、圖像復原、圖像分割等視覺任務(wù)中取得優(yōu)異成績。谷歌提出的ViT-MoE模型目前在參數(shù)量上領(lǐng)先，達到了150億?！稙楹蜹ransformer在計算機視覺中如此受歡迎？》（微軟亞洲研究院）《為何Transformer在計算機視覺中如此受歡迎？》（微軟亞洲研究院）學術(shù)界挖掘出的Transformer建模的優(yōu)點Transformer在大模型方面展示了強大的可擴展性2.2

Transformer也可用于CV領(lǐng)域，相較于CNN實現(xiàn)性能巨大提升17GPT有望基于Transformer延伸至多模態(tài)，構(gòu)筑AIGC核心基石，GPT-4或?qū)崿F(xiàn)領(lǐng)跑。當前，基于Transformer的多模態(tài)學習成為AI領(lǐng)域的研究熱點，研究者們提出了大量的Transformer變體。鑒于Transformer具有較少的特定于模態(tài)的架構(gòu)假設(shè)，以及生成式預訓練、大模型&大數(shù)據(jù)路線的成功，Transformer能夠聯(lián)動CV與NLP，通過聯(lián)合建模完成，打破CV與NLP領(lǐng)域之間的壁壘。微軟亞洲研究院2022年推出BEiT-3預訓練模型，在目標檢測、實例分割、語義分割、視覺推理、圖片描述生成等任務(wù)上取得了SOTA的遷移性能。我們認為，基于Transformer架構(gòu)，GPT未來有望延伸至多模態(tài)，助力內(nèi)容創(chuàng)作由UGC、PGC全面走向AIGC，賦能通用領(lǐng)域以及金融、教育、醫(yī)療、傳媒等垂直行業(yè)?！锻ㄓ枚嗄B(tài)基礎(chǔ)模型BEiT-3：引領(lǐng)文本、圖像、多模態(tài)預訓練邁向“大一統(tǒng)”》（微軟亞洲研究院）

《通用多模態(tài)基礎(chǔ)模型BEiT-3：引領(lǐng)文本、圖像、多模態(tài)預訓練邁向“大一統(tǒng)”》（微軟亞洲研究院）BEiT-3預訓練示意圖BEiT-3在視覺-語言任務(wù)上表現(xiàn)突出2.3

Transformer支撐下GPT有望走向多模態(tài)，構(gòu)筑AIGC領(lǐng)域核心基石18微軟Kosmos-1基于Transformer可完成語言任務(wù)和基礎(chǔ)的視覺任務(wù)，反映GPT發(fā)展?jié)摿Α?023年3月初，微軟推出多模態(tài)模型Kosmos-1，可以處理文本、音頻、圖像和視頻等內(nèi)容，并遵循指令（即零樣本學習）以及在上下文中學習（即少樣本學習）。Kosmos-1能夠分析圖像內(nèi)容、解決視覺難題、執(zhí)行視覺文本識別、通過視覺智商測試（準確度在22-26%之間）以及理解自然語言指令等。Kosmos-1的骨干網(wǎng)絡(luò)是基于Transformer的因果語言模型，用于訓練的數(shù)據(jù)來自多模態(tài)語料庫，包括單模態(tài)數(shù)據(jù)（如文本）、跨模態(tài)配對數(shù)據(jù)（圖像-文本對）和交錯的多模態(tài)數(shù)據(jù)。Kosmos-1的表現(xiàn)說明了多模態(tài)大模型的應(yīng)用潛力?！禠anguage

Not

All

YouNeed》（微軟亞洲研究院）《Language

NotAll

You

Need》（微軟亞洲研究院）Kosmos-1能夠進行圖像解釋、視覺應(yīng)答、數(shù)字識別Kosmos-1是第一個能完成零樣本瑞文智商測試的AI模型2.3

Transformer支撐下GPT有望走向多模態(tài)，構(gòu)筑AIGC領(lǐng)域核心基石19GPT基礎(chǔ)能力包括文本生成（分析）、代碼生成、對話交互、機器翻譯、圖像生成、視頻生成等，借此賦能通用與垂直領(lǐng)域應(yīng)用，有望帶來商業(yè)模式的重塑與變革。結(jié)合ChatGPT現(xiàn)有應(yīng)用場景，以及對GPT未來模型演變的展望，我們歸納出GPT的基礎(chǔ)能力，具體包括：文本生成（分析）、代碼生成、對話交互、機器翻譯、圖像生成、視頻生成等。我們認為，這些基礎(chǔ)能力將支撐GPT在通用與垂直領(lǐng)域的應(yīng)用，新的應(yīng)用領(lǐng)域的出現(xiàn)也將基于這些能力的組合。例如，在辦公軟件領(lǐng)域，主要涉及GPT的文本能力；在教育行業(yè)，主要應(yīng)用到文本、對話、翻譯能力。2.3

Transformer支撐下GPT有望走向多模態(tài)，構(gòu)筑AIGC領(lǐng)域核心基石GPT能力與主要應(yīng)用領(lǐng)域GPT能力搜索引擎辦公軟件金融醫(yī)療教育圖像視頻NLP能力拼寫檢查信息檢索主題建模文本分類封閉會話文本概括問題回答機器翻譯信息提取開放會話多模態(tài)演進GPT應(yīng)用√重塑結(jié)果呈現(xiàn)方式√改變盈利模式√影響競爭格局資料來源：中信證券研究部整理√打造效率生產(chǎn)工具√深化智能辦公體驗√打開客單價空間√啟發(fā)式教學√深入的對話探討√個性化精準學習√智能客服&營銷√智能、精準的投顧√強大投研能力支持√導診問診輔助√臨床研究助手√電子病歷助手√信息采集√信息制作賦能對話交互代碼生成圖像生成機器翻譯文本生成視頻生成203.通用與垂直場景多點開花，GPT變革內(nèi)容生成與交互方式21搜索引擎接入GPT后結(jié)果呈現(xiàn)方式大為變化，或影響行業(yè)盈利模式與競爭格局。用戶使用傳統(tǒng)的搜索引擎時，需要手動翻閱搜索結(jié)果，判斷是否為所需要的信息；而當搜索引擎接入GPT后，用戶可直接獲得答案集合。盡管受制于訓練語料、成本等因素，答案準確性有待商榷，但在結(jié)果呈現(xiàn)方式上實現(xiàn)了變革，未來或與傳統(tǒng)的搜索引擎相結(jié)合。如進一步實現(xiàn)多模態(tài)，搜索結(jié)果將更加豐富。微軟在Bing中上線ChatGPT能力并開啟測試，以聊天方式展示搜索結(jié)果，并可在對話中推薦廣告。微軟必應(yīng)官方博客宣布，目前Bing日活突破1億，集成搜索+聊天功能的Bing預覽版自推出以來總聊天次數(shù)已超過4500萬次。鑒于微軟可能掀起搜索行業(yè)的第二次變革并顛覆此前的盈利模式，谷歌在2月初展示由大型語言模型LaMDA驅(qū)動的類ChatGPT應(yīng)用——Bard，并計劃大范圍推廣。Statista資料來源：上觀新聞全球搜索引擎市場份額分布用戶在新版Bing對話中發(fā)現(xiàn)廣告推薦內(nèi)容3.1

通用場景：搜索引擎—GPT+文本&圖像&視頻重塑搜索結(jié)果呈現(xiàn)方式22百度將推出文心一言，在搜索領(lǐng)域有望引領(lǐng)體驗的代際變革，視頻領(lǐng)域合作或率先走向多模態(tài)。百度是國內(nèi)少有的具有超大規(guī)模語言訓練能力的科技公司，2019年即推出文心大模型。百度打造的NLP大模型ERNIE

3.0

Zeus擁有千億級參數(shù)，ERNIE-ViLG

2.0是全球首個知識增強的AI作畫大模型。百度計劃于3月16日召開文心一言發(fā)布會。此前，百度創(chuàng)始人李彥宏表示計劃將搜索、智能云、Apollo自動駕駛、小度智能設(shè)備等多項業(yè)務(wù)與文心一言整合。例如在搜索引擎方面引領(lǐng)搜索體驗的代際變革，鑒于愛奇藝宣布與百度共同探索將AIGC技術(shù)應(yīng)用于內(nèi)容搜索、宣發(fā)等，豐富的在線視頻娛樂資源為未來多模態(tài)應(yīng)用的構(gòu)建提供了想象空間。此外，百度還將開放大模型支持交通、能源、制造等行業(yè)構(gòu)建自己的模型和應(yīng)用，打造人工智能生態(tài)系統(tǒng)，同時為公司帶來豐厚的商業(yè)價值，目前已有多家科技、金融、傳媒公司宣布成為合作伙伴。資料來源：文心大模型網(wǎng)站資料來源：文心大模型網(wǎng)站ERNIE3.0

Zeus提出層次化提示學習技術(shù)百度文心一言發(fā)布會將于3月16日召開3.1

通用場景：搜索引擎—百度“文心一言”有望構(gòu)筑大模型生態(tài)系統(tǒng)23GPT有望融入辦公流程，率先推動辦公軟件轉(zhuǎn)型為智能辦公平臺。微軟將于3月16日召開名為“Future

Work

with

AI”的發(fā)布會，預計將展示ChatGPT類技術(shù)在Teams、Word、Outlook等生產(chǎn)力套件中的應(yīng)用。我們認為，在GPT的賦能之下，辦公軟件作為效率型生產(chǎn)力工具的屬性將更加突出，功能上將更加智能化，用戶有望享受到智能辦公平臺所帶來的便利性與效率大幅提升。例如，在Word中，GPT將能夠幫助用戶生成文本，或?qū)⑽臋n集匯總為關(guān)鍵點，使得用戶快速理解和分析信息；在Outlook中，GPT可以處理收件箱文本，幫助用戶更快捷地撰寫或回復電子郵件；在Excel中，能夠根據(jù)提示提取數(shù)據(jù)，如要求“按照利潤列出世界前五大公司”后，生成Excel公式或制作可視化圖表。The

Verge，微軟The

Verge，微軟Edge中的Bing

AI側(cè)邊欄可以與Office

Web一同使用微軟在Viva

Sales郵件中提供OpenAI技術(shù)3.2

通用場景：辦公軟件—GPT+文本&圖像打造效率型生產(chǎn)力工具24金山辦公發(fā)布業(yè)內(nèi)首個深度學習框架KSAI-Lite，并創(chuàng)新推出智能寫作與演示文稿智能美化功能，未來若在GPT賦能下有望深化用戶智能辦公體驗，并打開客單價提升空間。金山辦公AI中臺圍繞辦公領(lǐng)域的計算機視覺、自然語言處理相關(guān)算法研究已開發(fā)了近100項AI能力，2021年7月發(fā)布業(yè)內(nèi)首個面向辦公領(lǐng)域的深度學習推理框架——KSAI-lite，其適配國內(nèi)外主流軟硬件平臺，支持OCR、機器翻譯、智能校對等場景。金山辦公還基于NLP技術(shù)推出WPS智能寫作，功能包括文本自動生成、智能校對、智能改寫等，WPS智能生成的內(nèi)容占據(jù)云端整體內(nèi)容資源的33.6%。WPS演示文稿創(chuàng)新使用智能美化功能，一鍵即可實現(xiàn)文本自動排版并根據(jù)語義恰當進行配圖、配色，進而得到成熟、美觀的演示文稿，大幅減少用戶手動調(diào)整的工作量。演示文稿還支持智能化多圖拼圖，智能美化功能月度活躍用戶數(shù)量也已超過百萬。WPS智能寫作截圖WPS演示文稿截圖WPS以“人工智能”為主題的智能寫作輸出結(jié)果WPS演示文稿智能美化功能3.2

通用場景：辦公軟件—WPS若結(jié)合GPT將深化用戶智能辦公體驗25福昕軟件投入AI

方向超3年并具有AIGC能力，

ChatPDF的豐富功能有望為其結(jié)合GPT提供借鑒。ChatPDF可通過ChatGPT

API解讀專業(yè)論文，例如用戶上傳PDF后，可直接對論文進行提問；此外，ChatPDF同樣支持合同、文書、書籍等材料。福昕軟件作為全球PDF核心技術(shù)與應(yīng)用領(lǐng)域的領(lǐng)導廠商，下屬的iDox.ai團隊開發(fā)了合同檢查、合同比較、敏感信息偵測等功能，相關(guān)產(chǎn)品自去年底推向市場，標準版、高級版年單價分別為200、400美元；此外，公司下屬的前沿文檔技術(shù)團隊也在積極探索將AI技術(shù)與公司產(chǎn)品相結(jié)合。結(jié)合ChatPDF的先期探索，我們認為，未來在GPT賦能之下，福昕軟件有望打造更智能的PDF文檔處理解決方案，構(gòu)筑新型知識傳播、轉(zhuǎn)化利器，助力用戶更高效地使用文檔資源。ChatPDFChatPDFChatPDF界面ChatPDF對論文進行解讀3.2

通用場景：辦公軟件—PDF結(jié)合GPT有望成為知識傳播、轉(zhuǎn)化利器26GPT有望催化“啟發(fā)式”教學模式，加快教育領(lǐng)域的個性化、多樣化變革探索。ChatGPT可以理解為一名“全能教師”，即便是小眾、冷門的領(lǐng)域，也能夠給出相對有邏輯的回答。我們認為，GPT技術(shù)將催化“啟發(fā)式”教學模式，引導學生更加積極主動地進行思考、發(fā)問，并與“全能教師”進行對話探討，這有別于傳統(tǒng)的應(yīng)試教學模式。資料來源：人工智能基礎(chǔ)教育行業(yè)研究報告（36氪研究院）3.3

垂直場景：教育—GPT+文本&對話&翻譯催化啟發(fā)式、個性化教學教育轉(zhuǎn)型向智能化教育方向發(fā)展27科大訊飛在認知智能領(lǐng)域具備長期深厚積累，AI學習機將率先落地類ChatGPT技術(shù)，產(chǎn)品能力有望進一步夯實。公司以“平臺+賽道”模式實現(xiàn)AI核心技術(shù)的轉(zhuǎn)化，在教育、醫(yī)療、智慧城市、AI辦公等賽道中驗證技術(shù)優(yōu)勢。公司承建認知智能全國重點實驗室，2022年獲得OpenBookQA等多項認知智能領(lǐng)域評測第一，開源6大類、超過40個通用領(lǐng)域的系列中文預訓練語言模型。2022年12月公司啟動生成式預訓練大模型攻關(guān)，憑借在算法、算力等方面的保障，AI學習機將率先落地類ChatGPT技術(shù)，并計劃于今年5月6日進行產(chǎn)品級發(fā)布，有望在中英文作文輔導、口語學習等方面實現(xiàn)能力躍升。公司2019年推出首款AI學習機——X1

Pro，作為教育2C模式的核心產(chǎn)品，聯(lián)動B、G端解決方案，實現(xiàn)教育服務(wù)生態(tài)閉環(huán)。依托類ChatGPT技術(shù)對AI學習機的能力重構(gòu)，我們看好公司學習機產(chǎn)品的個性化精準學習能力，有望強化市場競爭地位。資料來源：科大訊飛公司年報，中信證券研究部資料來源：科大訊飛公司官網(wǎng)，中信證券研究部科大訊飛智慧教育業(yè)務(wù)全景圖科大訊飛AI學習機推出歷程家庭校內(nèi)區(qū)域因材施教學校老師教育主管部門學生家長素質(zhì)教育教育管理智慧校園新高考綜合解決方案智慧體育人工智能創(chuàng)新教育學生綜合素質(zhì)評價學校教學大數(shù)據(jù)精準教學智慧課堂個性化作業(yè)智慧考試教育考試服務(wù)英語口語評測智能語言學習自主學習AI學習機個性化學習手冊AI技術(shù)大數(shù)據(jù)技術(shù)教研服務(wù)教育資源3.3

垂直場景：教育—科大訊飛AI學習機將率先落地類ChatGPT技術(shù)28GPT有望對金融行業(yè)的經(jīng)營、管理、產(chǎn)品營銷及客戶服務(wù)等方面產(chǎn)生巨大影響。近年來，金融機構(gòu)在合規(guī)趨嚴、人力成本上升等因素的影響下，對于數(shù)字化建設(shè)的意愿強烈。考慮到ChatGPT在內(nèi)容生成等方面的突出表現(xiàn)，我們認為，GPT有望率先落地對外的客戶服務(wù)與對內(nèi)的投研支持。以銀行業(yè)為例，電子客服仍處于AB判斷階段，引入GPT將更好地服務(wù)于客戶需求；在證券、基金業(yè)，個人投資者存在的大量疑惑將可通過GPT解決，機構(gòu)投資者在投研中也將獲得來自GPT的協(xié)作。GPT有望重構(gòu)金融行業(yè)客戶服務(wù)端，也有望進一步增強機構(gòu)內(nèi)部的投研能力，助力經(jīng)營效率提升與成本優(yōu)化。《2022年中國AI+金融行業(yè)發(fā)展研究報告》（艾瑞咨詢研究院），中信證券研究部《2022年中國AI+金融行業(yè)發(fā)展研究報告》（艾瑞咨詢研究院），中信證券研究部自然語言處理技術(shù)在客服、營銷場景的應(yīng)用自然語言處理技術(shù)在投研、投顧場景的應(yīng)用3.4

垂直場景：金融—GPT+文本&對話賦能客戶服務(wù)、投研支持客服團隊人員成本及管理費用高服務(wù)質(zhì)量與效率較難評價

獲客成本高，潛在用戶轉(zhuǎn)化率低客服營銷痛點場景以NLP技術(shù)為基礎(chǔ)，結(jié)合智能語音、知識圖譜等技術(shù)，實現(xiàn)人力成本的降低及服務(wù)效率、獲客效率的提升。關(guān)鍵環(huán)節(jié)潛在客戶分析問句輸入問句理解信息檢索答案生成話術(shù)分析技術(shù)應(yīng)用NLP:分析資訊文本，精準定位潛在客戶。NLP:對客戶/潛在客戶以自然語言形式提出的問題/回復進行語義分析，根據(jù)語義理解結(jié)果從知識庫中選取輸出的內(nèi)容并構(gòu)建恰當?shù)恼Z句進行回復。知識圖譜：在問句理解、信息檢索、答案生成環(huán)節(jié)輔助提供知識的表示、儲存和推理。智能語音：如有必要，在問句輸入、答案生成過程對語音信息與文本信息進行轉(zhuǎn)化。NLP:服務(wù)結(jié)束后，對服務(wù)話術(shù)進行分析，以把控服務(wù)質(zhì)量，優(yōu)化話術(shù)。覆蓋場景智能營銷智能客服金融資訊覆蓋的定性文本數(shù)據(jù)分析難度高且數(shù)據(jù)量大痛點場景借助NLP技術(shù)，對金融資訊中文本型數(shù)據(jù)進行拆解，定位有用信息并進行分類分析，提升金融機構(gòu)對金融資訊分析的廣度與精度。各類自然語言金融資訊公司新聞產(chǎn)品資料宏觀經(jīng)濟政策文件媒體評論...通過NLP技術(shù)進行分析處理情感分析：對金融資訊文本的傾向性分析，從而判斷市場中各類關(guān)切主題的情感傾向。事件抽取：從海量金融資訊中抽取特定業(yè)務(wù)相關(guān)事件信息，并進行結(jié)構(gòu)化處理。文本摘要：將金融資訊長文本的內(nèi)容提取并重組為較短的摘要文本。應(yīng)用于金融業(yè)務(wù)場景不同金融業(yè)務(wù)難以簡單快速地定位到所需定性分析的文本型數(shù)據(jù)風控

投研

投顧智能風控：增加風控模型評估因子，實現(xiàn)輿情監(jiān)測預警智能投研：監(jiān)測市場輿情，挖掘事件關(guān)系，改善金融交易預測模型。29同花順在金融信息服務(wù)行業(yè)以強研發(fā)聞名，i問財有望憑借GPT全面升級服務(wù)模式。公司重點打造的i問財是在財經(jīng)領(lǐng)域落地的有代表性的自然語言、語音對話交互問答系統(tǒng)。2021年，在全球?qū)υ捪到y(tǒng)技術(shù)領(lǐng)域的頂級賽事DSTC9中，取得跨語言對話狀態(tài)跟蹤任務(wù)第一名。在GPT賦能下，i問財有望升級服務(wù)模式，在信息匯集、交互問答等方面跨越，進一步發(fā)展為智能投顧平臺，為個人投資者投資決策提供更全面、深入的支持。東方財富構(gòu)建一站式互聯(lián)網(wǎng)財富管理生態(tài)圈，GPT或催生全新的智能投顧產(chǎn)品。憑借費率優(yōu)勢以及對用戶體驗的重視，天天基金近年來在基金代銷行業(yè)躋身頭部位置。我們認為，借助于GPT賦能，天天基金之類的財富管理機構(gòu)在基金投顧方面有望更加智能。例如，結(jié)合用戶對投資回報、風險偏好的描述，更加精準地推薦基金產(chǎn)品；當用戶對基金投資標的、投資風格等產(chǎn)生問題時，也能快速地進行信息生成，助力財富管理機構(gòu)在拉長客戶接觸時間的同時控制運營成本；此外，通過迭代學習，投顧質(zhì)量也有望不斷夯實。綜合而言，GPT將助力客戶粘性提升與流量優(yōu)勢強化。資料來源：同花順i問財網(wǎng)站資料來源：天天基金網(wǎng)同花順i問財股票欄目天天基金網(wǎng)基金導購欄目提供基金篩選功能3.4

垂直場景：金融—同花順i問財?shù)仍贕PT加持下或升級智能投顧平臺30萬得、恒生聚源等專注金融與產(chǎn)業(yè)數(shù)據(jù)資訊服務(wù)提供，GPT或變革產(chǎn)品輸出形態(tài)。萬得是國內(nèi)B端金融信息服務(wù)行業(yè)的領(lǐng)跑者之一，構(gòu)建了以金融證券數(shù)據(jù)為核心的大型金融工程和財經(jīng)數(shù)據(jù)倉庫。恒生聚源作為恒生電子旗下的創(chuàng)新子公司，擁有金融數(shù)據(jù)庫、金融終端、智眸系列等豐富的產(chǎn)品線，積累了股票、債券、理財、宏觀等多大類、全歷史年限、多維度的結(jié)構(gòu)化數(shù)據(jù)內(nèi)容。在GPT的賦能之下，我們認為金融數(shù)據(jù)產(chǎn)品的提供有望更加體系化，交互方式有望更加多元化，例如對券商研報進行元素提取、對機構(gòu)調(diào)研信息進行整合，協(xié)助投研人員搜集資料數(shù)據(jù)，減少了大量繁瑣的案頭工作。盡管目前在用戶測試中，ChatGPT對投研領(lǐng)域的回答尚不盡如人意，但伴隨著相關(guān)材料納入訓練集，我們認為回答的專業(yè)性有望提升。資料來源：恒生聚源公司官網(wǎng)資料來源：微信公眾號文因互聯(lián)，中信證券研究部恒生聚源基礎(chǔ)數(shù)據(jù)庫產(chǎn)品GPT+投研應(yīng)用展望研報訂閱推送深度搜索回測分析自動推送消息訂閱精準推送智能匹配主動式搜索提出圖表中的高價值數(shù)據(jù)搜索報告中的指標并實現(xiàn)關(guān)聯(lián)指標的對比分析獲取研究靈感定量式分析報告預測的準確度分析師擅長的行業(yè)擇時能力分析風格分析3.4

垂直場景：金融—GPT或提升萬得等數(shù)據(jù)產(chǎn)品輸出的體系化&多元化31GPT有望在醫(yī)療領(lǐng)域中發(fā)揮醫(yī)生助手的作用，協(xié)助進行問診導診、科研輔助等工作?？紤]到醫(yī)療領(lǐng)域的專業(yè)性、敏感性以及潛在風險因素，我們認為，GPT的定位更多在于醫(yī)生助手，幫助醫(yī)生完成事務(wù)性工作以及一些基礎(chǔ)科研工作，而非取代醫(yī)生。此前，AI+醫(yī)療的應(yīng)用主要體現(xiàn)在圖像分割、影像分析、機器翻譯、病理細胞分析等領(lǐng)域，側(cè)重于輔助。根據(jù)美國《科學公共圖書館·數(shù)字健康》報道，ChatGPT在沒有經(jīng)過專門訓練或加強學習的情況下就能通過或接近通過美國執(zhí)業(yè)醫(yī)師資格考試（USMLE）。結(jié)合ChatGPT的試用效果，我們認為，GPT的潛在應(yīng)用場景包括導診、輕問診、輔助診斷、病歷書寫等，根據(jù)第一財經(jīng)報道，一些醫(yī)院正在利用類ChatGPT技術(shù)搭建模型，以支持院內(nèi)的醫(yī)療、教育和科研工作。伴隨醫(yī)療健康語料納入訓練，GPT發(fā)揮的效果值得期待?！?021年中國人工智能+醫(yī)療與生命科學行業(yè)研究報告》（艾瑞研究院）3.5

垂直場景：醫(yī)療—GPT+文本&對話&圖像扮演醫(yī)生助手角色AI+醫(yī)療應(yīng)用場景32醫(yī)療信息化公司作為醫(yī)療機構(gòu)信息化底座提供者，有望助力構(gòu)建GPT能力。根據(jù)復旦大學附屬華山醫(yī)院信息中心主任黃虹在接受第一財經(jīng)采訪時透露的情況，醫(yī)院內(nèi)部落地GPT的場景包括：就醫(yī)導診，以提升醫(yī)療效率；構(gòu)建內(nèi)部知識庫，以提升臨床研究效率；匯集歷史病歷，輔助醫(yī)生提升電子病歷書寫效率?？紤]到醫(yī)院本身在信息化能力上的相對薄弱，我們認為以創(chuàng)業(yè)慧康、衛(wèi)寧健康、醫(yī)渡等為代表的醫(yī)療信息化公司作為醫(yī)院內(nèi)部系統(tǒng)的供應(yīng)商，有望幫助醫(yī)院構(gòu)建GPT能力?；ヂ?lián)網(wǎng)醫(yī)療平臺卡位線上問診，GPT有望助力問診效率大幅提升。2020年疫情爆發(fā)以來，互聯(lián)網(wǎng)醫(yī)院憑借著突破時空限制、免接觸等優(yōu)勢，迎來快速發(fā)展。平安好醫(yī)生、阿里健康、京東健康等平臺搭建了輕問診模式，主要通過自有醫(yī)生、外部簽約醫(yī)生提供問診服務(wù)。我們認為，GPT可以用于在線問診支持，為用戶提供基本的、常規(guī)化的問診服務(wù)。這將助力互聯(lián)網(wǎng)醫(yī)療平臺實現(xiàn)問診效率的大幅提升，問診服務(wù)的供給能力將不再受制于鏈接的醫(yī)生數(shù)量。資料來源：創(chuàng)業(yè)慧康官方微信公眾號資料來源：京東APP創(chuàng)業(yè)慧康大數(shù)據(jù)和人工智能產(chǎn)品體系京東健康互聯(lián)網(wǎng)醫(yī)院3.5

垂直場景：醫(yī)療—醫(yī)療信息化廠商卡位核心系統(tǒng)，助力構(gòu)建GPT能力33醫(yī)渡科技擁有豐厚的AI能力積累，未來在GPT賦能下有望更優(yōu)服務(wù)于臨床科研、醫(yī)療監(jiān)管等。醫(yī)渡科技通過智能醫(yī)療大腦YiduCore服務(wù)于客戶，截至2022年9月30日，已處理和分析了超過700百萬名患者的30多億份醫(yī)療記錄，擁有豐厚的醫(yī)療大數(shù)據(jù)沉淀。根據(jù)沙利文報告（轉(zhuǎn)引自醫(yī)渡科技年報），醫(yī)渡科技在國內(nèi)新興醫(yī)療智能市場占據(jù)25.6%份額。應(yīng)用方面，公司為監(jiān)管機構(gòu)提供了AI賦能的數(shù)據(jù)分析解決方案，以優(yōu)化公共衛(wèi)生治理水平，如中標北京市傳染病智慧化多點觸發(fā)監(jiān)測預警平臺項目等；公司還通過使用符號知識推理模型及深度學習等AI技術(shù)迭代真實世界疾病模型，深化對疾病的洞見，在血液系統(tǒng)疾病領(lǐng)域、皮膚疾病領(lǐng)域協(xié)助搭建了專病科研平臺。未來結(jié)合多模態(tài)GPT賦能，公司有望在科研輔助、監(jiān)管支撐等方面將發(fā)揮更重要作用。資料來源：醫(yī)渡科技公司官網(wǎng)資料來源：醫(yī)渡科技公司官網(wǎng)醫(yī)渡科技基于YiduCore提供數(shù)據(jù)分析及證據(jù)決策驅(qū)動的解決方案醫(yī)渡科技在醫(yī)院、監(jiān)管機構(gòu)、生命科學公司等之間構(gòu)建生態(tài)系統(tǒng)3.5

垂直場景：醫(yī)療—醫(yī)渡基于AI能力/數(shù)據(jù)積累有望更優(yōu)服務(wù)科研、監(jiān)管34GPT有望改變圖像視頻領(lǐng)域內(nèi)容生產(chǎn)模式，多模態(tài)提高信息輸出豐富度。圖像視頻行業(yè)新老業(yè)態(tài)交織，構(gòu)成相對多元，以生產(chǎn)和傳播文字、圖像、藝術(shù)、影像、聲音等形式存在，包括報紙、圖書、廣播、電影、電視、動漫等諸多細分領(lǐng)域。從產(chǎn)業(yè)鏈條來看，圖像視頻行業(yè)主要涉及信息采集、制作、分發(fā)、傳播等，我們認為GPT將主要影響產(chǎn)業(yè)鏈前端的采集、制作。結(jié)合中國信通院《AIGC白皮書》，我們預計在GPT賦能之下，特別是對多模態(tài)的延伸，圖像視頻行業(yè)有望進一步提高寫稿機器人、采訪助手、視頻智能剪輯、合成主播等新興應(yīng)用的供給能力，既改變內(nèi)容生產(chǎn)模式，也滿足信息接收者對豐富內(nèi)容的需求?！吨袊摂M數(shù)字人影響力指數(shù)報告》（中國傳媒大學媒體融合與傳播國家重點實驗室媒體大數(shù)據(jù)研究中心、優(yōu)格元宇宙實驗室、中傳數(shù)字人研究院）資料來源：人民日報官方微博虛擬數(shù)字人相關(guān)技術(shù)指標AI繪畫版《我的祖國》MV3.6

垂直場景：圖像視頻—GPT+圖像&視頻強化內(nèi)

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

GPT大模型多模態(tài)應(yīng)用展望

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔