2024交互型多模態(tài)大模型研究進展、應(yīng)用前景以及商業(yè)模式分析報告

上傳人：策*** IP屬地：山西上傳時間：2024-09-14 格式：DOCX 頁數(shù)：62 大?。?.26MB 積分：19.9 舉報 版權(quán)申訴

2024交互型多模態(tài)大模型研究進展、應(yīng)用前景以及商業(yè)模式分析報告_第2頁

2024交互型多模態(tài)大模型研究進展、應(yīng)用前景以及商業(yè)模式分析報告_第3頁

2024交互型多模態(tài)大模型研究進展、應(yīng)用前景以及商業(yè)模式分析報告_第4頁

2024交互型多模態(tài)大模型研究進展、應(yīng)用前景以及商業(yè)模式分析報告_第5頁

已閱讀5頁，還剩57頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

2024年深度行業(yè)分析研究報告一、什么是交互型多模態(tài)大模型？ 41.1交互型多模態(tài)大模型應(yīng)具備什么特點？ 41.2交互型多模態(tài)大模型成本將降至幾何？ 8二、交互型多模態(tài)大模型進展如何？ 2.1海外：OpenAI與谷歌雙巨頭搶灘 2.2國內(nèi)：大模型多處于語音交互階段，商湯智譜領(lǐng)銜升級視頻交互功能三、為什么交互型多模態(tài)大模型有望帶來應(yīng)用的爆發(fā)？ 3.1視覺是獲取外部信息最主要的途徑，多模態(tài)更符合人類感知的方式 3.2應(yīng)用發(fā)展的核心就是人機交互模式的升級四、交互型多模態(tài)大模型會帶來怎樣的應(yīng)用？ 4.1交互型多模態(tài)大模型在“數(shù)字智能”中的應(yīng)用 4.1.1教育 4.1.2編程 224.1.3醫(yī)療健康 234.1.4辦公 254.1.5游戲 264.1.6情感陪伴 284.2交互型多模態(tài)大模型在“具身智能”領(lǐng)域應(yīng)用 294.2.1人形機器人 294.2.2智能座艙 304.2.3智能家居 32五、交互型多模態(tài)大模型未來形態(tài) 355.1交互先行，端側(cè)AI發(fā)展有望加速 355.2交互型多模態(tài)大模型商業(yè)模式 36六、相關(guān)標的梳理 38圖1：GPT-4o能聽出用戶呼吸急促，并將其形象比喻成吸塵器，然后給出建議 4圖2：用戶寫字表白，GPT-4o能快速識別字跡并高興地感謝用戶，輸出時語氣帶著笑意 4圖3：過去ChatGPT實現(xiàn)語音互動的三個步驟 5圖4：谷歌Gemini具有原生多模態(tài)特性 5圖5：Gemini多模態(tài)能力使用案例 5圖6：Chameleon的模型結(jié)構(gòu)與訓(xùn)練方法 6圖7：GPT-4o響應(yīng)速度提升 7圖8：GPT-4o與人交流時會開一些合理的玩笑，如它會說“我今天要請客了” 7圖9：ProjectAstra記住了曾經(jīng)“看”到過的眼鏡和蘋果 8圖10：OpenAI大模型的降本歷程 9圖11：GPT-4omini在基準測試中表現(xiàn)較好 9圖12：GPT-4omini具有高性價比 9圖13：GPT-4o新版本價格相比3個月前下降超40% 圖14：GPT-4o在多語言識別方面與Whisper-v3對比圖15：GPT4o音頻翻譯基準測試表現(xiàn) 圖16：GPT-4o發(fā)布后ChatGPT移動端APP的收入高增圖17：谷歌展示AI智能體項目ProjectAstra 圖20：日日新5o分析建筑環(huán)境及天氣圖21：日日新5o識別書籍并提供更多信息圖22：日日新5o識別繪制的簡筆畫表情并分析情緒圖23：用戶可以用清言APP視頻通話功能和AI玩“你畫我猜”的游戲圖24：清言APP視頻通話功能可以輔助用戶讀論文圖25：國內(nèi)大模型聊天助手語音交互界面圖26：多模態(tài)更符合人類與外界交互的方式圖27：人機交互過程圖28：人機交互的變革圖29：人機交互將向最簡單的形態(tài)發(fā)展圖30：現(xiàn)代教育的特征與AIGC技術(shù)吻合圖31：大模型拓展了AI技術(shù)在教育領(lǐng)域的應(yīng)用場景 20圖32：Duolingomax功能 20圖33：GPT-4o在KhanAcademy上完成數(shù)學(xué)題輔導(dǎo) 21圖34：GPT4o通過視頻完成數(shù)學(xué)問題輔導(dǎo) 21圖35：GPT-4o識別物體并輸出西班牙語 21圖36：GPT4o模擬面試 21圖37：AGI完全體與教育暢想 22圖38：GPT4o代碼能力演示 23圖39：遠程協(xié)作平臺Multi 23圖40：GPT-4o與Bemyeyes結(jié)合為盲人提供實時助手 24圖41：AIGC貫穿醫(yī)療全流程 25圖42：GPT4o當會議助手 26圖43：GPT-4V可以基于游戲畫面生成用戶行為預(yù)測以及NPC行為建議 27圖44：GPT4o唱生日快樂歌 28圖45：Figure01背后的大模型技術(shù) 30圖46：智能座艙多種交互方式 31圖47：智能座艙多維度信息的融合 31圖48：絕影FlexInterface生成個性化交互界面 32圖49：生成式AI賦能智能家居的價值 33圖50：螢石AI技術(shù)策略 33圖51：螢石藍海大模型 34圖52：演示元蘿卜光翼燈使用方言回答問題 34圖53：元蘿卜光翼燈產(chǎn)品 34圖54：前OpenAI高管AndrejKarpathy對LLMOS的構(gòu)想 35圖55：Copilot讀取PC屏幕內(nèi)容，輔助用戶完成《我的世界》相關(guān)任務(wù) 36圖56：AIAgent幫用戶規(guī)劃旅行、購票、更新日歷等 37圖57：“PC互聯(lián)網(wǎng)時代-移動互聯(lián)網(wǎng)時代-AI時代”入口演進 37表1：OpenAI在醫(yī)療健康領(lǐng)域的應(yīng)用實踐 24表2：部分游戲公司的AI布局動作 27表3：智能座艙Agent場景 31一、什么是交互型多模態(tài)大模型？交互型多模態(tài)大模型是指跨越單一模態(tài)的限制，支持文本、音頻、圖像、視頻等各種模也就是“全能”的意思，接受文本、音頻和圖像的任意組合作為輸入，并生成文本、音交互型多模態(tài)大模型的核心在于其極強的多模態(tài)理解與生成能力，即能夠融合各種類型的信息進行統(tǒng)一的語義、情景分析和上下文關(guān)聯(lián)，從而更好地理解用戶意圖、實現(xiàn)接近人類的復(fù)雜情境理解和反應(yīng)，然后生成自然流暢、富有情感的語音輸出，使機器的反饋聽起來像人類，增強交互的真實感。這類模型可以同時分析處理語音、手勢、面部表情等多種輸入方式，甚至它能感受到用戶的呼吸節(jié)奏；而輸出時，它能模仿人類的情感狀態(tài)如喜悅、悲傷或憤怒等，然后通過調(diào)整語調(diào)、節(jié)奏和音量來表達相應(yīng)的情緒，使交互資料來源：OpenAI2024春季發(fā)布會、西部證券研發(fā)中心資料來源：OpenAI2024春季發(fā)布會、西部證券研發(fā)中心1）原生多模態(tài)：跨文本、視頻和音頻等模態(tài)端到端訓(xùn)練的大模型，所有輸入和輸出都最后再由另一個簡單模型將該文本轉(zhuǎn)換回音頻。但這種方法意味著信息順勢，即這三個模型中最關(guān)鍵的大模型在處理時會丟失大量信息，大模型無法直接觀察用戶的語氣、停頓、音調(diào)、背景音等等，而這些在純文本環(huán)境中難以被準確捕捉和表達的信息對理解對話意圖和情緒狀態(tài)至關(guān)重要，尤其是在需要高度情境感原生多模態(tài)的GPT-4o則將圖像、文字、語音甚至視頻等多種編碼集成到一個模型中。在訓(xùn)練過程中，這些不同模態(tài)的數(shù)據(jù)被統(tǒng)一輸入給模型內(nèi)部學(xué)習(xí)。當不同模態(tài)的信息相關(guān)且指向同一類事物時，它們的內(nèi)部表征是非常相似的。在生成階段，模型可以更加靈活地利用統(tǒng)一的表征進行不同模態(tài)的生成。資料來源：X（@DrJimFan）、騰訊科技微信公眾號、西部證券研發(fā)中心進行預(yù)訓(xùn)練，并利用額外的多模態(tài)數(shù)據(jù)進行微調(diào)以提升有效性，包括圖像、圖表、截圖、PDF和視頻等，并能產(chǎn)生文本和圖像輸出，所以Gemini可以泛化并無縫理解分析不同模態(tài)信息組合起來的輸入，并輸出多張圖像與到用戶輸入的示例和問題，示例內(nèi)容是當給定藍色和黃色兩種顏色毛線團時，可以織成藍貓和黃耳朵的藍狗。隨后，Gemini被要求利用兩種新顏色的毛線團——粉色生成富有創(chuàng)意的建議。最后，Gemini回答可以制作一個果核為粉色的牛油果，或制作一只耳朵為粉色的綠兔子，并附上了非常貼合回資料來源：《Gemini:AFamilyofHighlyCapableMultimodalModels》、西部證券研發(fā)中心資料來源：《Gemini:AFamilyofHighlyCapableMultimodalModels》、西部證券研發(fā)中心能夠?qū)θ我饣旌夏B(tài)文檔進行推理以及生成。Chameleon的核心在于其完全token-based的架構(gòu)，圖像和文本都被表示為一組離散的tokens，這種設(shè)計允許模型資料來源：《Chameleon:Mixed-ModalEarly-FusionFoundationModels》、西部證券研發(fā)中心2）快速響應(yīng)：大模型能做到極低延遲，響應(yīng)速度比肩人類，且可以做到對話隨時打斷。頻輸入，與人類在對話中的反應(yīng)速度一致，且可以隨時打斷，要等待用戶說完一句話才能完成整句識別；識別完成后，將整句話輸入到后續(xù)的大模型中生成回復(fù)；再之后才能調(diào)用語音合成模型來成到一個模型中，各部分之間的依賴性降低，因為模型內(nèi)部表征已經(jīng)融合在一起，所以可以更快地開始生成語音輸出，而不必等待前面的所有信息都處簡單來說，端到端大模型一般采用流式輸入的方式，即在接收到部分信息時就開始處理；同時，隨著對話繼續(xù)進行，模型將不斷地吸收新的信息，對回復(fù)進行實時調(diào)整。這種設(shè)計讓大模型具備了邊聽邊說的能力，即在用戶講話的過程中就開始準備回應(yīng)，一旦用戶暫停，模型可以立即給出反饋。這種機制極大地減少了響應(yīng)延遲，使交互變得更加自然流暢，同時也支持用戶在任何時候打斷模型，因為模型總是保持著對當前對話狀態(tài)的最響應(yīng)速度（秒）6543210資料來源：新智元微信公眾號、OpenAI2024春季發(fā)布會、西部證券研發(fā)中心隨著用戶的情緒激動起來，語氣中充滿了細節(jié)。在發(fā)布會上，當測試者要求GPT-4o用“最戲劇性”的方式去講故事的時候，它表現(xiàn)得很像話劇演員，能給故事各個情節(jié)配上合適的情緒；而在用戶要求以歌聲結(jié)束這個故事時，GP在探討大模型發(fā)展及影響時，我們往往傾向于聚焦技術(shù)層面的突破、性能的提升，然而AI除了提供實用的知識價值之外，還能夠為用戶帶來另一種更為微妙但卻至關(guān)重要的價值——情感價值。用戶與技術(shù)之間的關(guān)系不僅僅只有單純的信息層面的連接，還有情感層面的連接。對于許多用戶來說，他們期望的不僅僅是高效的數(shù)據(jù)處理和信息檢索，更資料來源：OpenAI、騰訊科技公眾號、西部證券研發(fā)中心交互型多模態(tài)大模型在此方面展現(xiàn)出巨大的潛力，它能夠通過細微的個性化調(diào)整，讓用戶體驗到被理解和關(guān)懷的感覺，從而在用戶心中建立起更強的情感紐帶，我們認為這對增強用戶粘性具有不可忽視的作用。用戶會開始依賴大模型，因為它不僅能夠快速收集整理信息，更重要的是它能夠在關(guān)鍵時刻給予用戶情感上的支持。這種情感上的聯(lián)結(jié)，會讓用戶對AI產(chǎn)品的滿意度和忠誠度顯著提高，從而促進AI技術(shù)在的演示視頻中，Astra展示了其對周圍環(huán)境的快速理解和響應(yīng)能力，如識別并涉及到，但攝像頭掃過的時候Astra曾“看”到過眼鏡，并且以視覺的形式“記”住了，閃而過的，但ProjectAstra可以通資料來源：谷歌I/O2024大會、西部證券研發(fā)中心不同語言。目前，GPT-4omini現(xiàn)已作為文本和視覺模型在AssistantsAPI、Chat資料來源：OpenAI、鈦媒體微信公眾號、西部證券研發(fā)中心和編程任務(wù)、多模態(tài)推理等測試上的表現(xiàn)比較出色，得分優(yōu)于GeminiFlash、Claude資料來源：OpenAI、APPSO微信公眾號、西部證券研發(fā)中心資料來源：ArtificialAnlys、APPSO微信公眾號、西部證券研發(fā)中心躍居首位。在價格方面，GPT-4o-2024-08-06的輸入和輸出價格相比前一個版本分別下資料來源：OpenAI、量子位微信公眾號、西部證券研發(fā)中心音翻譯方面取得了新的SOTA水平，并且在MLS基準測試中優(yōu)于Whisper-v3。管OpenAI表示GPT-4o將免費提供給用戶，但這一承諾尚未擴展到移動版APP上ChatGPT周度收入（萬美元）0資料來源：SensorTower、西部證券研發(fā)中心語音輸入組合到事件時間線中并緩存此信息以進行有效調(diào)用，從而更快地處理信息。而交互中數(shù)據(jù)或信息以連續(xù)流動的方式被處理和響應(yīng)，而不是以離散的、批量的步驟進行，重要特征在于即時性和連續(xù)性，需要系統(tǒng)立即處理輸入數(shù)據(jù)并作出響應(yīng)，而不是等待數(shù)5.5采用的是混合端邊云協(xié)同專家架構(gòu)，可以最大限度發(fā)揮云邊端協(xié)同，降低推合成的思維鏈數(shù)據(jù)，語言理解和交互能力全面升級。編程等多個維度較上個版本具有較大的提升，尤其是在數(shù)學(xué)推理（+31.5%）、英文理解行流暢的視頻交互——能聽、能說、能看、無延時，能通過攝像頭+語音實現(xiàn)和用戶的實時交互，并獲知用戶所在的真實場景下的各種狀態(tài)信息，打日日新5o能實現(xiàn)較為自然流暢的交互，信息，對鏡頭識別的內(nèi)容進行科普介紹，例如在演示中日日新5o識別出演示者給出的書籍名稱，且能對其內(nèi)容做簡介。此外，日日新5o還可以識別演示者繪制的簡筆畫形狀和戶開放，同時開放外部申請。清言視頻通話功能跨越文本、音頻和視頻等模態(tài)，并具備實時推理的能力。用戶打開清言的視頻通話窗口，即可與它進行流暢通話，即便頻繁打斷，它也能迅速反應(yīng)。且打開攝像頭，清言也可以“看”到的外界畫面，同時可以聽懂資料來源：智譜微信公眾號、西部證券研發(fā)中心資料來源：智譜微信公眾號、西部證券研發(fā)中心音轉(zhuǎn)文字、大模型生成文字回答、最后文字轉(zhuǎn)語音來實現(xiàn)，所以交互并不流暢，且延時較長；此外，大模型語音回答內(nèi)容較為機械和模式化，同時無法通過對話打斷回答，必資料來源：豆包APP、文心一言APP、通義千問APP、西部證券研發(fā)中心三、為什么交互型多模態(tài)大模型有望帶來應(yīng)用的爆發(fā)？模態(tài)是指承載信息的模式或方式，不同類別的信息來源或形式都可以稱為一種模態(tài)。模態(tài)基于人的感官可分為聽覺、視覺、嗅覺、味覺、觸覺，基于信息傳遞的媒介可分為圖像、語音、視頻、文本等，除此之外還有傳感器的模態(tài)數(shù)據(jù)，如雷達、紅外、GPS、加人類在進化過程中形成了以視覺為主的感知系統(tǒng)，我們獲得的外界信息絕大部分來自視覺。從感知偏好來看，人類大腦對視覺信息的處理能力尤為強大，能夠迅速捕捉并解析復(fù)雜的圖像和視頻中的細節(jié)，所以在自然交流和信息傳播中，視覺內(nèi)容是極其高效和直觀的載體。從信息傳達角度，圖片和視頻相比純文本，往往能承載更豐富、更密集的信息，一個畫面能夠捕捉并傳達多層次的細節(jié)和情感，遠超于文字所能描述的內(nèi)容，這些都能極大地增強信息的表達力和理解深度。在這個由多種模態(tài)信息構(gòu)成的世界，會同時收到多個互補的、融合的、不同模態(tài)的感官輸入，多模態(tài)更符合人類感知周邊、探索世界的方式。多模態(tài)理解大模型可以讓用戶使用文本、圖像、聲音、視頻、傳感等多種數(shù)據(jù)類型與終端進行交流，大大拓展了用戶同終端的交互形式。多模態(tài)生成大模型能夠生成各種跨媒體內(nèi)容，為用戶提供更為直觀的信息表達，從而實現(xiàn)更加高效豐富的溝通體驗，其實這也為更多樣性的終端硬件形態(tài)如資料來源：華為《AI終端白皮書》、西部證券研發(fā)中心多模態(tài)交互效果，是邁向這一目標的重要一步。因為從理解用戶的角度來看，首先通過結(jié)合語音和視頻分析，AI可以更好地理解用戶的意圖和情緒，例如當用戶語調(diào)輕快，但其面部表情很凝重時，AI需要綜合判斷來確定最合適的回應(yīng)，而這種復(fù)雜情境下的理解它可能會學(xué)習(xí)到這些手勢的含義，并在未來類似的情境中快速做出合適的回應(yīng)。應(yīng)用是連接人類意圖與信息及技術(shù)實現(xiàn)的媒介，其本質(zhì)是交互——用戶通過應(yīng)用表達需求，應(yīng)用通過尋找信息和調(diào)用相應(yīng)技術(shù)來理解和實現(xiàn)用戶的意圖，形成一個閉環(huán)的交互過程。應(yīng)用作為一個中介，不僅僅是一個靜態(tài)的工具，而是一個動態(tài)的、可以交互的系統(tǒng)，它需要接收、處理用戶輸入，并與后端技術(shù)（如數(shù)據(jù)庫等）進行交互，最終給出用設(shè)計、流暢的操作邏輯、及時的反饋機制，搭建了人與數(shù)字世界交互的我們平時通過點擊、說話等方式將大腦中的信息指令通過鼠標、鍵盤、觸摸屏等媒介，傳遞到硬件系統(tǒng)再到軟件系統(tǒng)，然后軟件系統(tǒng)進行處理。后續(xù)處理結(jié)果會通過顯示器、資料來源：機器之心、維基百科、西部證券研發(fā)中心過往每一次人機交互的重大革新都孕育了行業(yè)巨頭，并深刻改變了人們的生活方式和商業(yè)格局。1940-1960年代，早期的計算機通過穿孔紙向計算機輸入指令，有孔為1，無孔為0，經(jīng)過光電輸入機將數(shù)據(jù)輸入計算機。由于需要輸入二進制的機器語言，計算機在這個階段只被少數(shù)專家應(yīng)用于專業(yè)領(lǐng)域。地簡化了用戶與計算機之間的交互，不再需要復(fù)雜的命令行輸入，而是通過直觀的圖標、菜單和鼠標點擊來操作。這一革新不僅讓個人電腦變得更加用戶友好，也催生了微軟這用戶界面設(shè)計的范式。2007年，蘋果公司推出了第一代iPhone，憑借其革命性的觸摸屏和多點觸控技術(shù)，重新定義了手機，也開創(chuàng)了移動互聯(lián)網(wǎng)時代，帶動了App經(jīng)資料來源：虎嗅網(wǎng)、網(wǎng)易、西部證券研發(fā)中心整理繪制軟件行業(yè)》的文章，并稱“AIAgent不僅會改變每個人與計算機的交互方式，還將顛覆軟件行業(yè)，引領(lǐng)我們從鍵入命令到點擊圖標以來計算機領(lǐng)域最大的革命”。他認為：AIAgent將成為下一個平臺。未來用戶只需用日常語言告訴設(shè)備想要做什么，基于獲取的信息和對用戶生活的豐富了解，軟件能夠做出個性化的回應(yīng)。在不久的將來，任何網(wǎng)民就是人機交互的不斷進化與深化。人機交互的核心點之一為信息傳遞，從外設(shè)主導(dǎo)到觸控技術(shù)，再到自然語言處理，人機交互的發(fā)展一直在努力簡化信息傳遞過程，使其更加直觀、自然和無縫。每一次技術(shù)迭代都致力于減少用戶與技術(shù)之間的隔閡，讓信息的交出現(xiàn)，簡化信息傳遞過程，用戶可以通過點擊圖標、拖放文件、使用下拉菜單等方式進行操作，無需記住復(fù)雜的命令序列。這一轉(zhuǎn)變極大地降低了學(xué)習(xí)門檻，使得信息傳遞過程更加直觀和用戶友好。但用戶仍需要學(xué)習(xí)并遵循特定的應(yīng)用界面布局、菜單結(jié)構(gòu)和操作規(guī)則來實現(xiàn)需求。隨著移動互聯(lián)網(wǎng)時代的到來，多點觸控技術(shù)成為主流。用戶可以直接在屏幕上通過觸摸、滑動、捏合等手勢來操作，這一方式更接近于人類在現(xiàn)實生活中的交互習(xí)慣。觸控技術(shù)使得信息傳遞無需通過額外的物理設(shè)備，減少了中間環(huán)節(jié)，用戶可以直接與內(nèi)容互動，信息傳遞過程變得更加快速、高效和自然。例如，智能手機和平板電腦上的多點觸控操作，讓用戶可以輕松放大圖片、翻頁閱讀、播放音樂等，無需復(fù)雜的按鍵組合，信息傳遞的效率和設(shè)備易用性大大提高。然而，盡管觸摸屏簡化了一些操作步驟，但用戶仍然需要理解和記憶各形式發(fā)展，具體為以語音交互為主的包含語音、手勢、觸感和空間計算等在內(nèi)的全理解、多任務(wù)學(xué)習(xí)、生成能力、知識整合和有顯著提升，從而增強了推理“程序性知識”的能力，讓大模型在處理復(fù)雜問題、提供智能服務(wù)方面具有顯著優(yōu)勢。終端本身就融合了多種感知通道，錄音機、攝像頭等傳感器作為重要輸入源提供多維數(shù)據(jù)，且不同于傳統(tǒng)的關(guān)鍵詞匹配，大模型結(jié)合上下文進行分析，這意味著它可以在連續(xù)的對話中保持話題連貫、把握整體脈絡(luò)，這讓大模型對用戶意圖擁有較強的理解能力。同時，大模型在回答時能從知識庫中提煉出有價值的信息，并能夠根據(jù)用戶的具體需求和上下文背景，提供定制化的答案或建議；且當大模型與應(yīng)用深度結(jié)合之后，它根據(jù)用戶的指令或需求，自動調(diào)用相應(yīng)的應(yīng)用程序、服務(wù)或界面等。命令，而是直接用自然語言與設(shè)備溝通。不再受限于固定的界面規(guī)則的交互將變得資料來源：極客公園微信公眾號、西部證券研發(fā)中心整理繪制所以在大模型迭代過程中，性能提高固然重要，但交互的升級也同樣具有重大價值，商演進。過往的應(yīng)用設(shè)計理念都是希望人去學(xué)習(xí)軟件或機器設(shè)備的交互界面。AI時代，設(shè)計理念走向了一個全新的方向，就是讓軟件系統(tǒng)或設(shè)備來理解人。這個變化意味著用戶不應(yīng)該去參加使用培訓(xùn)，甚至也不需要產(chǎn)品說明書，通過多模態(tài)（文字，圖片，語音，視頻，氣味等）的交互方式，產(chǎn)品會主動理解使用者的意圖和需求。大模型的終極形態(tài)，是讓人機交互進化到最原始、最簡單的形態(tài)，在未來和電腦、手機檻，所以交互型多模態(tài)大模型帶來的這種更加直觀、傻瓜的交互，有望帶來大模型應(yīng)用四、交互型多模態(tài)大模型會帶來怎樣的應(yīng)用？來提供服務(wù)，即可簡單理解為大模型通過手機、電腦等終端以智能助手形式直接與用戶互動，提供軟件形式的服務(wù)。具身智能則與物理環(huán)境交互，需要硬件支持來實現(xiàn)三維空間內(nèi)的運動行為，其中人形機器人是其代表，在應(yīng)用領(lǐng)域方面，具身智能已經(jīng)滲透到機規(guī)?；蜆藴驶乾F(xiàn)代教育的特征——基于社會分工的邏輯，旨在為社會各行各業(yè)的發(fā)展培養(yǎng)可用之才。與此相對應(yīng)的，便是分專業(yè)的學(xué)科式架構(gòu)、分級分班的規(guī)?；虒W(xué)。AIGC技術(shù)應(yīng)用下，大規(guī)模的通用數(shù)據(jù)與教育各學(xué)科的垂類數(shù)據(jù)并存，通識教育和專業(yè)教育所需的內(nèi)容均可滿足。同時，AIGC資源不像教師資源具有時空上的獨占性，有望實現(xiàn)大規(guī)模的個性化教學(xué)。而在交互方式上，口語面授是主流的、學(xué)生習(xí)以為常的教學(xué)交互方式，而AIGC技術(shù)的獨特之處也在于多輪自然語言交互能力，有來有回的問答式相比于知識的單向灌輸，更接近孔子《論語》的對話體教學(xué)，也更接近蘇格拉底的啟發(fā)式對話教學(xué)模式。在判別式AI技術(shù)下，學(xué)生在口語練習(xí)時常常存?zhèn)€性化不足等問題。AIGC技術(shù)應(yīng)用后，大模型參數(shù)的擴大、預(yù)原本單向播報和簡單問答的功能進一步拓展了多輪對話、邏輯推理、上下文理解能力。其次，基于新數(shù)據(jù)生成而非識別分類的邏輯，AIGC產(chǎn)品可應(yīng)對的場景和任務(wù)泛，可以滿足用戶對細分場景的需求。而交互能力的升級，會讓教學(xué)時的對話過程更加流暢，從而提高對話效率和質(zhì)量。資料來源：艾瑞咨詢《2024年AIGC+教育行業(yè)報告》、西部證券研發(fā)中心的創(chuàng)新。KhanAcademy推出了KhanmigoA供即時反饋。ExplainMyAnswer功能則在用戶語法有望大幅提高，我們認為GPT-4o的實時互動能力對于教育領(lǐng)域尤其關(guān)鍵，能夠適應(yīng)學(xué)生多樣化需求，使學(xué)習(xí)過程更加生動，互動更流暢，教學(xué)更具針對性，用戶的學(xué)習(xí)興趣資料來源：Duolingo官網(wǎng)、西部證券研發(fā)中心GPT-4o的圖像處理能力也在教育領(lǐng)域得到了有效應(yīng)用。在OpenAI春季發(fā)布會演示中，面對實驗者提出的線性代數(shù)題目"3x+1=4"，GPT-4o展現(xiàn)了其引導(dǎo)解題的能力，只提供解題思路而不直接給出答案，幫助測試者獨立解決了問題。交互型多模態(tài)大模型還可以作為語言學(xué)習(xí)與職業(yè)技能提升的先進工具，其功能涵蓋了多語言翻譯、模擬面試等多個方面，隨時隨地為用戶提供輔導(dǎo)。憑借圖像識別技術(shù)與多種語言儲備，交互型多模態(tài)大模型可以幫助用戶在日常生活中學(xué)習(xí)外語，高效便捷且增強了語言學(xué)習(xí)的互動性和趣味性。同時，GPT-4o的同聲傳譯功能打破了語言障礙，促進了全球范圍內(nèi)的溝通與交流。此外，通過模擬面試場景，它幫助用戶磨練面試技巧，提高職業(yè)競爭力。ChatGPT版本，旨在協(xié)助學(xué)校負責任地部署人工智能技術(shù)。該版本包含了最新的GPT-4o模型，支持跨文本、音頻和視覺的推理，并具備強大的管理控制助教、交通管理系統(tǒng)和新聞制作項目，展現(xiàn)了AI在提升教學(xué)、研社區(qū)戰(zhàn)略減少藥物過量致死、沃頓商學(xué)院用其加深學(xué)生學(xué)習(xí)反思、ASU開發(fā)語言學(xué)習(xí)伙大模型、多模態(tài)交互、Agent規(guī)劃和具身智能行動的融合，將解決個性化教學(xué)、數(shù)據(jù)分析、課件生成、作業(yè)批改等問題，同時，具身智能機器人能夠在物理世界中與學(xué)生建立情感聯(lián)結(jié)，起到教學(xué)陪伴與激勵作用。AIGC技術(shù)的外化與硬件化，是技術(shù)發(fā)展的必經(jīng)之路。通過軟件與硬件的結(jié)合，AIGC技術(shù)將更好地發(fā)揮其在教育領(lǐng)域的優(yōu)勢，為學(xué)生提供更加豐富、個性化的學(xué)習(xí)體驗。AI工具正在被軟件開發(fā)人員廣泛采用。2023年的一項針對軟件開發(fā)人員使用AI工具AI編程助手正迅速成為全球軟件開發(fā)的關(guān)鍵力量，國內(nèi)外企業(yè)均在這一領(lǐng)域取得了顯著進展。國外起步較早，以微軟和OpenAI合作推出的GitHubCopilot為代表，通過深度學(xué)習(xí)技術(shù)，為編程人員提供高效的代碼生成與補全服務(wù)，確立了其在智能研發(fā)工具中的領(lǐng)先地位。國內(nèi)雖然起步稍晚，但緊隨其后，隨著2023年大模型技術(shù)的突破，國內(nèi)頭部AI企業(yè)如阿里巴巴、科大訊飛和百度，紛紛推出了基于自家大模型的編碼助手產(chǎn)品，展現(xiàn)了在AI領(lǐng)域的快速創(chuàng)新和應(yīng)用能力。GPT-4o在代碼優(yōu)化領(lǐng)域的應(yīng)用表現(xiàn)卓越，它能讀懂電腦屏幕，能夠深入分析代碼，然后用自然語言實時指導(dǎo)用戶進行代碼調(diào)整，大幅幫助用戶提升開發(fā)效率和質(zhì)量。在科技活動VivaTech的現(xiàn)場演示中，OpenAI的開發(fā)者體驗負責人RomainHuet使用GPT-4o加持的ChatGPTMac版演示了代碼閱讀、debug和優(yōu)化等過程。Huet首先讓ChatGPT描述了一段代碼的功能，該代碼是用于渲染Discover卡片組件的React組件，數(shù)據(jù)來源于trips.json文件。隨后，Huet請求ChatGPT幫助提高頁面的響應(yīng)性。ChatGPT建議使用TailwindCSS的響應(yīng)式設(shè)計特性，根據(jù)屏幕大小調(diào)整網(wǎng)格列數(shù)，并提供了具體的設(shè)置方法。Huet詢問了具體的屬性設(shè)置，ChatGPT給出了詳細的指導(dǎo)，包括如何根據(jù)不同屏幕尺寸設(shè)置列數(shù)。最后，GPT-4o利用其多模態(tài)能力，親自檢查并確認了改動的有效性。整個演示展示了GPT-4o在編碼問題上的強大實時處理能力，以及其生成文本的速度優(yōu)勢，相較于GPT-4Turbo有顯著提升。既整合技術(shù)也整合員工，被收購初創(chuàng)公司的成員將在交易完成后加入OpenAI。Multi成立于2019年，公司主要產(chǎn)品是多人協(xié)作應(yīng)用程序，允許團隊成員共控制等，優(yōu)勢在于代碼協(xié)作。Multi支持最多10人同時跨屏幕協(xié)作，通過獨立光標，可以對已打開的應(yīng)用程序進行繪制和標注，甚至將各自不同的應(yīng)用程序視圖融合成一個共資料來源：騰訊科技微信公眾號、西部證券研發(fā)中心OpenAI與BeMyEyes合作，為視障人士提供實時視覺輔助，GPT-4o成為盲人的“眼睛”。在OpenAI給出的示例中，GPT-4o給一位視障人士講解了建筑物和國旗上的國徽，描述了湖邊鴨子的活動，展示了AI在輔助視障人士感知世界方面的潛力；最后，GPT-4o還幫助盲人成功坐上了回家的出租車。用實踐。從提高工作效率到改善患者體驗，再到提供個性化服務(wù)和降低成本等，人工智表1：OpenAI在醫(yī)療健康領(lǐng)域的應(yīng)用實踐健康和健身科技健康平臺健康保險加速開發(fā)拯救生命的治療方法?，F(xiàn)了醫(yī)患對話的自動轉(zhuǎn)錄與電子病歷的生成，提升了數(shù)據(jù)質(zhì)量和工作效率。同傳。此外，GPT-4還支持自動生成出院報告，減輕了醫(yī)護人員的文書負擔。在疫情期間，這一系統(tǒng)已連接200多家醫(yī)院，持續(xù)提供專業(yè)醫(yī)療服務(wù)，增強了醫(yī)未來AIGC將貫穿醫(yī)療服務(wù)全流程。AIGC能夠更好地處理包括文本、圖像、聲音在內(nèi)的多種數(shù)據(jù)類型，適用于不同的醫(yī)療場景，例如可以快速生成醫(yī)療報告、病例摘要等文本內(nèi)容提高醫(yī)生的工作效率。并且利用出色的語言能力，整合和分析大量醫(yī)學(xué)文獻和臨床數(shù)據(jù)，為醫(yī)生提供決策支持。生成易懂的醫(yī)療健康教育內(nèi)容，幫助患者更好地理解疾病和治療方案等。資料來源：甲子光年《2024年中國AIGC行業(yè)應(yīng)用價值研究報告》、西部證券研發(fā)中心我們認為交互型多模態(tài)大模型的集成有望為患者提供更加個性化、高效和針對性的醫(yī)療健康相關(guān)服務(wù)，可能將在這幾個方面發(fā)揮較大的作用：1）智能導(dǎo)診助手：通過自然語言交互理解患者的癥狀描述，推薦合適的科室和醫(yī)生，并協(xié)助完成在線預(yù)約；同時，可以分析患者的面部表情和語氣，判斷情緒狀態(tài)，提供適當?shù)男睦戆矒帷?）健康顧問：可以給用戶提供疾病信息、藥物用法、飲食建議等，同時可以通過多模態(tài)交互全方位了解用戶健康狀態(tài)，然后提供準確、及時的健康指導(dǎo)。而針對需要物理治療或康復(fù)訓(xùn)練的用戶，健康顧問可以利用虛擬現(xiàn)實技術(shù)，提供定制化康復(fù)計劃，監(jiān)測患者的運動執(zhí)行情況，及時調(diào)整訓(xùn)練強度，確?？祻?fù)過程的安全和有效。3）情感支持助手：識別普通用戶情緒變化，提供適時的情感支持和心理輔導(dǎo)。而面對患者，除了傾聽、鼓勵和建議，還可以再必要時引導(dǎo)患者聯(lián)系心理健康專家，幫助其應(yīng)對精神健康挑戰(zhàn)。4）無障礙導(dǎo)航助手：利用語音指令和實時位置數(shù)據(jù)，為視障用戶提供清晰的路線指導(dǎo)，避開障礙物，確保安全地到達目的地。它還可以集成交通信息，提供更全面的出行解決方案。5）遠程監(jiān)護助手：適用于老年人或慢性病患者，可以遠程監(jiān)控狀態(tài)和生命體征（如心率、血氧水平）等，并在檢測到異常時立即通知醫(yī)生或家屬。AI未來將成為關(guān)鍵的生產(chǎn)力工具，有望深度融入辦公場景。微軟和領(lǐng)英的《2024WorkTrendIndexAnnualReport》報告顯示，全球員工不僅期望在工作中應(yīng)用AI，而且愿意主動采用AI來提升個人職業(yè)發(fā)展。AI的普及正打破職業(yè)發(fā)展的限制，同時，高級AI用戶的出現(xiàn)預(yù)示著未來工作的新趨勢。交互型多模態(tài)大模型能夠充當會議助手，記錄并總結(jié)要點，且可以區(qū)分參會人聲音。當進行視頻會議時，它能夠全面記錄并整理視頻會議內(nèi)容，自動生成包含重點標記的會議記錄，同時記住各個參會人的觀點。它還能在討論中提供即時回顧，幫助參與者迅速找回被打斷前的討論點和重點內(nèi)容，確保會議的流暢性和信息的準確性。2023年，AI已成為游戲工作室工作流程中的常規(guī)部分，62%的工作室利用AI進行原型制作、概念設(shè)計和資產(chǎn)創(chuàng)建。在Unity的數(shù)據(jù)中，有71%工作室表示，AI改善了他們的交付和運營，37%的受訪開發(fā)者表示正在通過AI加快編碼速度，36%的開發(fā)者用其生成藝術(shù)作品和游戲關(guān)卡。在國內(nèi)，伽馬數(shù)據(jù)發(fā)布的《中國游戲產(chǎn)業(yè)新質(zhì)生產(chǎn)力發(fā)展報告》顯示，現(xiàn)階段中國游戲營收TOP50企業(yè)中，在人工智能、數(shù)字孿生、引擎開發(fā)、云技術(shù)和XR等新質(zhì)生產(chǎn)力關(guān)聯(lián)領(lǐng)域有所布局的企業(yè)占近八成。在調(diào)研的游戲從業(yè)者中，超97%游戲從業(yè)者表示企業(yè)技術(shù)研究投入有所增加，其中技術(shù)投入顯著提升（中、大幅）的占比達到七成。當前，AI技術(shù)在輔助游戲研發(fā)方面扮演著關(guān)鍵角色，它通過生成圖像、音樂、配音及劇情和代碼，顯著降低了開發(fā)成本并提高了創(chuàng)意效率。游戲研發(fā)團隊的策劃、美術(shù)和程序等職能領(lǐng)域都在通過AI技術(shù)實現(xiàn)自動化和優(yōu)化，從而減輕工作量并提升產(chǎn)品質(zhì)量。此外AI在用戶設(shè)備上運行的能力，為開發(fā)人員和創(chuàng)意工作者提供了強大的工具和平臺。在玩家體驗方面，交互型多模態(tài)大模型驅(qū)動的AINPC或?qū)⒊蔀橛螒蛐袠I(yè)一次重大革新。玩家和NPC之間的互動是游戲體驗的一個關(guān)鍵方面。傳統(tǒng)的交互范式基本都是一維的，NPC以預(yù)設(shè)的方式對玩家的輸入做出反應(yīng)。這種限制讓更有機、更豐富的互動的潛力沒有得到釋放。在目前的游戲系統(tǒng)中，非玩家角色（NPC）的行為主要由開發(fā)人員編寫的預(yù)定義腳本決定。這些腳本包含基于游戲環(huán)境中各種觸發(fā)器或玩家動作的一系列反應(yīng)和交互。然而，這種腳本化的性質(zhì)通常會導(dǎo)致可預(yù)測或重復(fù)的NPC行為，這些行為無法響應(yīng)玩家的實時行為或游戲的動態(tài)環(huán)境，很多時候會阻礙用戶的沉而大模型有望改變這一范式，AI可以讓NPC學(xué)習(xí)玩家行為，適應(yīng)更多元的策略，具有自主性和適應(yīng)性。AINPC將變得更加“類人”，更了解玩家，從而輸出更符合情境的內(nèi)容，讓玩家與NPC的交互更為自然。不僅可以降低用戶生成內(nèi)容(UGC)的成本，還激發(fā)了創(chuàng)新，避免了內(nèi)容同質(zhì)化，尤其在依賴自然語言對話的游戲中，AI驅(qū)動的玩法具有獨特的吸引力。資料來源：《AGENTAI:SURVEYINGTHEHORIZONSOFMULTIMODALINTERACTION》、西部證券研發(fā)中心2024年，InworldAI進行了一項名為《AINPC在未來游戲開發(fā)中的角色》的調(diào)查，共有來自美國、英國、日本、韓國、香港和新加坡的游戲工作室的524位專業(yè)人士參與。報告顯示，56%的受訪者認為AINPC將帶來超過40%的投資回報率，近3/4的游戲開發(fā)者對AINPC充滿熱情。InworldAI與微軟合作，通過結(jié)合GPT和其他大模型、音頻模型及30多個機器學(xué)習(xí)模型，開發(fā)了多模態(tài)的“角色引擎”。這個引擎旨在模擬人腦，打造復(fù)雜的AI角色。InworldStudio作為一個AI虛擬角色生成平臺，允許用戶和開發(fā)者通過自然語言輸入，無需編寫代碼，即可迅速構(gòu)建并部署NPC到游戲或應(yīng)用中。國內(nèi)游戲大廠也在AI領(lǐng)域積極布局。騰訊自2016年起便成立了AILab工作室，開發(fā)了決策智能AI“絕悟”和棋牌類AI“絕藝”，并在多類型游戲中取得了領(lǐng)先研究成果。網(wǎng)易在2017年成立了伏羲工作室與AILab，其《逆水寒手游》中應(yīng)用了AINPC、AI捏臉等自研技術(shù)，展示了AI技術(shù)在游戲開發(fā)中的多樣化應(yīng)用。表2：部分游戲公司的AI布局動作有伏羲、網(wǎng)易互娛兩大游戲AI實驗室，自研數(shù)十個超大規(guī)模預(yù)訓(xùn)練模型。眼下伏羲已被應(yīng)用到隨著AI技術(shù)的發(fā)展，情感陪伴產(chǎn)品應(yīng)運而生，它們通過個性化虛擬人物，滿足用戶的社交聊天需求，豐富了用戶的情感體驗。這些產(chǎn)品不僅拓寬了智能助手的應(yīng)用范圍，也為人們提供了一種新的社交和情感交流方式。GPT-4o以其先進的情感交互和場景理解能力，在發(fā)布會上展示了其多樣化的智能應(yīng)用。OpenAI研究主管BarretZoph展示了如何在語音模式下實時讓GPT-4o判斷自己的心情；同時，GPT-4o還能在用戶分享寵物時表現(xiàn)出親切的贊賞，以及通過手機攝像頭識別出慶祝生日的場景，并在確認后提供情感豐富的反應(yīng)和唱出生日快樂歌。GPT-4o甚至能在用戶需要時唱搖籃曲，幫助安撫情緒。在國內(nèi)市場，字節(jié)跳動通過話爐平臺加強了情感陪伴產(chǎn)品的內(nèi)容和娛樂性。與此同時，感陪伴產(chǎn)品，各展所長，進一步拓展市場。這些產(chǎn)品不僅豐富了用戶的情感生活，也體人形機器人，作為AI技術(shù)與高端制造業(yè)的結(jié)合體基礎(chǔ)設(shè)施，還因其性價比和廣泛應(yīng)用前景而備受矚目。大模型等技術(shù)進步正推動人形機器人的泛化能力和自然語言交互能力快速發(fā)展。據(jù)高工產(chǎn)業(yè)研究院（GGII）預(yù)測，2026年全球人形機器人在服務(wù)機器人中的滲透率有望達到3.5%，市場規(guī)2月底獲得包括亞馬遜創(chuàng)始人貝索斯、英偉達、Open構(gòu)建AI基礎(chǔ)設(shè)施和數(shù)據(jù)存儲。緊接著，在3月13日，F(xiàn)igure與OpenAI共同推出了集成先進視覺和語言理解技術(shù)的Figure01機器人，它能夠自主完成遞送和清理等任務(wù)，標志著人形機器人技術(shù)的新里程碑。人工智能技術(shù)在機器人領(lǐng)域的快速發(fā)展。如下圖所示，F(xiàn)igureAI用機器人攝像頭采集的視頻信息，并結(jié)合麥克風捕獲的語音轉(zhuǎn)錄文本，輸入到OpenAI提供的多模態(tài)大模型中，實現(xiàn)對圖像和文本的深入理解，進一步豐富了人形機器人的應(yīng)用場景和功能。交互型多模態(tài)大模型有望給人形機器人帶來交互效率和情感智能方面的重大飛躍。憑借端到端原生多模態(tài)模型以及更強的交互能力，人形機器人可以同時處理語音、面部表情、手勢等多種輸入信號，迅速識別和理解用戶的意圖，減少等待時間，提高響應(yīng)速度，展現(xiàn)出接近人類反應(yīng)速度的敏捷性，同時，它們的情感識別能力將得到顯著提升，能夠細致區(qū)分和響應(yīng)不同對話者的情緒狀態(tài)，提供更加精準和貼心的語智能座艙集成了傳感器、控制器、顯示和通訊終端，以及云服務(wù)和網(wǎng)絡(luò)技術(shù)，實現(xiàn)人車智能交互。它們不僅提供信息娛樂和安全提醒，還通過萬物互聯(lián)技術(shù)，為駕乘者打造個性化和舒適的體驗。隨著技術(shù)的進步，智能座艙的交互方式正從傳統(tǒng)物理操作演變?yōu)檎Z時代。這一時代的座艙特點包括基于先進大模型的智能語音助手、結(jié)合語音和視覺的多模態(tài)交互方式，以及多屏聯(lián)動和設(shè)備間的互聯(lián)互通。李娟預(yù)測，AI智能座艙的未來趨勢將是硬件發(fā)展從同質(zhì)化走向標準化，用戶界面(UI)設(shè)計將從預(yù)定義轉(zhuǎn)變?yōu)樯墒?，更靈活和個性化，同時AI技術(shù)將從通用模型發(fā)展為更貼合用隨著大模型在多種場景中的適用性日益增強，市場對統(tǒng)一管理座艙功能的智能體需求日益增長。2024年，蔚來、理想、合眾汽車等主機廠相繼推出了Agent框架，以語音助手為切入點，實現(xiàn)座艙內(nèi)功能應(yīng)用的統(tǒng)一管理。Agent服務(wù)框架的推出，不僅統(tǒng)一了座艙功能，還根據(jù)客戶需求和喜好提供了豐富的場景模式，尤其是支持用戶定制化場景，加表3：智能座艙Agent場景通過多模態(tài)技術(shù)提供導(dǎo)航指引、播放音樂、調(diào)節(jié)車內(nèi)溫度等功能，使駕駛體AlAgent可以作為智能助手，幫助駕駛員和乘客處理工作任務(wù)，如日程安排教育場景提供24小時在線教育資源，幫助駕駛員和乘客在旅提供適合兒童的教育內(nèi)容和娛樂活動，如講故事、播放兒歌等，部分座艙支持聲紋復(fù)刻觀影場景提供個性化的電影推薦，并通過識別語音指令控制調(diào)節(jié)車內(nèi)氛圍燈和提供個性化的音樂推薦，并根據(jù)歌詞內(nèi)容提供實時壁紙生成，還可根據(jù)音樂進行續(xù)寫，在2024WAIC上，商湯絕影在行業(yè)率40Tokens/秒，并且能夠覆蓋主流算力平臺。同時，商湯絕影推出的“隨心界面”模型解析用戶需求的基礎(chǔ)上，結(jié)合設(shè)計系統(tǒng)的框架和范式，實現(xiàn)高度動態(tài)和個性化的界面生成。在WAIC2024演示現(xiàn)場，演示者通過語音指令要求創(chuàng)建一幅以歐洲杯為主題的壁紙，F(xiàn)lexInterface成功地執(zhí)行了這一任務(wù)。此外，如果需要對壁紙進行修改，F(xiàn)lexInterface也能夠生成一個更新的版本。此外，交互型多模態(tài)大模型可以直接將視覺感知結(jié)果輸入神經(jīng)網(wǎng)絡(luò)，提供更豐富的信息細節(jié)，從而實現(xiàn)對車輛環(huán)境的精準分層和分類。這使自動駕駛系統(tǒng)在處理駕駛動作時進行更好的任務(wù)優(yōu)先級排序，保持最優(yōu)駕駛決策邏輯，更符合人類駕駛思維。此外，這種模型可能通過推理加速和降低時延，幫助實時感知道路環(huán)境，及時分析周圍障礙物信息和交通參與者意圖，進而可能提高低速自動駕駛的安全性。戶體驗將迎來顛覆性的變化。這種高級別的智能化體驗，預(yù)計將成為未來智能家居產(chǎn)品智能家居市場的增長速度在整個行業(yè)中是少數(shù)保持高增速的領(lǐng)域之一。根據(jù)Statista的數(shù)據(jù)，預(yù)計到2028年，國內(nèi)智能家居市場規(guī)模將達到5交互型多模態(tài)大模型的嵌入將使智能家電具備更高級的語音交互能力。這能夠更準確地識別消費者需求，控制智能家居設(shè)備，甚至提供情感陪護和輔導(dǎo)孩子作業(yè)的功能。盡管存在方言和口語識別等技術(shù)挑戰(zhàn)，但GPT-4o等新模型的出現(xiàn)預(yù)示著技術(shù)的進步全模態(tài)AI將通過語音、手勢和面部表情的自然交互，控制家奧克斯則將智能語音大模型技術(shù)應(yīng)用于其空調(diào)產(chǎn)品，提升了用戶體驗。此外，華為在HDC開發(fā)者大會上展示了與盤古大模型合作的成果——添

人人文庫> 全部分類> 應(yīng)用文書 > 研究報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2024交互型多模態(tài)大模型研究進展、應(yīng)用前景以及商業(yè)模式分析報告

文檔簡介

溫馨提示

最新文檔

評論

2024交互型多模態(tài)大模型研究進展、應(yīng)用前景以及商業(yè)模式分析報告

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

2024交互型多模態(tài)大模型研究進展、應(yīng)用前景以及商業(yè)模式分析報告