華為預(yù)訓(xùn)練大模型白皮書_第1頁
華為預(yù)訓(xùn)練大模型白皮書_第2頁
華為預(yù)訓(xùn)練大模型白皮書_第3頁
華為預(yù)訓(xùn)練大模型白皮書_第4頁
華為預(yù)訓(xùn)練大模型白皮書_第5頁
已閱讀5頁,還剩105頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

預(yù)訓(xùn)練大模型PREFACEPREFACE中國工程院院士鵬城實驗室主任北京大學(xué)博雅講席教授自1956年人工智能在達特茅斯會議上被提出,人工智能領(lǐng)域的學(xué)者一直致力于提都只能用于少數(shù)限定場景,無法拓展到以計算機視覺、自然語言處理為代表的復(fù)雜系統(tǒng)中去。21世紀初,隨著硬件性能的演進和大數(shù)據(jù)的興起,情況發(fā)生了根本性的變化。2010年開始,深度學(xué)習(xí)以席卷之勢,占領(lǐng)了人工智能的大部分領(lǐng)域,在許多公測數(shù)據(jù)上取得了前所未有的精確度。深度學(xué)習(xí)的本質(zhì)是統(tǒng)計學(xué)習(xí),即通過在大量數(shù)據(jù)的任務(wù),而這件事在20年前是幾乎無法想象的。強烈依賴、對參數(shù)調(diào)節(jié)的敏感性,都在無形之中抬高了人工智能算法的使用門檻。如此,這個預(yù)訓(xùn)練大模型就具有了很強的泛化能力,并且可以通過簡單的微調(diào)操作,將其能力應(yīng)用到下游任務(wù)中去。在過去五年間,預(yù)訓(xùn)練大模型在自然語言處理、計算機視覺等領(lǐng)域取得了長足的發(fā)展,模型規(guī)模屢創(chuàng)新高,模型泛化性也不斷提升。而我也欣喜地看到,預(yù)訓(xùn)練大模型已經(jīng)在華為取得商業(yè)應(yīng)用,成功落地在工業(yè)質(zhì)檢、智慧交通、時尚設(shè)計等多個產(chǎn)業(yè)中。人工智能的前路依然漫長。預(yù)訓(xùn)練大模型正在逼近統(tǒng)計學(xué)習(xí)方法的極限,但是它也有無法解決的課題,包括模型的可解釋性和安全性等難題。同時,大模型的功耗遠遠超過人類大腦,也意味著這種方式也許不是最優(yōu)的解決方案??偟膩碚f,當(dāng)前的人工智能正處在歷史的十字路口,業(yè)界需要在預(yù)訓(xùn)練大模型的基礎(chǔ)上做出抉擇,走出未來的發(fā)展道路來。在上述背景下,華為公司發(fā)布《預(yù)訓(xùn)練大模型白皮書》,具有重要的意義。我相信,華為在大模型的研發(fā)和落地上的投入,最終會給學(xué)術(shù)界和產(chǎn)業(yè)界帶來啟發(fā),成為擴展人工智能能力邊界和推動人工智能產(chǎn)業(yè)升級的強大力量。PREFACEPREFACE張平安華為高級副總裁當(dāng)今世界正面臨百年未有之大變局。以人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)、云計算和5G2021年,習(xí)總書記在主持中央政治局第三十四次集體學(xué)習(xí)時強調(diào),支持人工智能于加快場景創(chuàng)新以人工智能高水平應(yīng)用促進經(jīng)濟高質(zhì)量發(fā)展的指導(dǎo)意見》,系統(tǒng)指導(dǎo)各地方和各主體加快人工智能場景應(yīng)用,推動經(jīng)濟高質(zhì)量發(fā)展。發(fā)展人工智能已經(jīng)是世界高科技的方向標(biāo)之一,也成為了全球各個強國推進前沿研發(fā)的綱領(lǐng)性原則和激烈競爭場。作為當(dāng)前人工智能領(lǐng)域最前沿的課題和最有力的武器,預(yù)訓(xùn)練大模型無疑是這場競爭中的焦點之一。以自然語言處理領(lǐng)域為例,預(yù)訓(xùn)練大模型的參數(shù)規(guī)模已經(jīng)從2018年的億級來到了2022年萬億級,幾乎每年都能看到數(shù)量級上的提升。預(yù)訓(xùn)練大模型是一項龐大的系統(tǒng)性工程,不僅涉及到先進算法的研發(fā),還需要硬件、框架、開發(fā)工具的支持。華為公司構(gòu)建了從昇騰+鯤鵬芯片到AI開發(fā)框架MindSpore和AI開發(fā)平臺ModelArts的全棧式開發(fā)能力,并基于這些能力提出了《盤古預(yù)訓(xùn)練大模型》。一年多以來,盤古大模型持續(xù)演進,在計算機視覺、自然語言處理、科學(xué)計算等領(lǐng)域為業(yè)界貢獻了先進的算法和解決方案。截至2022年,盤古大模型已經(jīng)被應(yīng)用于十余個行業(yè)的百余個場景,為研發(fā)人員提供了新的開發(fā)方案,也取得了可觀的商業(yè)價值。實踐表明,盤古預(yù)訓(xùn)練大模型能有效減少專家的干預(yù)和人為調(diào)優(yōu)的消耗,降低人工智能開發(fā)的門檻和成本,這對踐行普惠AI,實現(xiàn)人工智能的泛化和規(guī)模復(fù)制,具有非常巨大在整合大模型研發(fā)和落地經(jīng)驗后,華為團隊撰寫了《預(yù)訓(xùn)練大模型白皮書》,旨在將自身對大模型的洞察毫無保留地分享給業(yè)界,以期推進以大模型為核心的人工智能產(chǎn)業(yè)的健康發(fā)展。前路是艱辛的,前途也是光明的。人工智能經(jīng)歷六十余年的沉浮,始終沒有放棄“減少重復(fù)勞動”和“擴展人類知識邊界”這兩大根本目標(biāo)。只要不忘初心、牢記使命,技術(shù)研究和行業(yè)落地就能更緊密地結(jié)合起來,在發(fā)展技術(shù)的同時,為人類社會創(chuàng)造更多的福祉。FOREWORDFOREWORD高新波高新波國家杰出青年科學(xué)基金獲得者教育部長江學(xué)者特聘教授古有盤古開天地,今有華為大模型。為解決人工智能算法落地的碎片化困境,預(yù)訓(xùn)練大模型應(yīng)運而生。自華為云團隊發(fā)布盤古預(yù)訓(xùn)練大模型以來,形成了全棧式AI解決方案,在很多領(lǐng)域獲得了成功的應(yīng)用。相信《預(yù)訓(xùn)練大模型白皮書》將會引領(lǐng)大模型健康發(fā)展,為通用人工智能探索一條可能的新路徑。莊越挺浙江大學(xué)計算機學(xué)院教授國家杰出青年基金獲得者教育部長江學(xué)者特聘教授教育部人工智能協(xié)同創(chuàng)新中心主任預(yù)訓(xùn)練大模型是當(dāng)前新一代人工智能領(lǐng)域最前沿的研究方向,正成為世界各科技強國競爭的焦點。預(yù)訓(xùn)練大模型率先在自然語言處理領(lǐng)域取得突破性的進展,并迅速拓展到涉及圖像、視展現(xiàn)了巨大的發(fā)展?jié)摿ΑHA為云發(fā)布《預(yù)訓(xùn)練大模型白皮書》,正逢其時,必定對AI行業(yè)產(chǎn)生有價值的指導(dǎo)作用,也體現(xiàn)了作為一個科技大公司的擔(dān)當(dāng)精神。我相信,預(yù)訓(xùn)練大模型可望成為跨媒體智能的重要技術(shù)手段。教授哈爾濱工業(yè)大學(xué)(深圳)特聘校長助理計算與智能研究院院長國家杰出青年基金獲得者教授哈爾濱工業(yè)大學(xué)(深圳)特聘校長助理計算與智能研究院院長國家杰出青年基金獲得者預(yù)訓(xùn)練大模型被稱為人工智能應(yīng)用的基礎(chǔ)設(shè)施,它具有強大的知識建模、知識獲取和應(yīng)用泛化能力。華為云《預(yù)訓(xùn)練大模型白皮書》以華為云盤古大模型家族為代表,全面介紹了華為在科學(xué)計算、圖網(wǎng)絡(luò)大模型,以及產(chǎn)業(yè)落地經(jīng)驗和對未來發(fā)展的展望。這本白皮書會給學(xué)術(shù)界和產(chǎn)業(yè)界提供重要的啟發(fā)和借鑒。李厚強教授中國科學(xué)技術(shù)大學(xué)信息學(xué)院副院長IEEEFe李厚強國家杰出青年科學(xué)基金獲得者教育部長江學(xué)者特聘教授預(yù)訓(xùn)練大模型是人工智能領(lǐng)域的研究熱點和前沿技術(shù),近年來在自然語言處理、計算機視覺等方向取得了巨大成功。華為云團隊撰寫的《預(yù)訓(xùn)練大模型白皮書》,將其在大模型研發(fā)和落地中的經(jīng)驗總結(jié)出來,分享給學(xué)術(shù)界和工業(yè)界,對推動預(yù)訓(xùn)練大模型理論、方法、技術(shù)、應(yīng)用的發(fā)展具有重要意義。熊紅凱上海交通大學(xué)特聘教授國家杰出青年基金獲得者教育部長江學(xué)者特聘教授大數(shù)據(jù)和人工智能在21世紀,為我們開啟了一個理解人類自身認知的帷幕,逐步融入了我們的日常生活;也正是在這樣一種時代背景下,旨在建立一種通用智能的“大模型”實現(xiàn)人類社會的福祉。華為公司的《預(yù)訓(xùn)練大模型白皮書》,我相信,能為我們建立普遍理性和平等的社會,提供強大的力量。姜育剛姜育剛教育部長江學(xué)者特聘教授復(fù)旦大學(xué)人事處處長近年來,以GPT-3、CLIP為代表的超大規(guī)模預(yù)訓(xùn)練模型被陸續(xù)提出,通過在海量數(shù)據(jù)上進行自監(jiān)督學(xué)習(xí),有效提升了自然語言處理與計算機視覺領(lǐng)域多個下游任務(wù)的性能。華為云在預(yù)訓(xùn)練大模型領(lǐng)域有著深厚的技術(shù)積累,于2021年發(fā)布了“盤古”系列超大規(guī)模預(yù)訓(xùn)練模型,受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。華為云《預(yù)訓(xùn)練大模型白皮書》總結(jié)了大模型的發(fā)展趨勢及其帶來的機遇,為未來研究提供了重要借鑒。&&&&讓預(yù)訓(xùn)練大模型成為AI的操作系統(tǒng)3行業(yè)普通AI模型攻擊、隱私、安全擔(dān)憂&如果人們對電磁的理解停留在法拉第的電磁感應(yīng)層次近年來,國內(nèi)的云計算市場增速明顯,企業(yè)上云明顯提速??蛻舻男枨笾鸩綇摹百Y源型需求”轉(zhuǎn)向“智能型需求”及“業(yè)務(wù)型需求”,意味著PaaS、SaaS等各行業(yè)各場景的云解決方案將受到更多關(guān)注。盡管該市場呈現(xiàn)出了廣闊的前景,業(yè)務(wù)的龐大數(shù)量和場景種類夸張的多樣性也意味著巨大的難度。隨著市場的“一招鮮吃遍天”的套路相對于針對用戶需求定制化的解決方案已不具優(yōu)勢,意味著在細分領(lǐng)域深耕的中小型友商也具有瓜分市場的競爭力。因此,如何在保證市場占有率并支撐如此大量的業(yè)務(wù)的情況下,控制資源和成本、保證交付效率和保證產(chǎn)品質(zhì)量是云廠商要解決的核心難題。另一方面,隨著工業(yè)生產(chǎn)越來越強調(diào)智能化,大量傳統(tǒng)行業(yè)開始積累領(lǐng)域數(shù)據(jù),并尋求人工智能算法以解決生產(chǎn)和研發(fā)過程中遇到的重復(fù)而冗雜的問題。這就意味著,人工智能算法在落地的過程中,將會面對大量不同場景、不同需求的用戶。這對算法的通用性提出了很高的要求。然而我們注意到,當(dāng)前業(yè)界大部分人工智模型迭代等一系列開發(fā)環(huán)節(jié)。由于無法積累通用知識,同時不同領(lǐng)域的調(diào)試方法有所不同,這樣的開發(fā)模式往往比較低效。特別地,當(dāng)前人工智能領(lǐng)域存在大量專業(yè)水平不高的開發(fā)者,他們往往不能掌握規(guī)范的開發(fā)模式和高效的調(diào)優(yōu)技巧,從而使得模型的精度、性能、可擴展性等指標(biāo)都不能達到令人滿意的水平。我們將上述問題,稱為人工智能算法落地的碎片化困境。(千億參數(shù))模型泛化極大節(jié)省訓(xùn)練投入為了解決這個困境,預(yù)訓(xùn)練大模型應(yīng)運而生。它收集大量圖像、文本等數(shù)據(jù),利用無監(jiān)督或者自監(jiān)督學(xué)習(xí)方法將數(shù)據(jù)中蘊含的知識提取出來,存儲在具有大量參數(shù)的神經(jīng)網(wǎng)絡(luò)模型中。遇到特定任務(wù)時,只要調(diào)用一個通用的流程,就能夠?qū)⑦@些知識釋放出來,并且與行業(yè)經(jīng)驗結(jié)合,解決實際問題。近年來,預(yù)訓(xùn)練大模型相關(guān)研究和應(yīng)用呈井噴態(tài)勢,大有一統(tǒng)人工智能領(lǐng)域的趨勢。不過我們也應(yīng)該看到,預(yù)訓(xùn)練大模型距離規(guī)?;纳虡I(yè)應(yīng)用,還有很長的路要走,這里不僅包含技術(shù)的演進,也包含商業(yè)模式的進化。按照我們的設(shè)想,大我們希望通過編寫《預(yù)訓(xùn)練大模型白皮書》,將我們團隊在研究和落地中獲得的經(jīng)驗總結(jié)下來,更好地促進行業(yè)的進步。大模型是AI發(fā)展的必然趨勢1.1人工智能發(fā)展史簡介1.2人工智能發(fā)展趨勢的總體研判02/19盤古大模型家族介紹2.1視覺大模型2.2語音語義大模型2.3多模態(tài)大模型2.4科學(xué)計算大模型03/43盤古大模型應(yīng)用案例3.2語音語義大模型:賦能智慧銷售3.4圖網(wǎng)絡(luò)大模型:水泥生產(chǎn)系統(tǒng)的自動控制3.5圖網(wǎng)絡(luò)大模型:煉焦系統(tǒng)的自動控制04/55展望未來,大模型的機遇與挑戰(zhàn)并存大模型是AI發(fā)展的必然趨勢1.1人工智能發(fā)展史簡介人工智能從1956年被正式提出以來,經(jīng)歷了數(shù)十年的發(fā)展歷程。人工智能誕生初期,其研究主要分為三個流派,即邏輯演繹、歸納統(tǒng)計和類腦計算。其中,邏輯演繹方法局限性較強,難以對建模復(fù)雜的實際問題進行建模;而類腦計算方法過多地依賴于生命科學(xué),特別是腦科學(xué)的研究,而后者的進展難以滿足人工智能的一般要求。在進入21世紀依賴,在大數(shù)據(jù)和大算力的支持下,歸納統(tǒng)計方法逐漸占據(jù)了人工智能領(lǐng)域的主導(dǎo)地位,并且催生出一系列方法論和應(yīng)用,深刻地影響和改變了人類社會。反向傳播算法的提出人工智能的樂觀思潮感知器算法和硬件化專家系統(tǒng)出現(xiàn)達特矛斯會議的召開對盲目樂觀的反思大規(guī)模預(yù)訓(xùn)練模型專家系統(tǒng)的局限性統(tǒng)計學(xué)習(xí)受到重視通用計算機出現(xiàn)再次獲得資金支持神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型反向傳播算法的提出人工智能的樂觀思潮感知器算法和硬件化專家系統(tǒng)出現(xiàn)達特矛斯會議的召開對盲目樂觀的反思大規(guī)模預(yù)訓(xùn)練模型專家系統(tǒng)的局限性統(tǒng)計學(xué)習(xí)受到重視通用計算機出現(xiàn)再次獲得資金支持神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型深藍戰(zhàn)勝世界冠軍深藍戰(zhàn)勝世界冠軍資金支持再次減少資金支持再次減少硬件需求大幅下降硬件需求大幅下降深度學(xué)習(xí)開始統(tǒng)治深度學(xué)習(xí)開始統(tǒng)治統(tǒng)計學(xué)習(xí)方法的應(yīng)用統(tǒng)計學(xué)習(xí)方法的應(yīng)用孕育期繁榮期Ⅰ低谷期Ⅰ繁榮期Ⅱ低谷期Ⅱ繁榮期Ⅲ1943–1956年1956–1974年1974–1980年1943–1956年1956–1974年1974–1980年如上圖所示,人工智能的主要發(fā)展階段如下:第一次繁榮期第一次低谷期研究者們很快意識到了第一代人工智能算法的極限。第一次低谷期研究者們很快意識到了第一代人工智能算法的極限。人工神經(jīng)網(wǎng)絡(luò))方面的研究;同時,基于邏輯演繹的算法也被證明需要指數(shù)級時間以解決大部分問題。隨著DARPA等機構(gòu)撤出大部分投資,人工智能領(lǐng)域也開啟一波反思浪潮,其中有代表性年發(fā)表的人工智能綜述報告提出的中文房間問題。孕育期這一時期的代表性成果,主和WalterPitts提出的人工神經(jīng)網(wǎng)絡(luò)的視覺模型,以及人工智能的思想實驗(即圖現(xiàn)的通用計算機ENIAC,也為人工智能的復(fù)雜演算提供了硬件支撐。標(biāo)志,人工智能被正式提出并且進入第一次繁榮期?;谶壿嬔堇[的人工智能算法解決了某些特定領(lǐng)域的問題(如證明數(shù)學(xué)定理),而基于亞符號系統(tǒng)的感知器算法年出現(xiàn)了專門用于模擬感時的學(xué)者對于人工智能抱有不切實際的樂觀幻想,包括圖靈獎得主)和HerbertA.在內(nèi)的多名學(xué)者,均預(yù)測人工智能將在20年內(nèi)獲得徹底解決。而以DARPA為代表的政府機構(gòu)和大型企業(yè),也為人工智能的研究注入了大量資金。1980–1987年1987–1993年1993年至今1980–1987年1987–1993年1993年至今第三次繁榮期隨著現(xiàn)代計算機的存儲能力第三次繁榮期隨著現(xiàn)代計算機的存儲能力和算力不斷增強,統(tǒng)計學(xué)習(xí)方法逐漸成為人工智能領(lǐng)域的絕對主流。在人工智能的各個領(lǐng)域,如計算機視覺、手工設(shè)計的模型都逐漸被統(tǒng)計學(xué)習(xí)模型所取代。從2011年開始,深度學(xué)習(xí)浪潮席卷人工智能領(lǐng)域,終于在多個領(lǐng)域達到或者超越了人類水平。人工智能的第三次繁榮至今仍未有結(jié)束的趨勢。雖然許多本質(zhì)問題尚未得到解決,但人工智能的諸多應(yīng)用已經(jīng)深刻地改變了人類社會。第二次低谷期然而,專家系統(tǒng)很快遇到了第二次低谷期然而,專家系統(tǒng)很快遇到了新的困境。研究者們發(fā)現(xiàn),即使在限定領(lǐng)域中,面對未知或者未定義的問題時,即使問題十分簡單,專家系統(tǒng)的表現(xiàn)也無法預(yù)測甚至控制。隨著支持人工智能研究資金的再度銳減,研究者們再次開始反思,并且將思路逐漸從符號系統(tǒng)(如歸納演研究者們開始認識到感知和交互的重要性,其中影響較大的觀點包括DavidMarr在其著作《Vision》中提出的視覺理解模型和RodneyA.Brooks提出的“模型可有可無,世界即是描述自身最好的模型”等。行,人工智能算法開始在限定領(lǐng)域內(nèi)解決實際問題。法,能夠在醫(yī)學(xué)領(lǐng)域完成血液傳染病的診斷工作。同的新型神經(jīng)網(wǎng)絡(luò)和DavidE.Rumelhart發(fā)明的反向傳播算法,極大地增強了人工神獎得主)使用五層神經(jīng)網(wǎng)絡(luò)識別手寫數(shù)字,該方法取得巨大成功并在20世紀90年代識別了美國超過10%的手寫支票。以DARPA為代表的機構(gòu)再次行動起來,使得20世紀80年代后半段在人工智能領(lǐng)域的投入資金比起前半段增長了數(shù)倍。值得一提的是,深度學(xué)習(xí)并未解決人工智能的本質(zhì)問題。未來,業(yè)界很可能還要經(jīng)歷數(shù)次低潮與革新,方能達成真正的通用人工智能。在此之前,雖然存在著關(guān)于強/弱人工智能的討論和對科技奇異點的擔(dān)憂,但業(yè)界的重心依然是人工智能算法的研發(fā)。1.2人工智能發(fā)展趨勢的總體研判有趣的是,有影響力的三大流派(邏輯演繹流派、歸納統(tǒng)計流派、類腦計算流派)從人工智能創(chuàng)立之初便存在,時至今日也未由其中一派徹底統(tǒng)一。三大流派各有優(yōu)劣勢。類腦計算流派的目標(biāo)最為宏遠,但在未得到生命科學(xué)的支撐之前,難以取得實際應(yīng)用。歸納演繹流派的思考方式與人類相似,具有較強的可解釋性。由于對數(shù)據(jù)和算力的依賴較少,歸納演繹流派成為人工智能前兩次繁榮的主角。隨著學(xué)界對人工智能困難程度力美學(xué)”。這種“拋棄人類先驗,擁抱數(shù)據(jù)統(tǒng)計”的思想,在深度學(xué)習(xí)出現(xiàn)后被推向高峰。AIAI值得強調(diào)的是,深度學(xué)習(xí)是時代的產(chǎn)物。如果沒有與大數(shù)據(jù)(存儲設(shè)備和移動互聯(lián)網(wǎng)的發(fā)展)和大算力(尤以GPU的飛速演進為代表)的支持,深度學(xué)習(xí)就不可能在短短的3--5年間占領(lǐng)人工智能的大部分領(lǐng)域。而隨著人工智能模型的參數(shù)越來越多,訓(xùn)練所需的數(shù)據(jù)集規(guī)模也越來越大。為了適應(yīng)巨大的參數(shù)空間和數(shù)研究者們提出了層次化建模和分散表示的思想,使得復(fù)雜數(shù)據(jù)匹配的效率和精度獲得提升,從而大大促進了特征學(xué)習(xí)。從技術(shù)的角度看,深度學(xué)習(xí)的核心是深度神經(jīng)網(wǎng)絡(luò):通用的骨干網(wǎng)絡(luò)配合特定目的的頭部網(wǎng)絡(luò),使得深度學(xué)習(xí)統(tǒng)一了各個子領(lǐng)域內(nèi)的不同問題。例如,在計算機視覺領(lǐng)域,彼此十分相似的深度神經(jīng)網(wǎng)絡(luò)已經(jīng)成為圖像分類、物體檢測、實例分割、姿態(tài)估計等具體問題的通用框架;而在自然語言處理領(lǐng)域,一種被稱為Transformer的模塊也被大量使用,研究者們得以建立起通用的語言模型。然而,從本質(zhì)上看,深度學(xué)習(xí)依然沒有跳出統(tǒng)計學(xué)習(xí)的基本框架:特征抽取和模板匹配。相比于人類基于知識的推斷,這種方式無疑是低效的。在人工智能進入千行百業(yè)的大背景下,這種設(shè)計理念必將導(dǎo)致人工智能算法的通用性受限,因為對于任何新的概念乃至新的實體,算法都需要專門的訓(xùn)練數(shù)據(jù)來提供相關(guān)的信息,而在沒有基礎(chǔ)模型支撐的情況下,開發(fā)者們必須從頭開始完成收集數(shù)據(jù)、訓(xùn)練模型、調(diào)試模型、優(yōu)化部署等一系列操作。對于大部分人工智能開發(fā)者而言,這無疑是重大的挑戰(zhàn);同時,這也使得人工智能算法的開發(fā)成本居高不下,難以真正惠及細分行業(yè),尤其是中小型企業(yè)。在下一個劃時代的計算模型在下一個劃時代的計算模型預(yù)訓(xùn)練大模型是解決上述問題的有效手段。預(yù)訓(xùn)練大模型是深度學(xué)習(xí)時代的集大成者,分為上游(模型預(yù)訓(xùn)練)和下游(模型微調(diào))兩個階段。上游階段主要是收集大量數(shù)據(jù),并且訓(xùn)練超大規(guī)模的神經(jīng)網(wǎng)絡(luò),以高效以達成特定的目的。我們將在第2章更詳細地介紹預(yù)訓(xùn)練大模型的方法論。雖然預(yù)訓(xùn)練大模型看起來很難導(dǎo)向真正的人工智能,但我們做出兩個重要的判斷:根據(jù)實踐經(jīng)驗,預(yù)訓(xùn)練大模型加持下的人工根據(jù)實踐經(jīng)驗,預(yù)訓(xùn)練大模型加持下的人工智能算法(包括計算機視覺、自然語言處理等),相比于普通開發(fā)者從頭搭建的算法,精度明顯上升、數(shù)據(jù)和計算成本明顯下降,且開發(fā)難度大大降低。以計算機視覺為例:在100張圖像上訓(xùn)練基礎(chǔ)物體檢測算法,原本需要8塊GPU運行5個小時、1名開發(fā)者工作1個星期才能完成,而在預(yù)訓(xùn)練模型的支持下,只需1塊GPU運行2個小時,而幾乎不需要人力干預(yù)。綜合人力、算力開銷研判,上述案例的開發(fā)成本節(jié)約至原先的對大模型的研究,將有可能對大模型的研究,將有可能啟發(fā)下一個通用計算模型回顧歷史,2011年前后,正是傳統(tǒng)統(tǒng)計學(xué)習(xí)方法的鼎盛時期,在計算機視覺領(lǐng)域甚至深度神經(jīng)網(wǎng)絡(luò)僅用6000萬參數(shù),即徹底擊深度神經(jīng)網(wǎng)絡(luò)之于詞袋分類模型,本質(zhì)上是在特征匹配效率上產(chǎn)生了突破;我們猜測,在大模型發(fā)展到一定程度時,會產(chǎn)生另一個維度的突破,從而使得統(tǒng)計學(xué)習(xí)方法“進化”至下一階段。目前看來,這個突破有可能產(chǎn)生于大模型與知識的結(jié)合。綜上所述,預(yù)訓(xùn)練大模型是現(xiàn)階段人工智能的集大成者,代表了統(tǒng)計學(xué)習(xí)流派的最高成就。在新一代技術(shù)未出現(xiàn)前,它將是人工智能研究和開發(fā)的最強武器。事實上,圍繞大模型的研發(fā)和落地,中美之間已經(jīng)展開了新一輪的競爭。資源:微調(diào)使用320GPU-Days資源:鵬城云腦Ⅱ悟道2.0(北京智源)NLP&多模態(tài)資源:神威超算M6(阿里)多模態(tài)紫東太初(中科院自動化所)多模態(tài)參數(shù):千億級數(shù)據(jù):文本、圖像、音頻3212盤古大模型家族介紹稱《盤古大模型》)的名稱對外發(fā)布。盤古大模型集成了華為云團隊在AI領(lǐng)域數(shù)十項研究成果,并且受益于華為的全棧式AI解決方案,與異騰(Ascend)芯片、異思(MindSpore)語言、ModelArts平臺深度結(jié)合。本章簡要介紹盤古大模型的若干組成部分,剖析構(gòu)建大模型的關(guān)鍵技術(shù)。2.1視覺大模型計算機視覺的主要目標(biāo),是設(shè)計出能夠識別視覺信號,并且對其進行各種處理和分析的程序。換句話說,計算機視覺是研究計算機如何去“看”的學(xué)科。其中,較為典型的任務(wù)包括圖像分類、物體檢測、物體分割、物體追蹤、姿態(tài)估計等。下圖展示了圖像分類中最著名的ImageNet數(shù)據(jù)集(超過2萬個物體類別)和MS-COCO數(shù)據(jù)集(包括檢測、分割等多種任務(wù))。信息密度低圖像信號能夠忠實地反映事物信息密度低圖像信號能夠忠實地反映事物的客觀表征;然而其中相當(dāng)部分的數(shù)據(jù)被用于表達圖像中的低頻區(qū)域(如天空)或者無明確語義的高頻(如隨機噪聲)區(qū)域。這就導(dǎo)致了圖像信號的有效信息密度較低,特別是相比于文本信號而言。域豐富多變圖像信號受到域的影響較大,而且這種影響通常具有全局性質(zhì),難以和語義區(qū)分開來。例如,同樣的語義內(nèi)容,在強度不同的光照下,就會體現(xiàn)出截然不同的表征。同時,相同的姿態(tài)出現(xiàn),從而在像素上產(chǎn)生巨大差異,為視覺識別算法帶在計算機中,視覺信號一般以“密集采樣強度”的方式存儲:不同方向入射的光線在每個信道(如紅綠藍)上的強度被記錄下來,用于呈現(xiàn)圖像的基本內(nèi)容。圖像中的每個基本單元被稱為像素——很顯然,這些像素并不能代表基本的語義信息,因而圖像的基本存儲形態(tài)和人類能夠理解的語義之間,存在很大的差距。在學(xué)界,這種差距被稱為“語義鴻溝”,這也是幾乎所有計算機視覺研究所需要處理的核心問題。進一步探究圖像的存儲形態(tài),我們會發(fā)現(xiàn)圖像信號的若干特點:圖像信號的基本單位是像素,但是單個像素往往不能表達語義。圖像識別的任務(wù),就是構(gòu)建特定函數(shù),使得像素級輸入能夠產(chǎn)生語義級輸出。這種函數(shù)往往非常復(fù)雜,很難通過手工方式定義。鑒于上述特點,基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練大模型就成為了計算機視覺落地的最佳方案之一。預(yù)訓(xùn)練過程能夠一定程度上完成視覺信號的壓縮,深度神經(jīng)網(wǎng)絡(luò)能夠抽取層次化的視覺特征,而預(yù)訓(xùn)練結(jié)合微調(diào)的范式則能夠應(yīng)對豐富多變的域。以下,我們講述盤古視覺大模型的整體思路和技術(shù)方案。鐵路,遙感等10鐵路,遙感等10億+圖像數(shù)據(jù)圖像是一種復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù),包含豐富的語義信息?,F(xiàn)如今,還沒有任何一種方法能夠?qū)D像數(shù)據(jù)的數(shù)學(xué)規(guī)律進行準確的描述,因而人們只能通過收集大量的數(shù)據(jù),來近似現(xiàn)實中圖像數(shù)據(jù)的分布。2009年出現(xiàn)的ImageNet數(shù)據(jù)集是計算機視覺領(lǐng)域的重要里程碑,它使得訓(xùn)練、評估大規(guī)模圖像處理方法成為可能。隨為了解決這一問題,我們必須收集更大規(guī)模、更加復(fù)雜的圖像數(shù)據(jù),而這也是業(yè)界的一致趨勢。我們通過多種渠道收集圖像數(shù)據(jù),包括但不限于公共數(shù)據(jù)集合下載、自有數(shù)據(jù)集合擴充、各搜索引擎關(guān)鍵字爬取、以圖搜圖、視頻圖像抽幀等。從這些原始數(shù)據(jù)中,我們篩除了低分辨率、低曝、過曝、簡單背景等低質(zhì)量圖像數(shù)據(jù),再通過已有預(yù)訓(xùn)練視覺模型進行重復(fù)圖像的判斷和去除,最終保留超過10億張高質(zhì)量圖像~40~40TB存儲空間t(xpEncoderqXxat(xpXp(q,ka)+CEakpCE2t(xpEncoderqXxat(xpXp(q,ka)+CEakpCE2我們使用的神經(jīng)網(wǎng)絡(luò)模型覆蓋了計算機視覺領(lǐng)域最為常見的卷積網(wǎng)絡(luò)和transformer架構(gòu),兩者既可以分開使用,也可以按需結(jié)合以達到更好的效果。利用自動機器學(xué)習(xí)算法,我們能夠支持并調(diào)用不同大小的神經(jīng)網(wǎng)絡(luò),其中最大的計算模型具有接近30億參數(shù),最小的模型只有數(shù)十萬參數(shù),其大小相差超過1000倍,為適配不同的視覺任務(wù)提供了可能性。我們收集的訓(xùn)練數(shù)據(jù)大部分來自互聯(lián)網(wǎng),不僅具有相當(dāng)程度的噪聲,而且不包含準確的語義標(biāo)簽。為了充分在沒有語義標(biāo)簽的情況下也能擬合復(fù)雜的數(shù)據(jù)分布。特別地,我們在對比學(xué)習(xí)的基礎(chǔ)上優(yōu)化了相關(guān)代理業(yè)界首創(chuàng)在對比度自監(jiān)督學(xué)習(xí)中引入等級化語義相似度,即挑選那些距離相應(yīng)聚類中心更近的最近鄰作為正樣本,并且在拉近語義相似樣本的時候引入了混合樣本增強,以減少樣本選取過程中的噪聲影響。在此基礎(chǔ)上,我們拓展自監(jiān)督學(xué)習(xí)算法中正樣本的數(shù)目,使得正樣本集合能夠更加高效地被聚集,同時避免受到大量負樣本優(yōu)化的影響。我們采用的預(yù)訓(xùn)練算法(發(fā)表于TPAMI上)的簡略示意圖如下所示:EncoderKkakpkakpkakp(注:基于等級化語義聚集的對比度自監(jiān)督學(xué)習(xí))據(jù)集的線性分類評估上,首次達到了與全監(jiān)督相比擬的結(jié)果。同時,受益于更好的語義對齊效果,我們的方法在小樣本學(xué)75.1%的分類精度,均顯著超我們設(shè)計了具有10億參數(shù)量的基礎(chǔ)模型,并在超過10億張無標(biāo)注圖像組成的數(shù)據(jù)集上進行預(yù)訓(xùn)練。所得到的模型,在分類精度,而1%標(biāo)簽的半監(jiān)督學(xué)習(xí)精度也達到83.0%。同時,盤古大模型在超過20項下游任務(wù)上進行了測試,展現(xiàn)出數(shù)據(jù)集數(shù)據(jù)集業(yè)界最佳模型盤古預(yù)訓(xùn)練模型盤古預(yù)訓(xùn)練模型:分類性能比較數(shù)據(jù)集數(shù)據(jù)集業(yè)界最佳模型盤古預(yù)訓(xùn)練模型盤古預(yù)訓(xùn)練模型:檢測性能比較2.2語音語義大模型自然語言,是人類進化過程中形成的一種高效的存儲和交換信息的載體。人們在使用自然語言交流時,既可以使用“聽說”的方式,也可以使用“讀寫”的方式。這就意味著,對自然語言的理解和使用可以分為兩個部分,即對于文字和音頻的處理,合成為語音語義處理。在人工智能領(lǐng)域,這兩個子課題分別被稱為自然語言處理和語音處理。與計算機視覺類似,語音語義處理的目標(biāo),就是讓機器學(xué)會像人一樣理解并使用文字和聲音,與人類或者其他智能體交流。如圖所示,自然語言處理和語音處理都可以分為理解和生成兩個部分。其中,“理解”的目標(biāo)是讓機器理解人類語言背后的語義信息,“生成”的目標(biāo)讓機器使用人類語言表達自己的意圖。自然語言處理和語音處理的區(qū)別在于,前者主要處理文本信息,后者主要處理音頻信號。大部分情況下,文本和音頻信號具有很強的關(guān)聯(lián)性,但是某些情況下,它們也可以表達各自擅長,而另一種載體難以表達的事物(如音樂難以用文本準確表達出來)。語音識別(ASR)床前明月光床前明月光床前明月光文本理解文本生成語音語義處理的一個核心問題,是將文字和聲音表達為機器容易理解和處理的形式。在深度學(xué)習(xí)誕生之前,人們主要使用特征工程的方式,通過人工定義一些特征函數(shù),將文字和聲音轉(zhuǎn)化為特征向量。這種方法依賴專家知識,且特征很難擴展,無法規(guī)?;瘧?yīng)用。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,自動學(xué)習(xí)語言的向量表示逐漸成為主流。對于“理解”任務(wù),通常使用一個神經(jīng)網(wǎng)絡(luò)作為編碼器,將語言映射到低維向量,用向量表達語義信息;而對于“生成”任務(wù),通常再使用一個神經(jīng)網(wǎng)絡(luò)作為解碼器,將低維向量映射到語言,將向量中蘊含的信息表達出來。上述編碼器-解碼器框架,能夠用于處理文字和音頻信號,其中文本編碼器和音頻編碼器具有較大的差異,而文本解碼器和音頻解碼器卻大致相同。在深度學(xué)習(xí)時代,如何設(shè)計編碼器和解碼器的網(wǎng)絡(luò)結(jié)構(gòu),以及如何學(xué)習(xí)編碼器和解碼器的參數(shù),是兩個關(guān)鍵憑借其處理遠距離依賴的能力大放異彩。然而,RNN模型的優(yōu)化不穩(wěn)定、且難以并行計算,這成為了構(gòu)建大規(guī)模語言模型的障礙。2017年,基于自注意力的Transformer模塊被提出,它結(jié)合了已有方法的優(yōu)點,在速度和表達能力上都體現(xiàn)出巨大優(yōu)勢,因而迅速占領(lǐng)了自然語言處理和語音識別領(lǐng)域。隨著大規(guī)模語料庫的出現(xiàn)和自監(jiān)督學(xué)習(xí)方法的成型,業(yè)界在2018年迎來了大規(guī)模預(yù)訓(xùn)練模型BERT并就此進入大模型時代。如今,預(yù)訓(xùn)練大模型憑借其出色的泛化能力和在此基礎(chǔ)上發(fā)展的基于提示的微調(diào)技術(shù),大大簡化了各種下游以下,我們講述盤古語音語義大模型的整體思路和技術(shù)方案。與計算機視覺領(lǐng)域類似,自然語言處理和語音識別也建立在大規(guī)模數(shù)據(jù)集的基礎(chǔ)上。所謂“讀書破萬卷下筆如有神”,為了讓模型掌握強大的語言理解和生成能力,我們需要準備海量的數(shù)據(jù)讓模型進行學(xué)習(xí),覆蓋各個主題和領(lǐng)域。關(guān)于文本部分,我們從互聯(lián)網(wǎng)公開爬取了40TB原始網(wǎng)頁數(shù)據(jù),并且進行解析和清洗。我們使用正則匹配等方式,過濾掉常見噪聲數(shù)據(jù),如網(wǎng)頁標(biāo)簽、特殊字符、錯誤編碼等,并且使用哈希的方法對數(shù)據(jù)進行去重,然后對數(shù)據(jù)的長度進行規(guī)范,舍棄太短的文章并切分太長的文章,以確保輸入長度在合理的范圍內(nèi)。最終,我們得到約647GB文本數(shù)據(jù),其組成如下圖所示。關(guān)于語音部分,我們從互聯(lián)網(wǎng)公開爬取了超過7萬小時270GB106GB文學(xué)作品71270GB106GB文學(xué)作品71GB社交媒體新聞博客百科知識新聞博客對于語義部分,我們使用的神經(jīng)網(wǎng)絡(luò)是基于Transformer結(jié)構(gòu)的編碼-解碼器模型。編碼器負責(zé)文本理解,使用雙向自注意力機制,讓每個詞充分“觀察”它兩邊的詞,以捕獲它在上下文中的語義信息。解碼器負責(zé)文本生成,使用單向自注意力機制,逐詞進行生成,每個詞只能“看到”它前面的詞,根據(jù)上文的信息來預(yù)測下一個詞。為了讓模型從海量文本數(shù)據(jù)中學(xué)到語言知識,需要設(shè)計合適的學(xué)習(xí)目標(biāo)。我們提出多任務(wù)融合的訓(xùn)練策略,以讓模型同時獲得理解能力和生成能力。針對理解能力,我們使用遮罩語言模型作為訓(xùn)練目標(biāo),即在原文中挖空,讓模型做完形填空任務(wù),例如對于“床前明月光疑是地上霜”這句話,我們從中隨機選取一些位置進行挖空,如將“明月”和“霜”挖掉,模型的訓(xùn)練目標(biāo)是將挖掉的內(nèi)容預(yù)測出來。針對生成能力,我們使用回歸語言模型作為訓(xùn)練目標(biāo),即給定一句話的上半部分,讓模型預(yù)測下半部分,例如將“床前明月光”作為輸入,模型的訓(xùn)練目標(biāo)是將“疑是地上霜”預(yù)測出來。此外,為了讓模型具備零樣本推理能力,即直接處理下游任務(wù)的能力,我們還收集了超過100個下游任務(wù)訓(xùn)練數(shù)據(jù),涵蓋情感分類、意圖理解、語義匹配、實體識別等常見的自然語言任務(wù),將這些數(shù)據(jù)也加入預(yù)訓(xùn)練當(dāng)中。對于語音部分,其解碼器與文本類似,我們主要考慮其音頻編碼器。我們使用卷積與Transformer結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu),底層用卷積神經(jīng)網(wǎng)絡(luò)提取局部信息,上層用Transformer網(wǎng)絡(luò)提取全局信息。我們使用對比學(xué)習(xí)的訓(xùn)練目標(biāo),將音頻中挖掉一個片段,再隨機采樣一些片段作為負例,讓模型從中找出正確的被挖掉的片段。遮罩語言模型多任務(wù)混合編碼器編碼器解碼器解碼器疑是地上霜回歸語言模型編碼器編碼器解碼器軍事下游任務(wù)編碼器編碼器這段新聞:俄羅斯的......類別是什么解碼器解碼器CLUE是中文理解類最權(quán)威的榜單,包括新聞分類、語義匹配、閱讀理解、成語完形填空、指代消解等10個任務(wù)。對于生成類任務(wù),我們在NLPCC2018文本摘要任務(wù)上取得了業(yè)界最佳成績,超越第二名60%。由于多任務(wù)預(yù)訓(xùn)練,我們的模型具有強大的零樣本推理能力,相比于RoBERTa模型,零樣本推理準確率提升超過50%。我們的語音模型是當(dāng)前最大的中文語音模型之一,擁有超過4億參數(shù),在自有數(shù)據(jù)上相比于基線模型字符錯誤率相對降低10%。下圖展示了幾個典型的自然語言理解任務(wù),包括文本分類、閱讀理解、實體識別等。盤古大模型在基于提示的微調(diào)下,能夠輕松地在這些任務(wù)上取得很高的理解精度。文本分類任務(wù)這件衣服款式一般,推薦購買積極閱讀理解任務(wù)明明明明明白白白喜歡他,但他就是不說,他很高冷。實體識別任務(wù)實體識別任務(wù)曾致力于休斯頓火箭隊休斯頓火箭隊-組織2.3多模態(tài)大模型人類在理解外部世界時,往往需要綜合考慮多種信息,如視覺、聽覺等。在人工智能領(lǐng)域,多模態(tài)任務(wù)的主要目標(biāo)就是處理和關(guān)聯(lián)多源異構(gòu)信息(如語音信息、文本信息、圖像信息、視頻信息等),通過設(shè)計相應(yīng)信息融合或交互方法來綜合提取多模態(tài)知識。因此,多模態(tài)任務(wù)與前述計算機視覺或者自然語言處理等處理單一模態(tài)的任務(wù)不同,需要在海量的多模態(tài)數(shù)據(jù)上完成預(yù)訓(xùn)練,然后將預(yù)訓(xùn)練的知識遷移到下游各項任務(wù)中,視覺問答(通過圖像內(nèi)部所提供的信息對相關(guān)問題作答)、視覺定位(定位在一張圖像中一段話所描述的對應(yīng)區(qū)域),等。 由于多模態(tài)數(shù)據(jù)具有多源異構(gòu)的特點,理解任務(wù)的核心困難就在于如何將不同形態(tài)信息進行統(tǒng)一化表示,從而使得計算機能夠處理完成多源異構(gòu)信息的交互與知識抽取。盤古大模型圍繞視覺(圖像)和語言(文本)這兩種最常見的模態(tài)展開研究,完成了一套預(yù)訓(xùn)練配合下游任務(wù)的流程。以下,我們將講述盤古大模型的整體思路和技術(shù)方案。圖文數(shù)據(jù)圖文數(shù)據(jù)與視覺和語音語義大模型相同,多模態(tài)大模型必須在海量、高質(zhì)量的數(shù)據(jù)上進行訓(xùn)練。我們采用了業(yè)界通用的做法,即從互聯(lián)網(wǎng)中爬取大量數(shù)據(jù),然后使用過濾算法消除其中不符合要求的部分,最終得到高質(zhì)量的圖文配對數(shù)據(jù),用于多模態(tài)大模型的預(yù)訓(xùn)練。具體地說,我們設(shè)定大量文本關(guān)鍵字,在搜索引擎上獲取排名靠前的圖像,并且將圖像對應(yīng)的文本(從元數(shù)據(jù)中獲得)存儲下來,形成圖文配對數(shù)據(jù)池。去掉其中的重復(fù)數(shù)據(jù)后,我們進一步篩除其中分辨率過低或者文本長度過短的數(shù)據(jù),隨后利用已有的多模態(tài)預(yù)訓(xùn)練模型對這些經(jīng)過上述預(yù)處理過程,我們最終得到了約3.5億高質(zhì)量的圖文配對數(shù)據(jù),占據(jù)約60TB存儲空間。6060TB存儲空間多模態(tài)大模型預(yù)訓(xùn)練的關(guān)鍵,在于不同模態(tài)數(shù)據(jù)的高效交互和融合。當(dāng)前主流的多模態(tài)大模型架構(gòu)主要分為單塔架構(gòu)和雙塔架構(gòu)。其中單塔架構(gòu)只利用一個深度神經(jīng)網(wǎng)絡(luò)(一般是Transformer)結(jié)構(gòu)來完成圖像和文本之間的交互融合,本質(zhì)上屬于信息前融合方案;而雙塔架構(gòu)利用不同的神經(jīng)網(wǎng)絡(luò)來完成不同模態(tài)的信息抽取,然后僅在最后一層做信息交互和融合,因而屬于信息后融合方案。盤古大模型采用了雙塔架構(gòu),其具有模型獨立性強、訓(xùn)練效率高等優(yōu)勢。盤古大模型的實現(xiàn)方式很簡單:分別使用相應(yīng)網(wǎng)絡(luò)抽取圖像和文本特征,然后將一個批次的圖像和文本特征送入判別器,在對比損失函數(shù)的作用下,使得配對的跨模態(tài)特征聚集在一起,而不配對跨模態(tài)特征被拉遠。在大數(shù)據(jù)集上充分迭代后,模型就能學(xué)會將圖像和文本對齊到同一空間。此時,圖像和文本的編碼器可以獨立用于各自下游任務(wù),或協(xié)同用于跨模態(tài)理解類下游任務(wù)。hjT}hjT}AaAaXIiTXIiTxjDual-EncoderEfficientandSemantics-SensitiveDual-Encoder然而,當(dāng)前大多數(shù)的多模態(tài)雙塔架構(gòu)方法僅僅進行了全局的信息對齊,而對于文本和圖像內(nèi)容的細粒度知識卻缺乏考慮。譬如,一幅圖像中可能包含很多視覺實體區(qū)域,而對應(yīng)的文本描述中也包含了很多名詞短語。以更精細的粒度對齊這些視覺實體和名詞短語,將有助于多模態(tài)大模型獲得更加強大的圖文配對能力。基于此,盤古團隊提出了自研算法LOUPE(發(fā)表于NeurIPS2022會議)。該算法利用博弈論相關(guān)思路將圖像中的視覺實體區(qū)域和文本中的名詞短語提取出,并通過對比學(xué)習(xí)損失函數(shù)進行細粒度對齊。使用這種方法訓(xùn)練出的多模態(tài)大模型,在多項下游任務(wù)中表現(xiàn)出了更好的精度。盤古多模態(tài)大模型在多模態(tài)的各項下游任務(wù),如跨模態(tài)檢索、圖像描述自動生成、視覺定位等任務(wù)上均取得了業(yè)界領(lǐng)先水平。采用LOUPE算法預(yù)訓(xùn)練所得的模型,在跨模態(tài)檢索數(shù)據(jù)集Flicker30k以及MS-COCO上取得了當(dāng)前業(yè)界最佳的圖文檢索精度,其中在MS-COCO的以文搜圖任務(wù)上超過業(yè)界標(biāo)桿算法CLIP達12.3%。此外,算法在開放域的物體檢測和視覺定位任務(wù)中也取得了良好的效果,示意結(jié)果如下:游戲水務(wù)機械航天航空地質(zhì)氣象預(yù)報地震探測藥物性質(zhì)海浪高度碰撞模擬性能計算機器人控制飛行器應(yīng)用場景譜平衡拉格朗日麥克斯韋微分方程熱力學(xué)狀態(tài)方程本構(gòu)方程薛定諤微分方程游戲水務(wù)機械航天航空地質(zhì)氣象預(yù)報地震探測藥物性質(zhì)海浪高度碰撞模擬性能計算機器人控制飛行器應(yīng)用場景譜平衡拉格朗日麥克斯韋微分方程熱力學(xué)狀態(tài)方程本構(gòu)方程薛定諤微分方程2.4科學(xué)計算大模型視覺大模型、自然語言大模型和多模態(tài)大模型主要面向通用的人工智能問題,例如音頻分析、圖像識別、語還存在許多人類也無法解決的問題,如湍流模擬、天氣預(yù)報、大形變應(yīng)力建模等。這些問題有著廣泛的應(yīng)用應(yīng)用領(lǐng)域結(jié)構(gòu)應(yīng)力結(jié)構(gòu)應(yīng)力程函方程程函方程上述問題很有價值,卻也非常復(fù)雜。在人工智能之前,科學(xué)家們通常通過分析實驗數(shù)據(jù)與推演機理公式的方式提煉這些問題的內(nèi)在規(guī)律。這些傳統(tǒng)方法,容易在大體量、高維度的數(shù)據(jù)處理上遇到困難。近年來,隨著人工智能技術(shù)的飛速發(fā)展,業(yè)界涌現(xiàn)出了AI+科學(xué)計算類方法,即使用嵌入各類科學(xué)方程的深度神經(jīng)網(wǎng)絡(luò),從觀測數(shù)據(jù)和仿真數(shù)據(jù)中直接學(xué)習(xí)問題蘊含的規(guī)律,以對復(fù)雜的科學(xué)數(shù)據(jù)進行分析,了解科學(xué)過程的內(nèi)部機理。AIAI模型海浪高度藥物性質(zhì)AI模型過去風(fēng)速未來風(fēng)速AI模型AI模型氨基酸序列蛋白質(zhì)結(jié)構(gòu)從預(yù)訓(xùn)練大模型的角度看,科學(xué)計算大模型與前述大模型存在若干相似之處。它們都建立在大規(guī)模數(shù)據(jù)集我們簡單描述科學(xué)計算的獨特之處。傳感器等)產(chǎn)生,而仿真數(shù)據(jù)由仿真算法(對應(yīng)人類知識)產(chǎn)生。這兩類數(shù)據(jù)及其融合數(shù)據(jù)和機理知識,都可以作為AI模型的學(xué)習(xí)對象。?不同科學(xué)計算場景的觀測數(shù)據(jù)往往相差巨大,觀測數(shù)據(jù)的收集往往需要特定領(lǐng)域的專業(yè)儀器與系統(tǒng)的實驗,例如蛋白質(zhì)結(jié)構(gòu)預(yù)測問題中蛋白質(zhì)結(jié)構(gòu)的測定需要依賴于X射線衍射方法與核磁共振法、短臨降雨預(yù)報問題中需要氣象雷達收集的雷達波反射率數(shù)據(jù)、植物表型分析問題中數(shù)據(jù)則來自于實驗員的收集,等等。在一些科學(xué)計算場景中,觀測數(shù)據(jù)的數(shù)據(jù)量非常龐大,例如氣象數(shù)據(jù)中的全球氣象站歷史數(shù)據(jù)、衛(wèi)星數(shù)據(jù)和雷達回波數(shù)據(jù)。也有一些場景中,觀測數(shù)據(jù)量相對較少,例如結(jié)構(gòu)應(yīng)力分析力傳感器收集的?仿真數(shù)據(jù)來自于數(shù)值仿真算法的輸出,蘊含著豐富的數(shù)學(xué)物理信息,同一個問題使用不同的仿真算法可以輸出不同的仿真數(shù)據(jù)。仿真數(shù)據(jù)不同于觀測數(shù)據(jù),其精度受限于使用仿真算法的準確性和仿真計算的可以作為觀測數(shù)據(jù)的有效擴充。在有些場景中,觀測數(shù)據(jù)和仿真數(shù)據(jù)由特定的機理知識結(jié)合在一起,生成融合數(shù)據(jù)。如氣象再分析數(shù)據(jù),再分析數(shù)據(jù)通常使用同化算法融合仿真數(shù)據(jù)和實驗數(shù)據(jù)得到結(jié)構(gòu)化的數(shù)據(jù),根據(jù)不同同化算法與使用的仿真數(shù)據(jù)也可以有不同的結(jié)果。以下總結(jié)了若干場景的數(shù)據(jù)情況。雷達回波雷達回波植物表型記錄數(shù)據(jù)氨基酸序列數(shù)據(jù)氣象中心預(yù)報數(shù)據(jù)大氣資料再分析數(shù)據(jù)量級別級別級別級別數(shù)據(jù)結(jié)構(gòu)每一個空間點有對應(yīng)的雷達每株植物每種特株高)有對應(yīng)值固定詞表的序列數(shù)據(jù)數(shù)據(jù)變化幅度較小大較大較大準確度高高低收集方式氣象雷達實驗員手工收集或者高通量表型分析儀器推算出算法得到算法與觀測算法融合數(shù)據(jù)特點原始數(shù)據(jù)是極坐標(biāo)形式,拼接雷達回波數(shù)據(jù)中有空白區(qū)域數(shù)據(jù)收集難度較高,數(shù)據(jù)點較少序列數(shù)據(jù),與文本數(shù)據(jù)相近仿真數(shù)據(jù)和實際場景的觀測數(shù)據(jù)有系統(tǒng)誤差和實際場景觀測數(shù)據(jù)有一定系統(tǒng)誤差,但是包含觀測數(shù)據(jù)的信息應(yīng)用短臨降雨預(yù)報植物表型關(guān)系分析蛋白質(zhì)結(jié)構(gòu)預(yù)測氣象要素預(yù)報氣象預(yù)報大()根據(jù)輸入數(shù)據(jù)的性質(zhì),算法會選用不同的基礎(chǔ)模型用于訓(xùn)練。以海浪預(yù)測任務(wù)為例,其目標(biāo)為預(yù)測全球范圍內(nèi)海平面的實時浪高,輸入和輸出數(shù)據(jù)均為帶有時間戳的二維球面數(shù)據(jù),因此適合使用二維網(wǎng)絡(luò)模型。如果將預(yù)測范圍擴展至三維空間,如進行全球范圍內(nèi)的氣象預(yù)測,輸出和輸出均為帶有時間戳的三維數(shù)據(jù)(包括高度),則適合使用三維網(wǎng)絡(luò)模型。二維網(wǎng)絡(luò)和三維網(wǎng)絡(luò)均可以借鑒計算機視覺領(lǐng)域的相應(yīng)模型,如使用卷積神經(jīng)網(wǎng)絡(luò)或者視覺Transformer作為骨干架構(gòu),配合大數(shù)據(jù)進行預(yù)訓(xùn)練。成為某種約束性質(zhì)的偏微分方程組。如下圖所示,我們可以將此類方程組嵌入神經(jīng)網(wǎng)絡(luò)中,輔助模型架構(gòu)設(shè)計或成為額外的約束條件,與標(biāo)準觀測或仿真數(shù)據(jù)一起,訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。在良好的實現(xiàn)下,這類知識通常能夠增強模型的魯棒性,降低模型擬合訓(xùn)練數(shù)據(jù)的難度和不穩(wěn)定性。(注:左圖為嵌入偏微分方程的神經(jīng)網(wǎng)絡(luò)示意圖,右圖為海浪預(yù)報問題使用的偏微分方程)以下,我們展示一個典型的科學(xué)計算案例,即全球海浪高度預(yù)測系統(tǒng)。傳統(tǒng)科學(xué)計算方法通過求解譜平衡方程計算波浪高度,通常需要使用超級計算機計算,同時消耗大量算力。由于計算無法做到實時完成,當(dāng)風(fēng)速等氣象要素改變時,傳統(tǒng)方法無法給出實時的海浪預(yù)測,存在一定時間延遲。海浪預(yù)測問題的輸入輸出都是經(jīng)緯度網(wǎng)格點上的氣象要素數(shù)據(jù),在數(shù)據(jù)形式上與視頻數(shù)據(jù)相似。不同之處在海浪預(yù)測的輸出通常不是某種分類,而是連續(xù)的預(yù)測值,因此需要用回歸損失替換深度學(xué)習(xí)中常用的分類、例如繞地軸旋轉(zhuǎn),因此需要選定滿足特定不變性的CNN或者Transfor盤古海浪預(yù)測模型的主體是考慮了旋轉(zhuǎn)不變性的視覺Transformer架構(gòu),參數(shù)量約為五億。如上所述,神經(jīng)網(wǎng)絡(luò)的損失函數(shù)由兩部分組成,即實際數(shù)據(jù)上的預(yù)測誤差和海浪預(yù)測本身需要滿足的偏微分方程。通過爬取1s之內(nèi)即可得到全球海浪高度預(yù)測,1分鐘內(nèi)能夠完成超過100次海浪預(yù)測任務(wù),推理效率較傳統(tǒng)方法提升了4-5個數(shù)量級。使用AI算法,我們可以迅速得到不同可能的風(fēng)速條件下的海浪高度,從而進行實時預(yù)測和未來情況模擬,對于漁業(yè)養(yǎng)殖、災(zāi)害防控等場景有極大的價值。使用昇騰AI芯片,AI模型可以在一秒內(nèi)給出成百上千組“隨機”風(fēng)速分布下的海浪分布圖:盤古海浪預(yù)測模型可以在短時間內(nèi)對數(shù)千組可能情況進行模擬,2.5圖網(wǎng)絡(luò)大模型如公司ERP數(shù)據(jù)(計劃、財務(wù)、銷售、采購)、分子基因、交通網(wǎng)絡(luò)、股票、點云,等。這些數(shù)據(jù)很難通過標(biāo)準的卷積、Transformer等模塊進行處理,因而需要適應(yīng)不同任務(wù)和不同模態(tài)的神經(jīng)網(wǎng)絡(luò),以達到量化的效果。我們以圖網(wǎng)絡(luò)的形式對通用數(shù)據(jù)進行建模,以利用圖結(jié)構(gòu)來表達數(shù)據(jù)元素間的相關(guān)性。在上述背景下,盤古圖網(wǎng)絡(luò)大模型被設(shè)計出來,它的目標(biāo)是統(tǒng)一大模型在通用數(shù)據(jù)域上的構(gòu)造方案,從而實現(xiàn)不同任務(wù)場景下端到端的大模型訓(xùn)練、優(yōu)化、微調(diào)和部署。盤古圖網(wǎng)絡(luò)大模型主要實現(xiàn)的目標(biāo)有:高泛化冷啟動盤古圖網(wǎng)絡(luò)大模型可基于圖網(wǎng)絡(luò)提供更強可解釋性,醫(yī)療、金融等)的需求在具體任務(wù)中,盤古圖網(wǎng)絡(luò)大模型可自適應(yīng)構(gòu)建不同基模型和圖網(wǎng)絡(luò),實現(xiàn)更高的精度通過選擇基模型或者微調(diào)圖網(wǎng)絡(luò),直接將盤古圖網(wǎng)絡(luò)大模型遷移至新場景使用通過刪減、增加基模型,實現(xiàn)盤古圖網(wǎng)絡(luò)大模型的終身學(xué)習(xí)高精度高可解釋性終身學(xué)習(xí)同時,盤古圖網(wǎng)絡(luò)大模型還配備有其他適合部署的功能,如模型加密(使得模型在云、邊、端等不同場景下部署時收到產(chǎn)權(quán)保護)和大規(guī)模數(shù)據(jù)訓(xùn)練(支持多節(jié)點并發(fā)訓(xùn)練),使得整套系統(tǒng)對實際應(yīng)用更加友好。134212數(shù)據(jù)134212數(shù)據(jù)盤古圖網(wǎng)絡(luò)大模型整體架構(gòu)如下圖所示:1122圖:盤古圖網(wǎng)絡(luò)大模型整體架構(gòu)盤古圖網(wǎng)絡(luò)大模型的頂層設(shè)計,主要分為基模型構(gòu)建和圖網(wǎng)絡(luò)融合兩個部分。在基模型構(gòu)建部分,模型會自動使用超采樣的不同數(shù)據(jù)集來訓(xùn)練不同的基模型:在這個過程中,不同基模型的超參數(shù)通過AutoML的相關(guān)技術(shù)進行搜索(圖中的不同顏色的箭頭表示不同的數(shù)據(jù)流,不同顏色的框中表示不同的基模型減輕了開發(fā)者的調(diào)參壓力。而在圖網(wǎng)絡(luò)融合部分,每個基模型根據(jù)輸入數(shù)據(jù)進行預(yù)測,而不同的預(yù)測結(jié)果在圖網(wǎng)絡(luò)中被融合起來,得到最終的輸出。該方案的優(yōu)勢在于,圖網(wǎng)絡(luò)中的基模型可以任意增減,而不管如何增減基模型,都不會對圖網(wǎng)絡(luò)的匯聚產(chǎn)生影響,因為圖網(wǎng)絡(luò)本身對于輸入的基模型數(shù)量不敏感。GNNBasemodelfusionadd_base_algorithmModeloutput1Modeloutput2Modeloutput4Modeloutput5BasemodelselectionLayerOutputClassi?cationBasicAlgorithmXGB44GNNBasemodelfusionadd_base_algorithmModeloutput1Modeloutput2Modeloutput4Modeloutput5BasemodelselectionLayerOutputClassi?cationBasicAlgorithmXGB為了讓開發(fā)者更方便地使用這套框架,盤古圖網(wǎng)絡(luò)大模型在代碼實現(xiàn)層面進行了架構(gòu)的良好設(shè)計,整體代碼結(jié)構(gòu)清晰,易于閱讀和維護。FinalOutputFinalOutputGNNGNNModeloutput3Modeloutput3StackNetStackNetLayerOutputLayerOutputHyperparamFindHyperparamFindRegressionBasicAlgorithmRegressionBasicAlgorithmXGBXGB圖:盤古圖網(wǎng)絡(luò)大模型代碼結(jié)構(gòu)示意圖上圖展示了盤古圖網(wǎng)絡(luò)大模型的基本代碼邏輯。系統(tǒng)整體由兩部分組成,基模型構(gòu)建和圖網(wǎng)絡(luò)融合。其中,行超參數(shù)搜索,之后將搜索好的基模型輸入StackNet訓(xùn)練該層的層次網(wǎng)絡(luò),并輸出結(jié)果。該結(jié)果將作為下一次的輸入重復(fù)進行新的基模型選擇與超參搜索,在得到多個完整的基模型組成的層次網(wǎng)絡(luò)的輸出后,使用圖神經(jīng)網(wǎng)絡(luò)進行信息聚合,得到輸出結(jié)果。同時我們也可以將其他訓(xùn)練好的基模型,通過add_base_algorithm方便地加入其中,進行圖網(wǎng)絡(luò)匯聚(例如圖1中的虛線的ModelOutput5),而不需要更改其他基模型、層次網(wǎng)絡(luò)以及圖神經(jīng)網(wǎng)絡(luò)。這樣的特點,使得盤古圖網(wǎng)絡(luò)大模型能夠很容易地應(yīng)用于各種差異較大的任務(wù)。在下一章節(jié),我們會展示盤古圖網(wǎng)絡(luò)大模型的若干實際應(yīng)用案例。盤古大模型應(yīng)用案例3.1視覺大模型案例:TFDS圖像自動信息采集、信息處理傳輸和列檢檢測中心等設(shè)備構(gòu)成,通過高速像機陣列,拍攝列車車底和側(cè)下部的全部可視信息,經(jīng)數(shù)字化處理后顯示于檢測中心的信息終端上,通過人機結(jié)合的方式,對抓拍后貨車車輛的圖像進行分析,實現(xiàn)故障檢測功能。全路約有6000人動態(tài)檢車員承擔(dān)著對TFDS檢測設(shè)備所拍攝車輛圖像的分析工作。龐大的檢車員數(shù)量造成每個路局的資金負擔(dān)。當(dāng)前,以人均年工資支出約為15萬元計算,則全路每年在該領(lǐng)域的支出近10億元;同時,車輛故障分析工作強度大、難度高,對車輛專業(yè)理論與實際運用需要有很好的水平,要求動態(tài)檢車員在短時間完成整列車的故障分析,確保整列車的運行安全。TFDS圖像自動識別從2007年就開始嘗試采用圖像自動識別技術(shù)進行研究,當(dāng)時從故障部件的邊緣及灰度面積進行,受故障形態(tài)多變、圖像質(zhì)量差異大、車體污染等影響,識別結(jié)果一直不理想,而且只能對故障形態(tài)非常明顯的故障進行識別,如:截斷塞門手把關(guān)閉故障,并采SVM(支持向量機)技術(shù),識別率才達到TFDS的智能分析需求并沒有得到很好的滿足。TFDS行業(yè)預(yù)訓(xùn)練TFDS行業(yè)預(yù)訓(xùn)練盤古行業(yè)預(yù)訓(xùn)練模型質(zhì)量算法識別預(yù)報故障部件定位故障識別故障識別形變、折斷、脫落等故障識別破損、裂縫異常檢測整車故障綜合分析基于盤古行業(yè)預(yù)訓(xùn)練模型的鐵路TFDS開發(fā)方案漏報1故障總數(shù)120識別率99.17%準確預(yù)測119漏報506故障總數(shù)28786識別率98.24%準確預(yù)測28280漏報17故障總數(shù)3101識別率99.45%準確預(yù)測3084漏報1故障總數(shù)120識別率99.17%準確預(yù)測119漏報506故障總數(shù)28786識別率98.24%準確預(yù)測28280漏報17故障總數(shù)3101識別率99.45%準確預(yù)測3084上圖展示了盤古視覺大模型在為TFDS定制的解決方案。依托于盤古行業(yè)預(yù)訓(xùn)練大模型,我們定制化地開發(fā)了整體解決方案,包括車型篩選、工位分類、配件篩選、圖像質(zhì)量評估、已與車型先驗的模板匹配、多車級聯(lián)分析等模塊,其中盤古大模型核心解決方案包含以下組成部分:故障定位、識別故障定位、識別基于鐵路行業(yè)預(yù)訓(xùn)練大模型,結(jié)合目標(biāo)檢測、圖像識別框架,進行部件定位、故障識別自動增強和評估圖像進行自動評估,對正常圖像做進一步故障識別,非正常圖像返回人工審核 行業(yè)預(yù)訓(xùn)練模型利用百萬級無標(biāo)注鐵路行業(yè)生成鐵路行業(yè)預(yù)訓(xùn)練模型模板匹配根據(jù)已知的車型信息建立零部件的相對位置模板,預(yù)報部件位置異常(丟失、錯位)車輛拆分根據(jù)整列車圖像,定位出每輛車的基于盤古視覺大模型的整體解決方案,在5T檢測車間集中作業(yè)分析的14條線路進行了驗證。在2021年9障圖片)共計32007張。在測試環(huán)境下,這些故障圖片與大量正常圖片混合,送入盤古大模型進行判斷。如下表所示,實測結(jié)果表明,當(dāng)前盤古大模型的識別精度已經(jīng)超過人類檢測員水平。攔停一般8業(yè)務(wù)場景挑戰(zhàn)8業(yè)務(wù)場景挑戰(zhàn)?普通銷售人員和精英銷售人員業(yè)績差異相當(dāng)大?企業(yè)缺乏有效手段及時發(fā)現(xiàn)每名銷售的短板并及時給予指導(dǎo),造成大量業(yè)績損失3.2語音語義大模型:賦能智慧銷售銷售要求具備優(yōu)秀的語言能力,一方面要理解客戶潛在的意圖,推薦客戶可能感興趣的產(chǎn)品,另一方面要運用合理的表達方式,突出產(chǎn)品的優(yōu)點,刺激客戶的購買意向。在傳統(tǒng)銷售場景中,往往以結(jié)果作為唯一評價指標(biāo),無法對銷售的中間過程進行監(jiān)測,導(dǎo)致客戶的潛在購買意圖沒有被充分挖掘,低水平銷售不清楚短板在哪里,難以找到提升方向,高水平銷售的成功經(jīng)驗也難以總結(jié)。在銀行、保險的線上&線下網(wǎng)點銷售場景,借助銷售實時輔助系統(tǒng),提升人員產(chǎn)能10%~50%循環(huán)智能的解決方案和業(yè)務(wù)結(jié)果數(shù)據(jù)采集話術(shù)挖掘執(zhí)行監(jiān)督招商銀行?深入業(yè)務(wù)流程的銷售輔助閉環(huán)?提升初級銷售的產(chǎn)能高達50%,?線下銀行網(wǎng)點依然適用實時輔助8業(yè)務(wù)場景挑戰(zhàn)8業(yè)務(wù)場景挑戰(zhàn)?銷售人員在“低意向客戶”上浪費了大部分精力,銷售轉(zhuǎn)化率難提升?產(chǎn)品推薦完全基于人工經(jīng)驗,未經(jīng)數(shù)據(jù)驗證在保險的銷售場景,借助名單意向預(yù)測和產(chǎn)品推薦系統(tǒng),實現(xiàn)銷售轉(zhuǎn)化率2x~3x循環(huán)智能的解決方案和業(yè)務(wù)結(jié)果????創(chuàng)造性地基于過往溝通內(nèi)容與成單結(jié)果進行意向預(yù)測通過未成交名單意向排序和已成交客戶增購意向排序及產(chǎn)品適用于電銷、網(wǎng)銷、代理人等多種銷售渠道依托于大模型的通用性和泛化性,我們可以將該系統(tǒng)遷移到各個行業(yè)中,性能保持穩(wěn)定。如提問“北京有哪些好玩的景點”,模型可以給出“故宮”、“長城”、“798藝術(shù)區(qū)”等答案。此外,模型還具備聊天能力,可以生成合理的多輪對話回復(fù)。3.3多模態(tài)大模型:一網(wǎng)統(tǒng)管事件工單分配一網(wǎng)統(tǒng)管事件工單分配是每個城市運營中必不可少的業(yè)務(wù)之一。通過對工單分配,可以有效地安排對應(yīng)部門處理城市當(dāng)中發(fā)現(xiàn)的問題,縮小發(fā)現(xiàn)事件和處理事件之間的時間差。當(dāng)前,一網(wǎng)統(tǒng)管的事項類別分布十分廣泛,多達300類;此外,大規(guī)模城市往往每天都面臨著大規(guī)模事件工單進行分發(fā),因此事件工單的智能分配是非常關(guān)鍵的問題。而形成。在使用小模型時,這些事件的分類精度較低,因而產(chǎn)生了大量錯誤分類,導(dǎo)致事件沒有分配到對應(yīng)的處置單位中,嚴重影響事件的處理效率。此外,由于事件分類缺乏國家標(biāo)準,不同城市的事件類別也有一定的特異性;如果使用小模型,就會需要對每個城市做一次數(shù)據(jù)的重新收集和模型迭代訓(xùn)練,耗時耗力,并不便于城市功能智能分配系統(tǒng)的快速部署。盤古多模態(tài)大模型的出現(xiàn),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論