大規(guī)模預(yù)訓(xùn)練模型對Al應(yīng)用與普及的影響_第1頁
大規(guī)模預(yù)訓(xùn)練模型對Al應(yīng)用與普及的影響_第2頁
大規(guī)模預(yù)訓(xùn)練模型對Al應(yīng)用與普及的影響_第3頁
大規(guī)模預(yù)訓(xùn)練模型對Al應(yīng)用與普及的影響_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大規(guī)模預(yù)訓(xùn)練模型對Al應(yīng)用與普及的影響作者:暫無來源:《上海信息化》2021年第9期大規(guī)模預(yù)訓(xùn)練模型的開發(fā),有助于降低人工智能應(yīng)用難度。近年來,以谷歌和微軟為代表的頭部科技公司發(fā)布了BERT、GPT-3等里程碑式的預(yù)訓(xùn)練模型,提高模型效能,推動人工智能技術(shù)應(yīng)用與普及。文|唐亞匯當(dāng)前,以GPT-3為代表的大規(guī)模預(yù)訓(xùn)練模型正成為全球人工智能(AI)技術(shù)發(fā)展的重要趨勢之一,其通用性和便利性將大幅降低人工智能技術(shù)與傳統(tǒng)產(chǎn)業(yè)融合的難度,進(jìn)而推動人工智能技術(shù)的應(yīng)用與普及。在全球競逐AI領(lǐng)先地位的大背景下,這一趨勢應(yīng)受到關(guān)注。頭部企業(yè)加碼大規(guī)模預(yù)訓(xùn)練模型預(yù)訓(xùn)練模型指的是已經(jīng)完成訓(xùn)練并保存下來的模型網(wǎng)絡(luò)。在人工智能開發(fā)與應(yīng)用中,預(yù)訓(xùn)練模型不僅有助于開發(fā)者基于前人成果進(jìn)一步深化研究,更可以直接封裝應(yīng)用在實(shí)際業(yè)務(wù)場景中,解決現(xiàn)實(shí)任務(wù)需求。近年來,以谷歌和微軟為代表的頭部科技公司開始在模型的規(guī)模上發(fā)力,先后發(fā)布BERT和GPT-3等里程碑式的預(yù)訓(xùn)練模型,力圖藉此提高模型效能。BERT由谷歌發(fā)布于2018年,是一個參數(shù)超過百萬個的自然語言處理(NLP)大模型,模型參數(shù)多達(dá)340萬個,訓(xùn)練數(shù)據(jù)量為16GB。由于模型架構(gòu)大、訓(xùn)練數(shù)據(jù)量多,其單次訓(xùn)練成本達(dá)到1.2萬美元。大投入帶來大成效,BERT擺脫了單一任務(wù)限制,在11種不同的NLP測試中都創(chuàng)出佳績,并在閱讀理解上全面超越人類。這拉開了大規(guī)模預(yù)訓(xùn)練模型應(yīng)用的序幕。此后,眾多AI研究人員遵循這一開發(fā)思路,不斷刷新大模型的上限。BERT面世8個月之后,美國卡內(nèi)基·梅隆大學(xué)和谷歌人工智能團(tuán)隊(duì)“谷歌大腦”(GoogleBrain)的研究人員就提出XLNET模型,并創(chuàng)造了18項(xiàng)NLP測試的最高記錄,其單次訓(xùn)練成本達(dá)到6萬美元。之后不到一個月,臉書的研究人員提出RoBERTa模型,使用10倍于BERT的數(shù)據(jù)量,在測試中全面超越XLNET。2020年8月,另一個具有里程碑意義的模型GPT-3面世。GPT-3是美國非盈利機(jī)構(gòu)OpenAI發(fā)布的GPT第三代模型,被譽(yù)為“最接近通用人工智能”的模型。GPT-3不僅支持多種不同類型的任務(wù),包括改語法錯誤、寫文章(寫詩)、聊天、算數(shù)、答題、翻譯等,還能夠通過小樣本動態(tài)學(xué)習(xí),解決從未遇到過的任務(wù),從而具備成為通用解決方案的能力。為了達(dá)到這一效果,GPT-3模型參數(shù)達(dá)到1750億個,訓(xùn)練數(shù)據(jù)量更是超過45TB,訓(xùn)練成本高達(dá)1200萬美元,是迄今為止最強(qiáng)大、最貴的模型。其后,盡管谷歌發(fā)布的SwitchTransformers模型參數(shù)量達(dá)到1.6萬億個,但其功能與訓(xùn)練成本仍不及GPT-3。鑒于大規(guī)模預(yù)訓(xùn)練模型的強(qiáng)大與高效,國內(nèi)頭部科研機(jī)構(gòu)如阿里、華為、智源研究院也都先后發(fā)布了自研的大規(guī)模預(yù)訓(xùn)練模型,并取得了相當(dāng)不錯的成果,在相關(guān)測試中均達(dá)到目前業(yè)界較高水平。大規(guī)模預(yù)訓(xùn)練模型推動AI應(yīng)用大規(guī)模預(yù)訓(xùn)練模型發(fā)展至今,具備了支持多任務(wù)、動態(tài)學(xué)習(xí)的特點(diǎn),能夠很好地解決企業(yè)應(yīng)用AI技術(shù)的痛點(diǎn),十分適應(yīng)產(chǎn)業(yè)化的應(yīng)用需求,或?qū)⑼苿覣I技術(shù)產(chǎn)業(yè)應(yīng)用的又一波高潮。當(dāng)前,企業(yè)應(yīng)用AI技術(shù)往往面臨前期投入大、開發(fā)時間長等痛點(diǎn)。無論是自建AI團(tuán)隊(duì)還是對外采購AI技術(shù)服務(wù),都需要投入上百萬元和數(shù)個月的時間來完成項(xiàng)目落地。這主要由于基于傳統(tǒng)小模型的AI技術(shù)方案存在天然局限性。傳統(tǒng)AI模型主要以完成單一任務(wù)為主,例如識別人臉的模型無法識別物體、擅長翻譯的模型無法承擔(dān)語音交互的任務(wù)。模型質(zhì)量以完成單任務(wù)的精度和速度為主要衡量標(biāo)準(zhǔn),是一種具有實(shí)驗(yàn)室傳統(tǒng)的研發(fā)方式。企業(yè)在應(yīng)用過程中,需要根據(jù)實(shí)際需求,由算法人員把多個小模型組合串聯(lián),形成符合企業(yè)需求的定制化模型,并依托企業(yè)數(shù)據(jù)重新訓(xùn)練模型參數(shù),完成AI開發(fā)任務(wù)。整個定制過程中,模型比選、串聯(lián)、訓(xùn)練、部署都十分耗時耗力。因此,盡管AI技術(shù)的價值有目共睹,但高昂的使用門檻卻將絕大多數(shù)企業(yè)拒之門外。Gartner的研究報告顯示,37%的企業(yè)已經(jīng)或即將部署AI模型,但仍有大量中小企業(yè)未享受到人工智能技術(shù)帶來的利好。大規(guī)模預(yù)訓(xùn)練模型的出現(xiàn)或?qū)氐赘淖內(nèi)斯ぶ悄艿膽?yīng)用現(xiàn)狀。依托復(fù)雜的預(yù)訓(xùn)練目標(biāo)和龐大的模型參數(shù),大規(guī)模預(yù)訓(xùn)練模型可以將豐富的知識存儲到大量參數(shù)的隱式編碼中,使其能夠完成多種下游任務(wù),即便是新任務(wù),也能夠通過動態(tài)學(xué)習(xí)來完成。同時,由于采用海量數(shù)據(jù)集和算力來訓(xùn)練模型參數(shù),使得大規(guī)模預(yù)訓(xùn)練模型在單任務(wù)的精度上并不輸小模型。這些特性使得大規(guī)模預(yù)訓(xùn)練模型具備了廣泛適用性,AI技術(shù)“即插即用”成為一個可行的選項(xiàng)。借助大規(guī)模預(yù)訓(xùn)練模型,企業(yè)應(yīng)用AI技術(shù)的前期投入將大幅下降。其不再需要前期就投入大量資金和時間研發(fā)定制化模型,相反,其可以直接嘗試大規(guī)模預(yù)訓(xùn)練模型來實(shí)現(xiàn)自己的需求,并根據(jù)嘗試的成效來決定下一步的應(yīng)用開發(fā)計(jì)劃。值得一提的是,盡管大規(guī)模預(yù)訓(xùn)練模型的研發(fā)成本高昂,但其使用成本相對低廉。由于無需定制化微調(diào),如GPT-3等大規(guī)模預(yù)訓(xùn)練模型都可以通過網(wǎng)絡(luò)接口直接調(diào)用,企業(yè)僅需根據(jù)模型處理的數(shù)據(jù)量進(jìn)行付費(fèi)即可。以GPT-3的定價為例,使用該模型處理相當(dāng)于莎士比亞全集(約90萬個單詞)的數(shù)據(jù)量,大約需要花費(fèi)50美元至60美元。對于中小企業(yè)而言,這個成本是完全可以接受的。也正因如此,GPT-3面世不到一年,就有300多個應(yīng)用使用其服務(wù)?;蛟S在不遠(yuǎn)的將來,大規(guī)模預(yù)訓(xùn)練模型的使用將推動AI技術(shù)的又一波應(yīng)用高潮。發(fā)展趨勢和對中國的啟示大規(guī)模預(yù)訓(xùn)練模型作為一種新的工業(yè)化研發(fā)思路,與傳統(tǒng)的科研思維有著較大差異。事實(shí)也證明,利用更多的數(shù)據(jù)、更強(qiáng)的算力訓(xùn)練出來的龐大模型,確實(shí)在適用性、有效性方面具有獨(dú)到之處。大規(guī)模預(yù)訓(xùn)練模型的下一步發(fā)展趨勢也將秉承著工業(yè)化思維,在通用性和成本效益兩個方面進(jìn)一步發(fā)力,從而驅(qū)動人工智能在更大范圍內(nèi)普及應(yīng)用。在通用性方面,大規(guī)模預(yù)訓(xùn)練模型正逐步從自然語言處理向更多領(lǐng)域拓展。一方面是在更多領(lǐng)域采用大規(guī)模預(yù)訓(xùn)練模型的研發(fā)思路,例如谷歌在2020年發(fā)布的BiT模型就使用了3億張圖片規(guī)模的超大數(shù)據(jù)集JFT-300M,該模型在多項(xiàng)任務(wù)上都刷新了當(dāng)時的最好結(jié)果。另一方面,研究人員也在嘗試讓預(yù)訓(xùn)練模型完成跨領(lǐng)域任務(wù)。例如,OpenAI在GPT-3之后發(fā)布文本-圖像的DALL·E和CLIP模型,探索將GPT-3從語言領(lǐng)域拓展到語言+視覺領(lǐng)域;谷歌則推出多任務(wù)統(tǒng)一模型MUM,以此來實(shí)現(xiàn)文本和圖像搜索任務(wù)的統(tǒng)一處理。而橫跨文本、圖像、語音、視頻的全模態(tài)通用模型將是今后的發(fā)展目標(biāo)。在成本效益方面,如何降低大規(guī)模預(yù)訓(xùn)練模型的使用成本將成為企業(yè)研發(fā)的另一個重點(diǎn),其核心在于提高計(jì)算效率。一方面可以通過定制AI專用計(jì)算芯片來降低使用成本,例如谷歌自研的TPU(TensorProcessingUnit,張量處理單元)芯片可以使成本降低38%;另一方面,在軟件層面,企業(yè)也可通過升級并行計(jì)算策略、數(shù)據(jù)調(diào)用策略,或者開發(fā)更適合大規(guī)模訓(xùn)練的深度學(xué)習(xí)框架來提升計(jì)算效率,從而降低模型使用成本,Pytorch(臉書發(fā)布的深度學(xué)習(xí)框架)和TensorFlow(谷歌的深度學(xué)習(xí)框架)的更新也順應(yīng)了這一趨勢。對于我國而言,面對大規(guī)模預(yù)訓(xùn)練模型與人工智能技術(shù)應(yīng)用的發(fā)展趨勢,可從以下幾個方面做出應(yīng)對、支持企業(yè)創(chuàng)新:一是支持大規(guī)模數(shù)據(jù)集的建立。大模型的研發(fā)離不開大數(shù)據(jù)的支持。短期內(nèi),可以項(xiàng)目的形式扶持研究人員建立大規(guī)模訓(xùn)練數(shù)據(jù)集。長期來看,可以通過完善數(shù)據(jù)市場、鼓勵有價值數(shù)據(jù)自由流動與匯聚,來確保數(shù)據(jù)集的維護(hù)與更新,從而支持人工智能的進(jìn)一步研究。二是以多種方式降低算力成本。計(jì)算資源的高成本是制約大規(guī)模預(yù)訓(xùn)練模型研發(fā)與使用的重要瓶頸。一方面,應(yīng)加大投入支持軟硬件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論