版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
浙江省普通本科高?!笆奈濉敝攸c(diǎn)教材建設(shè)成果之一大語言模型基礎(chǔ)大語言模型基礎(chǔ)周蘇教授QQ:81505050第3章大模型架構(gòu)大語言模型的底層邏輯包括深度學(xué)習(xí)架構(gòu)、訓(xùn)練機(jī)制與應(yīng)用場(chǎng)景等。近年來,通過擴(kuò)大數(shù)據(jù)大小和模型大小,大模型取得顯著進(jìn)展,提高了驚人的涌現(xiàn)能力,包括上下文學(xué)習(xí)(ICL)、指令微調(diào)和思維鏈(CoT)。不過,盡管大模型在自然語言處理任務(wù)中表現(xiàn)出了令人驚訝的零樣本/少樣本推理性能,但它們天生“視而不見”,因?yàn)橥ǔV荒芾斫怆x散文本。第3章大模型架構(gòu)盡管如此,研究界還是做出了許多努力來開發(fā)有能力的多模態(tài)大模型,展示了一些令人驚訝的實(shí)用能力,例如基于圖像編寫網(wǎng)站代碼,理解模因(指能通過模仿而被復(fù)制的信息或思想,小到一條回答,一段流行歌曲旋律,一首古詩(shī),一個(gè)笑話,一幅圖片,大到一個(gè)習(xí)俗,一個(gè)節(jié)日,一個(gè)思想,一個(gè)主義)的深層含義,以及數(shù)學(xué)推理。第3章大模型架構(gòu)01大模型生成原理02多模態(tài)語言模型03大模型的結(jié)構(gòu)04應(yīng)用技術(shù)架構(gòu)目錄/CONTENTS05OpenAI的Sora大模型PART01大模型生成原理簡(jiǎn)單來說,GPT(生成式預(yù)訓(xùn)練)大模型是一種基于深度學(xué)習(xí)的自然語言處理模型,它生成文本(文生文)結(jié)果的原理,就是通過學(xué)習(xí)語言的規(guī)律,然后根據(jù)已有的語境(上文),預(yù)測(cè)下一個(gè)單詞(頻率),從而生成連貫的文本。這一點(diǎn),和人類說話或?qū)懳恼率穷愃频摹?/p>
圖3-1通過預(yù)測(cè)生成文本3.1大模型生成原理借助于群體智能,GPT模型的學(xué)習(xí)能力和生成能力已經(jīng)遠(yuǎn)超人類。比如,人類對(duì)話中,“我”后面通常會(huì)跟“是”,“你”后面通常會(huì)跟“好”等等,這就是一種語言規(guī)律。GPT模型通過類似方式來學(xué)習(xí)語言規(guī)律。在模型訓(xùn)練過程中,GPT模型會(huì)閱讀大量,甚至是數(shù)以億計(jì)的文本數(shù)據(jù),從中學(xué)習(xí)到文本中非常復(fù)雜的語言規(guī)律。這就是為什么GPT模型可以生成非常自然、連貫文本的原理。3.1大模型生成原理GPT模型的內(nèi)部結(jié)構(gòu)由多層神經(jīng)網(wǎng)絡(luò)組成,每一層神經(jīng)網(wǎng)絡(luò)都可以抽取文本的某種特征。(1)第一層神經(jīng)網(wǎng)絡(luò)可能會(huì)抽取出單詞的拼寫規(guī)律;(2)第二層神經(jīng)網(wǎng)絡(luò)可能會(huì)抽取出詞性的規(guī)律;(3)第三層神經(jīng)網(wǎng)絡(luò)可能會(huì)抽取出句子的語法規(guī)律等等。通過層層抽取,GPT模型可以學(xué)習(xí)到深層次的語言規(guī)律。其工作原理還涉及到很多復(fù)雜的數(shù)學(xué)和計(jì)算機(jī)科學(xué)知識(shí)。3.1大模型生成原理GPT-3模型展現(xiàn)了一些大模型才具備的突現(xiàn)能力(就是模型規(guī)模必須得增大到一定程度才會(huì)顯現(xiàn)的能力,比如至少百億級(jí)),其中一項(xiàng)能力就是上下文學(xué)習(xí)。該能力簡(jiǎn)單來說就是,對(duì)于一個(gè)預(yù)訓(xùn)練好的大模型,遷移到新任務(wù)上的時(shí)候,并不需要重新訓(xùn)練,而只需要給模型提供任務(wù)描述(這個(gè)任務(wù)描述是可選項(xiàng)),輸入幾個(gè)示例(輸入-輸出對(duì)),最后加上要模型回答的查詢,模型就能為新輸入生成正確輸出查詢對(duì)應(yīng)的答案,而不需要對(duì)模型做微調(diào)。這也引發(fā)了研究人員對(duì)該能力產(chǎn)生原因的思考和探索。3.1.1上下文學(xué)習(xí)GPT-n系列的模型都屬于自回歸類的語言模型,就是根據(jù)當(dāng)前輸入預(yù)測(cè)下一個(gè)詞,然后將預(yù)測(cè)結(jié)果和輸入拼接再當(dāng)作模型的輸入預(yù)測(cè)下一個(gè)詞,這樣循環(huán)往復(fù)。而自回歸模型的訓(xùn)練目標(biāo)也很簡(jiǎn)單,就是從超大規(guī)模語料庫(kù)中采樣訓(xùn)練樣本,模型根據(jù)輸入輸出一個(gè)概率向量(包含所有詞的預(yù)測(cè)概率,就GPT-3模型而言,維度約1千多萬),而因?yàn)槲谋緮?shù)據(jù)自帶標(biāo)注,所以知道真實(shí)的下一個(gè)詞。然后,研究人員發(fā)現(xiàn),預(yù)訓(xùn)練好的GPT-3模型擁有一項(xiàng)神奇的能力,后來就被稱為上下文學(xué)習(xí)。3.1.1上下文學(xué)習(xí)比如,現(xiàn)在想用GPT-3來做個(gè)翻譯任務(wù),將英文翻譯為法文。輸入的格式如右圖所示。圖3-2GPT-3的翻譯任務(wù)格式3.1.1上下文學(xué)習(xí)首先第一行是對(duì)任務(wù)描述,告訴模型要做翻譯,接下來三行是示例,英文單詞和對(duì)應(yīng)的法文單詞對(duì),最后一行是待翻譯的英文單詞。將以上內(nèi)容整體作為GPT-3的輸入,讓模型去補(bǔ)全輸出就能得到cheese對(duì)應(yīng)的法文單詞。上下文學(xué)習(xí)非常靈活,除了翻譯任務(wù),還可以做語法修飾甚至寫代碼。而神奇的地方在于,GPT-3的訓(xùn)練過程中并沒有顯式地提供類似測(cè)試階段任務(wù)描述加示例這樣的訓(xùn)練數(shù)據(jù)。3.1.1上下文學(xué)習(xí)當(dāng)然,GPT-3的訓(xùn)練數(shù)據(jù)量非常巨大(比如包含維基百科、書本期刊上的討論等),或許里面已經(jīng)包含了各種任務(wù)類似結(jié)構(gòu)的數(shù)據(jù)。GPT-3模型容量足夠大,記下了所有訓(xùn)練數(shù)據(jù)。對(duì)于上下文學(xué)習(xí)能力的成因,目前還是一個(gè)開放性的問題。為什么只有大規(guī)模的語言模型才會(huì)具備這樣的能力?或許只有模型參數(shù)量和訓(xùn)練數(shù)據(jù)量都足夠大,模型才能顯現(xiàn)出該能力。3.1.1上下文學(xué)習(xí)指令微調(diào)(又稱指令跟隨)是一種通過在由(指令,輸出)對(duì)組成的數(shù)據(jù)集結(jié)構(gòu)上進(jìn)一步訓(xùn)練大模型的過程,以增強(qiáng)大模型的能力和可控性。其中,指令代表模型的人類指令,輸出代表遵循指令的期望輸出。這種結(jié)構(gòu)使得指令微調(diào)專注于讓模型理解和遵循人類指令。這個(gè)過程有助于彌合大模型的下一個(gè)詞預(yù)測(cè)目標(biāo)與用戶讓大模型遵循人類指令的目標(biāo)之間的差距。指令微調(diào)可以被視為有監(jiān)督微調(diào)的一種特殊形式。但是,它們的目標(biāo)依然有差別。有監(jiān)督微調(diào)是一種使用標(biāo)記數(shù)據(jù)對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)的過程,以便模型能夠更好地執(zhí)行特定任務(wù)。3.1.2指令微調(diào)舉個(gè)例子,公司門禁系統(tǒng)用了人臉識(shí)別,而你只提供了一張照片,門禁系統(tǒng)就能從各個(gè)角度認(rèn)出你,這就是單一樣本??梢园褑我粯颖纠斫鉃橛?條數(shù)據(jù)微調(diào)模型。在人臉識(shí)別場(chǎng)景里,單一樣本很常見。在自然語言處理場(chǎng)景中,用百度百科、維基百科上的數(shù)據(jù)、新聞等訓(xùn)練一個(gè)GPT模型,直接拿來做對(duì)話任務(wù),這個(gè)就是零樣本(完全的無監(jiān)督學(xué)習(xí))。然后,如果發(fā)現(xiàn)里面胡說八道有點(diǎn)多,于是找一些人標(biāo)注少量?jī)?yōu)質(zhì)數(shù)據(jù)喂進(jìn)去,這就是少樣本。ChatGPT的發(fā)展就經(jīng)歷了從零樣本到少樣本的過程。3.1.3零樣本/少樣本GPT-3之后的問題,是少樣本時(shí)到底應(yīng)該標(biāo)注哪些數(shù)據(jù)?將它們跟強(qiáng)化學(xué)習(xí)結(jié)合起來,就是人類反饋強(qiáng)化學(xué)習(xí),這是ChatGPT的核心技術(shù)。這套方法本質(zhì)的目的是:如何把機(jī)器的知識(shí)與人的知識(shí)對(duì)齊。然后開創(chuàng)了一個(gè)新的方向,叫“對(duì)準(zhǔn)”。3.1.3零樣本/少樣本“模型”是現(xiàn)實(shí)化的一種數(shù)學(xué)公式抽象。即使深度學(xué)習(xí)的出發(fā)點(diǎn)是更深層次的神經(jīng)網(wǎng)絡(luò),但細(xì)分起來也會(huì)有非常多的不同模型(也就是不同的抽象問題的方式)。對(duì)應(yīng)不同的數(shù)學(xué)公式,比如常見的CNN(卷積神經(jīng)網(wǎng)絡(luò))、DNN(深度神經(jīng)網(wǎng)絡(luò))等。大模型就是模型中比較“大”的那一類,大的具體含義也就是數(shù)學(xué)公式更復(fù)雜,參數(shù)更多。3.1.4深度學(xué)習(xí)架構(gòu)2021年8月份,李飛飛等學(xué)者聯(lián)名發(fā)表一份200多頁(yè)的研究報(bào)告《論基礎(chǔ)模型的機(jī)遇與風(fēng)險(xiǎn)》,詳細(xì)描述了大規(guī)模預(yù)訓(xùn)練模型面臨的機(jī)遇和挑戰(zhàn)。文章中大模型被統(tǒng)一命名為“基礎(chǔ)模型”。該論文肯定了基礎(chǔ)模型對(duì)智能體基本認(rèn)知能力的推動(dòng)作用。2017年Transformer架構(gòu)的提出,使得深度學(xué)習(xí)模型參數(shù)突破了1億,BERT網(wǎng)絡(luò)模型超過3億規(guī)模,GPT-3模型超過百億,大模型蓬勃發(fā)展,已經(jīng)出現(xiàn)多個(gè)參數(shù)超過千億的大模型。參數(shù)量多,學(xué)習(xí)的數(shù)據(jù)量更多,模型的泛化能力更強(qiáng)。泛化能力通俗來講就是一專多能,可以完成多個(gè)不同的任務(wù)。3.1.4深度學(xué)習(xí)架構(gòu)(1)詞嵌入層。大模型使用詞嵌入技術(shù)將文本中的每個(gè)詞匯轉(zhuǎn)化為高維向量,確保模型可以處理連續(xù)的符號(hào)序列。這些向量不僅編碼了詞匯本身的含義,還考慮了語境下的潛在關(guān)聯(lián)。(2)位置編碼。為了解決序列信息中詞語順序的問題,Transformer引入位置編碼機(jī)制,允許模型理解并記住單詞之間的相對(duì)或絕對(duì)位置關(guān)系,即使在轉(zhuǎn)換成固定長(zhǎng)度向量后也能保留上下文信息。3.1.4深度學(xué)習(xí)架構(gòu)(3)自注意力機(jī)制。自注意力是Transformer的核心部件,通過計(jì)算輸入序列中每個(gè)位置的單詞與其他所有位置單詞的相關(guān)性,從而實(shí)現(xiàn)對(duì)整個(gè)句子的全局建模。多頭自注意力擴(kuò)展了這一機(jī)制,使其能夠從不同視角捕獲并整合信息。(4)前饋神經(jīng)網(wǎng)絡(luò)(FFN)。在自注意力層之后,模型通常會(huì)包含一個(gè)或多個(gè)全連接的前饋神經(jīng)網(wǎng)絡(luò)層,用于進(jìn)一步提煉和組合特征,增強(qiáng)模型對(duì)復(fù)雜語言結(jié)構(gòu)的理解和表達(dá)能力。3.1.4深度學(xué)習(xí)架構(gòu)大量實(shí)驗(yàn)證明,在高質(zhì)量的訓(xùn)練語料進(jìn)行指令微調(diào)的前提下,超過百億參數(shù)量的模型才具備一定的涌現(xiàn)能力,尤其是在一些復(fù)雜的推理任務(wù)上。也就是說,如果為通過大模型技術(shù)來提升業(yè)務(wù)指標(biāo),不得不要求我們?nèi)ビ?xùn)練一個(gè)百億規(guī)模的模型。然而,一般情況下人們并不具備如此大規(guī)模的計(jì)算資源,在有限算力條件下訓(xùn)練或推理一個(gè)百億量級(jí)的大模型是不太現(xiàn)實(shí)的。因此,要在訓(xùn)練和推理階段采用一些優(yōu)化策略來解決此類問題,以在有限計(jì)算資源條件下完成自己的大模型訓(xùn)練任務(wù)。3.1.5訓(xùn)練策略及優(yōu)化技術(shù)(1)自我監(jiān)督學(xué)習(xí)。利用大規(guī)模無標(biāo)簽文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練時(shí),采用如掩碼語言模型(MaskedLanguageModel,MLM)或自回歸模型(GPT-style)等策略。MLM通過對(duì)部分詞匯進(jìn)行遮蔽并讓模型預(yù)測(cè)被遮蔽的內(nèi)容來學(xué)習(xí)語言表征,而自回歸模型則是基于歷史信息預(yù)測(cè)下一個(gè)詞的概率。(2)微調(diào)階段。預(yù)訓(xùn)練完成后,模型在特定任務(wù)上進(jìn)行微調(diào)以適應(yīng)具體需求。它涉及文本分類、問答系統(tǒng)、機(jī)器翻譯等各種下游任務(wù),通過梯度反向傳播調(diào)整模型參數(shù)提升任務(wù)性能。3.1.5訓(xùn)練策略及優(yōu)化技術(shù)(3)先進(jìn)的訓(xùn)練方法。包括對(duì)比學(xué)習(xí),利用正負(fù)樣本對(duì)強(qiáng)化模型識(shí)別和區(qū)分關(guān)鍵信息的能力,以及增強(qiáng)學(xué)習(xí),使模型通過與環(huán)境交互,逐步優(yōu)化其輸出以最大化預(yù)期獎(jiǎng)勵(lì)。3.1.5訓(xùn)練策略及優(yōu)化技術(shù)人類和動(dòng)物能夠通過觀察,簡(jiǎn)單交互以及無監(jiān)督方式學(xué)習(xí)世界知識(shí),可以假設(shè)這里面蘊(yùn)含的潛在能力構(gòu)成了常識(shí)的基礎(chǔ),這種常識(shí)能夠讓人類在陌生的環(huán)境下完成任務(wù)。例如一位年輕司機(jī)從來沒有在雪地里開過車,但是他卻知道在雪地里如果車開的太猛,輪胎會(huì)打滑。3.1.6所謂世界模型早在幾十年前,就有學(xué)者研究人類、動(dòng)物甚至智能系統(tǒng)如何“借力”世界模型,自我學(xué)習(xí)。因此,當(dāng)前人工智能也面臨著重新設(shè)計(jì)學(xué)習(xí)范式和架構(gòu),使機(jī)器能夠以自我監(jiān)督的方式學(xué)習(xí)世界模型,然后使用這些模型進(jìn)行預(yù)測(cè)、推理和規(guī)劃。世界模型需要融合不同的學(xué)科的觀點(diǎn),包括但不限于認(rèn)知科學(xué)、系統(tǒng)神經(jīng)科學(xué)、最優(yōu)控制、強(qiáng)化學(xué)習(xí)以及“傳統(tǒng)”人工智能。必須將它們與機(jī)器學(xué)習(xí)的新概念相結(jié)合,如自監(jiān)督學(xué)習(xí)和聯(lián)合嵌入架構(gòu)。3.1.6所謂世界模型PART02多模態(tài)語言模型所謂多模態(tài),指的是多種模態(tài)的信息,包括文本、圖像、視頻、音頻等。在大多數(shù)工作中主要是處理圖像和文本形式的數(shù)據(jù),即把視頻數(shù)據(jù)轉(zhuǎn)為圖像,把音頻數(shù)據(jù)轉(zhuǎn)為文本格式,這就涉及到圖像和文本領(lǐng)域的內(nèi)容。顧名思義,多模態(tài)研究的是這些不同類型的數(shù)據(jù)的融合問題。3.2多模態(tài)語言模型一般大模型是一種生成文字的模型,它和文生圖比如DALL·E都是多模態(tài)語言模型的分支。多模態(tài)大語言模型(MultimodelLLM,MLLM)是近年來興起的一個(gè)新的研究熱點(diǎn),它利用強(qiáng)大的大模型(LLM)作為大腦來執(zhí)行多模態(tài)任務(wù)。MLLM令人驚訝的新興能力,如基于圖像寫故事和數(shù)學(xué)推理,在傳統(tǒng)方法中是罕見的,顯示了一條通往人工通用智能的潛在道路。3.2多模態(tài)語言模型與此同時(shí),大型視覺基礎(chǔ)模型在感知方面進(jìn)展迅速,而傳統(tǒng)的與文本的結(jié)合更注重模態(tài)對(duì)齊和任務(wù)統(tǒng)一,在推理方面發(fā)展緩慢。鑒于這種互補(bǔ)性,單模態(tài)大模型和視覺模型同時(shí)朝著彼此運(yùn)行,最終造就了MLLM新領(lǐng)域。形式上,MLLM指的是基于大模型的模型,該模型能夠接收多模態(tài)信息并對(duì)其進(jìn)行推理。從發(fā)展人工通用智能的角度來看,MLLM比大模型更進(jìn)一步。3.2多模態(tài)語言模型(1)MLLM更符合人類感知世界的方式。人類自然地接受多感官輸入,這些輸入往往是互補(bǔ)和合作的。因此,多模態(tài)信息有望使MLLM更加智能。(2)MLLM提供了一個(gè)用戶友好性更好的界面。得益于多模態(tài)輸入的支持,用戶可以更靈活地與智能助手進(jìn)行交互。(3)MLLM是一個(gè)更全面的任務(wù)解決者。雖然大模型通??梢詧?zhí)行自然語言處理任務(wù),但MLLM通常可以支持更大范圍的任務(wù)。3.2多模態(tài)語言模型具有代表性的MLLM可以分為4種主要類型:(1)多模態(tài)指令調(diào)整(MIT)。(2)多模態(tài)上下文學(xué)習(xí)(M-ICL)。(3)多模態(tài)思維鏈(M-CoT)。前三個(gè)構(gòu)成了MLLM的基本原理,三種技術(shù)相對(duì)獨(dú)立,并且可以組合使用。(4)大模型輔助視覺推理(LAVR)。這是以大模型為核心的多模態(tài)系統(tǒng)。3.2多模態(tài)語言模型指令是指對(duì)任務(wù)的描述。指令微調(diào)是一種涉及在指令格式數(shù)據(jù)集集合上微調(diào)預(yù)訓(xùn)練大模型的技術(shù)。通過這種方式進(jìn)行調(diào)整,大模型可以通過遵循新的指令來泛化到隱藏的任務(wù),從而提高零樣本性能。這個(gè)簡(jiǎn)單而有效的想法引發(fā)了自然語言處理領(lǐng)域后續(xù)工作的成功,如ChatGPT。3.2.1多模態(tài)指令微調(diào)監(jiān)督微調(diào)方法通常需要許多特定任務(wù)的數(shù)據(jù)來訓(xùn)練特定任務(wù)的模型。提示方法減少了對(duì)大規(guī)模數(shù)據(jù)的依賴,并且可以通過提示來完成專門的任務(wù)。在這種情況下,少樣本性能得到了改進(jìn),但零樣本性能仍然相當(dāng)平均。不同的是,指令微調(diào)學(xué)習(xí)泛化任務(wù),而不局限于適應(yīng)特定的任務(wù),指令調(diào)整與多任務(wù)提示高度相關(guān)。許多研究工作探索了將大模型中的指令調(diào)整的成功擴(kuò)展到多模態(tài)。從單模態(tài)擴(kuò)展到多模態(tài),數(shù)據(jù)和模型都需要進(jìn)行相應(yīng)的調(diào)整。3.2.1多模態(tài)指令微調(diào)研究人員通常通過調(diào)整現(xiàn)有的基準(zhǔn)數(shù)據(jù)集或自學(xué)習(xí)來獲取數(shù)據(jù)集,一種常見的方法是將外來模態(tài)的信息注入大模型,并將其視為強(qiáng)有力的推理機(jī)。相關(guān)工作要么直接將外來模態(tài)嵌入與大模型對(duì)齊,要么求助于專家模型將外來模態(tài)翻譯成大模型可以吸收的自然語言。通過這種方式,這些工作通過多模態(tài)指令調(diào)整將大模型轉(zhuǎn)換為多模態(tài)通用任務(wù)求解器。3.2.1多模態(tài)指令微調(diào)多模態(tài)上下文學(xué)習(xí)是大模型重要的涌現(xiàn)能力之一。上下文學(xué)習(xí)有兩個(gè)好的特點(diǎn):(1)與傳統(tǒng)的從豐富的數(shù)據(jù)中學(xué)習(xí)內(nèi)隱模態(tài)的監(jiān)督學(xué)習(xí)范式不同,上下文學(xué)習(xí)的關(guān)鍵是從類比中學(xué)習(xí)。具體而言,在上下文學(xué)習(xí)設(shè)置中,大模型從幾個(gè)例子和可選指令中學(xué)習(xí),并推斷出新的問題,從而以少量方式解決復(fù)雜和隱含的任務(wù)。3.2.2多模態(tài)上下文學(xué)習(xí)(2)上下文學(xué)習(xí)通常以無訓(xùn)練的方式實(shí)現(xiàn),因此可以在推理階段靈活地集成到不同的框架中,指令調(diào)整技術(shù)可以增強(qiáng)上下文學(xué)習(xí)的能力。在此背景下,學(xué)習(xí)擴(kuò)展到更多模態(tài),在推理時(shí)可以通過向原始樣本添加一個(gè)演示集,即一組上下文中的樣本來實(shí)現(xiàn)多模態(tài)上下文學(xué)習(xí)。3.2.2多模態(tài)上下文學(xué)習(xí)多模態(tài)上下文學(xué)習(xí)主要用于兩種場(chǎng)景:(1)解決各種視覺推理任務(wù)。通常包括從幾個(gè)特定任務(wù)的例子中學(xué)習(xí),并概括為一個(gè)新的但相似的問題。根據(jù)說明和演示中提供的信息,大模型可以了解任務(wù)在做什么以及輸出模板是什么,并最終生成預(yù)期的答案。相比之下,工具使用的示例通常是純文本的,而且更具細(xì)粒度。它們通常包括一系列步驟,這些步驟可以按順序執(zhí)行以完成任務(wù)。(2)教大模型使用外部工具。這種情況與思維鏈(CoT)密切相關(guān)。3.2.2多模態(tài)上下文學(xué)習(xí)思維鏈(CoT)是“一系列中間推理步驟”,已被證明在復(fù)雜推理任務(wù)中是有效的。其主要思想是促使大模型不僅輸出最終答案,而且輸出導(dǎo)致答案的推理過程,類似于人類的認(rèn)知過程。受自然語言處理成功的啟發(fā),已經(jīng)提出了多項(xiàng)工作來將單模態(tài)CoT擴(kuò)展到多模態(tài)CoT(M-CoT)。(1)模態(tài)橋接。為了將自然語言處理轉(zhuǎn)移到多模態(tài),模態(tài)橋接是第一個(gè)需要解決的問題。大致有兩種方法可以實(shí)現(xiàn)這一點(diǎn):通過融合特征或通過將視覺輸入轉(zhuǎn)換為文本描述。3.2.3多模態(tài)思維鏈(2)學(xué)習(xí)范式。獲得M-CoT能力的方法大致有三種,即通過微調(diào)和無訓(xùn)練的少樣本或者無樣本學(xué)習(xí)。三種方式的樣本量要求按降序排列。微調(diào)方法通常涉及為M-CoT學(xué)習(xí)管理特定的數(shù)據(jù)集。例如,ScienceQA構(gòu)建了一個(gè)包含講座和解釋的科學(xué)問答數(shù)據(jù)集,該數(shù)據(jù)集可以作為學(xué)習(xí)CoT推理的來源,并對(duì)提出的數(shù)據(jù)集進(jìn)行微調(diào)。多模態(tài)CoT也使用ScienceQA基準(zhǔn),但以兩步方式生成輸出,即基本原理(推理步驟鏈)和基于基本原理的最終答案。CoT通過快速調(diào)整和特定步驟視覺偏見的組合來學(xué)習(xí)隱含的推理鏈。3.2.3多模態(tài)思維鏈與微調(diào)相比,少樣本/零樣本學(xué)習(xí)的計(jì)算效率更高。主要區(qū)別在于,少樣本學(xué)習(xí)通常需要人工準(zhǔn)備一些上下文例子,使模型更容易一步一步地學(xué)習(xí)推理。零樣本學(xué)習(xí)不需要任何具體學(xué)習(xí)示例。它通過提示“讓作者逐幀思考”或“這兩個(gè)關(guān)鍵幀之間發(fā)生了什么”等設(shè)計(jì)指令,模型學(xué)會(huì)在沒有明確指導(dǎo)的情況下利用嵌入的知識(shí)和推理能力。類似地,一些工作提示模型描述任務(wù)和工具使用情況,將復(fù)雜任務(wù)分解為子任務(wù)。3.2.3多模態(tài)思維鏈?zhǔn)芄ぞ咴鰪?qiáng)大模型成功的啟發(fā),一些研究探索了調(diào)用外部工具或視覺基礎(chǔ)模型進(jìn)行視覺推理任務(wù)的可能性,將大模型作為具有不同角色的助手,構(gòu)建特定任務(wù)或通用的視覺推理系統(tǒng)。與傳統(tǒng)的視覺推理模型相比,這些工作表現(xiàn)出幾個(gè)良好的特點(diǎn):(1)較強(qiáng)的泛化能力。這些系統(tǒng)配備了從大規(guī)模預(yù)訓(xùn)練中學(xué)習(xí)到的豐富的開放世界知識(shí),可以很容易地推廣到具有顯著Zero/FewShot性能的看不見的物體或概念。3.2.4大模型輔助視覺推理(2)突發(fā)能力。在強(qiáng)大推理能力和豐富大模型知識(shí)的幫助下,這些系統(tǒng)能夠執(zhí)行復(fù)雜的任務(wù)。例如,給定一張圖片,MM-REAT可以解釋表面下的含義,比如解釋為什么一個(gè)模因很有趣。(3)更好的交互性和控制力。傳統(tǒng)模型控制機(jī)制有限,并且通常需要昂貴的策劃數(shù)據(jù)集。相比之下,基于大模型的系統(tǒng)能夠在用戶友好的界面中進(jìn)行精細(xì)控制(例如點(diǎn)擊)。3.2.4大模型輔助視覺推理PART03大模型的結(jié)構(gòu)當(dāng)前,絕大多數(shù)大模型都采用類似GPT的架構(gòu),使用基于Transformer架構(gòu)的深度學(xué)習(xí)模型構(gòu)建的僅由解碼器組成的網(wǎng)絡(luò)結(jié)構(gòu),采用自回歸的方式構(gòu)建語言模型,但是在位置編碼、層歸一化位置、激活函數(shù)等細(xì)節(jié)上各有不同。
圖3-3GPT-2模型結(jié)構(gòu)3.3大模型的結(jié)構(gòu)大模型結(jié)構(gòu)的核心組成部分和特點(diǎn)如下。(1)Transformer架構(gòu):包括:?自注意力機(jī)制:這是Transformer的核心,允許模型在處理輸入序列時(shí)考慮序列中所有位置的上下文,從而捕捉長(zhǎng)距離依賴關(guān)系。?多頭注意力:通過并行執(zhí)行多個(gè)自注意力操作,模型可以從不同表示子空間中捕獲信息,增強(qiáng)模型的注意力能力。?前饋神經(jīng)網(wǎng)絡(luò):每個(gè)注意力層之后跟隨一個(gè)或多個(gè)全連接層,用于進(jìn)一步處理和變換注意力輸出的信息。?位置編碼:由于Transformer是位置不變的架構(gòu),需要加入位置編碼來讓模型理解輸入序列中元素的位置信息。3.3大模型的結(jié)構(gòu)(2)深度堆疊:大模型通常由許多個(gè)Transformer層堆疊而成,每一層都會(huì)對(duì)輸入信息進(jìn)行更深層次的抽象和轉(zhuǎn)化。(3)參數(shù)規(guī)模:大模型的參數(shù)量可達(dá)數(shù)千億甚至更多。這些參數(shù)分布在模型的權(quán)重矩陣中,包括但不限于注意力機(jī)制中的權(quán)重、前饋網(wǎng)絡(luò)的權(quán)重等。3.3大模型的結(jié)構(gòu)(4)預(yù)訓(xùn)練與微調(diào):包括:?預(yù)訓(xùn)練:在大量無標(biāo)注文本數(shù)據(jù)上進(jìn)行自監(jiān)督學(xué)習(xí),典型的預(yù)訓(xùn)練任務(wù)是語言建模,即預(yù)測(cè)句子中下一個(gè)詞是什么,這使得模型能夠?qū)W習(xí)到豐富的語言規(guī)律和模式。?微調(diào):針對(duì)特定下游任務(wù),如問答、翻譯、文本分類等,對(duì)預(yù)訓(xùn)練好的模型進(jìn)行調(diào)整,通常只需要在少量任務(wù)特定數(shù)據(jù)上進(jìn)行額外訓(xùn)練。3.3大模型的結(jié)構(gòu)(5)優(yōu)化技術(shù)和資源需求:訓(xùn)練如此龐大的模型需要高級(jí)的優(yōu)化技術(shù)(如AdamW優(yōu)化器)、分布式訓(xùn)練策略以及大量的計(jì)算資源(GPU/TPU集群)、存儲(chǔ)和帶寬??梢?,大模型的結(jié)構(gòu)設(shè)計(jì)旨在通過深度學(xué)習(xí)和自我注意機(jī)制來高效地捕捉和利用語言的復(fù)雜性和多樣性,其巨大規(guī)模和先進(jìn)的訓(xùn)練方法共同支撐起模型強(qiáng)大的語言理解和生成能力。3.3大模型的結(jié)構(gòu)PART04應(yīng)用技術(shù)架構(gòu)大模型的厲害之處,不僅在于它很像人類的學(xué)習(xí)語言,更大的作用在于它未來會(huì)改變我們的生活和職場(chǎng)?,F(xiàn)有的大模型的整體應(yīng)用架構(gòu),從上往下,從簡(jiǎn)單到復(fù)雜,依次有四種。3.4應(yīng)用技術(shù)架構(gòu)指令工程聽著好像很遙遠(yuǎn),其實(shí)就是通過下面這個(gè)輸入框觸發(fā)的??瓷先ズ?jiǎn)單,但這個(gè)很考驗(yàn)一個(gè)人寫提示(指令)的“功力”。圖3-4指令界面3.4.1指令工程提示的作用就是通過引導(dǎo)模型生成特定類型的文本。一個(gè)好的提示可以引導(dǎo)模型以期望的方式生成文本。例如,如果想讓模型寫一篇關(guān)于全球變暖的文章,我們可以給模型一個(gè)提示,如“全球變暖是一個(gè)嚴(yán)重的問題,因?yàn)椤?,模型?huì)根據(jù)這個(gè)提示生成一篇文章。這種方法的優(yōu)點(diǎn)是簡(jiǎn)單直觀,但缺點(diǎn)是可能需要大量的嘗試才能找到一個(gè)好的提示。3.4.1指令工程函數(shù)調(diào)用是一種更深入的應(yīng)用架構(gòu),它通過調(diào)用模型的內(nèi)部函數(shù),直接獲取模型的某些特性。例如,可以調(diào)用模型的詞向量函數(shù),獲取單詞的詞向量。這種方法的優(yōu)點(diǎn)是可以直接獲取模型的內(nèi)部信息,缺點(diǎn)是需要深入理解模型的內(nèi)部結(jié)構(gòu)。3.4.2函數(shù)調(diào)用檢索增強(qiáng)生成(RAG)是一種結(jié)合檢索和生成的應(yīng)用架構(gòu)。在這種方法中,模型首先會(huì)檢索相關(guān)的文本,然后用這些文本作為輸入,讓模型生成答案。例如,如果我們想讓模型回答一個(gè)關(guān)于全球變暖的問題,模型可以先檢索到一些關(guān)于全球變暖的文章,然后根據(jù)這些文章生成答案。這種方法的優(yōu)點(diǎn)是可以利用大量的外部信息,提高模型的生成質(zhì)量。但缺點(diǎn)是需要大量的計(jì)算資源,因?yàn)樾枰獙?duì)大量的文本進(jìn)行檢索。3.4.3檢索增強(qiáng)生成微調(diào)是一種在特定任務(wù)上進(jìn)一步訓(xùn)練模型的應(yīng)用架構(gòu)。在這種方法中,模型首先會(huì)在大量的文本上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)語言的基本規(guī)律。然后,模型會(huì)在特定任務(wù)的數(shù)據(jù)上進(jìn)行微調(diào),學(xué)習(xí)任務(wù)的特定規(guī)律。例如,我們可以在情感分析任務(wù)上微調(diào)模型,讓模型更好地理解情感。這種方法的優(yōu)點(diǎn)是可以提高模型在特定任務(wù)上的表現(xiàn),缺點(diǎn)是需要大量的標(biāo)注數(shù)據(jù)。3.4.4微調(diào)PART05OpenAI的Sora大模型2024年2月16日,OpenAI發(fā)布Sora視頻生成模型技術(shù),報(bào)告揭示了其背后的強(qiáng)大訓(xùn)練思路和詳細(xì)的技術(shù)特性。
圖3-5文生視頻模型Sora的作品3.5
OpenAI的Sora大模型DALL·E3是OpenAI在2023年9月發(fā)布的一個(gè)文生圖模型。相對(duì)于同類產(chǎn)品的Midjourney以及StableDiffusion,DALL·E3最大的便利之處在于,用戶不需要掌握提示的寫法了,直接自然語言描述即可,甚至還可以直接說出你的想法,DALL·E3會(huì)根據(jù)你的想法自動(dòng)生成提示詞,然后去產(chǎn)生圖片。這對(duì)于剛剛?cè)腴T人工智能繪畫的人來說,可以說非常友好。圖3-6DALL·E3文生圖模型3.5
OpenAI的Sora大模型Sora模型不僅展現(xiàn)了三維空間的連貫性、模擬數(shù)字世界的能力、長(zhǎng)期連續(xù)性和物體持久性,還能與世界互動(dòng),如同真實(shí)存在。其訓(xùn)練過程獲得了大模型的靈感,采用擴(kuò)散型變換器模型,通過將視頻轉(zhuǎn)換為時(shí)空區(qū)塊的方式,實(shí)現(xiàn)了在壓縮的潛在空間上的訓(xùn)練和視頻生成。這種獨(dú)特的訓(xùn)練方法使得Sora能夠創(chuàng)造出質(zhì)量顯著提升的視頻內(nèi)容,無需對(duì)素材進(jìn)行裁切,直接為不同設(shè)備以其原生縱橫比創(chuàng)造內(nèi)容。Sora的推出,無疑為視頻生成領(lǐng)域帶來了革命性的進(jìn)步,其技術(shù)細(xì)節(jié)值得每一位從業(yè)者細(xì)致研究。Sora的技術(shù)報(bào)告里面有OpenAI的訓(xùn)練思路以及Sora詳細(xì)的技術(shù)特性,簡(jiǎn)單來說,Sora的訓(xùn)練量足夠大也產(chǎn)生了類似涌現(xiàn)的能力。3.5.1
Sora技術(shù)報(bào)告分析Sora的主要技術(shù)特點(diǎn)如下。(1)三維空間的連貫性:Sora可以生成帶有動(dòng)態(tài)相機(jī)運(yùn)動(dòng)的視頻。隨著相機(jī)移動(dòng)和旋轉(zhuǎn),人物和場(chǎng)景元素在三維空間中保持連貫的運(yùn)動(dòng)。(2)模擬數(shù)字世界:Sora能模擬人工過程,如視頻游戲。Sora能夠同時(shí)控制Minecraft(游戲網(wǎng)站)中的玩家,并高保真地渲染游戲世界及其動(dòng)態(tài)。通過提及“Minecraft”的提示,可以零樣本地激發(fā)Sora的這些能力。3.5.2
Sora主要技術(shù)特點(diǎn)(3)長(zhǎng)期連續(xù)性和物體持久性:對(duì)視頻生成系統(tǒng)來說,Sora能夠有效地模擬短期和長(zhǎng)期依賴關(guān)系。同樣,它能在一個(gè)樣本中生成同一角色的多個(gè)鏡頭,確保其在整個(gè)視頻中的外觀一致。(4)與世界互動(dòng):Sora有時(shí)能夠模擬對(duì)世界狀態(tài)產(chǎn)生簡(jiǎn)單影響的行為。例如,畫家可以在畫布上留下隨時(shí)間持續(xù)的新筆觸,或者一個(gè)人吃漢堡時(shí)留下咬痕。3.5.2
Sora主要技術(shù)特點(diǎn)Sora的訓(xùn)練受到了大模型的啟發(fā)。這些模型通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行訓(xùn)練,從而獲得了廣泛的能力。其模型訓(xùn)練過程主要包括如下。(1)Sora實(shí)際上是一種擴(kuò)散型變換器模型,它首先將視頻壓縮到一個(gè)低維潛在空間中,然后將這種表現(xiàn)形式分解成時(shí)空區(qū)塊,從而將視頻轉(zhuǎn)換為區(qū)塊。3.5.3
Sora的模型訓(xùn)練過程(2)訓(xùn)練了一個(gè)用于降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)以原始視頻為輸入,輸出在時(shí)間和空間上都被壓縮的潛在表示。Sora在這個(gè)壓縮的潛在空間上進(jìn)行訓(xùn)練,并在此空間中生成視頻。還開發(fā)了一個(gè)對(duì)應(yīng)的解碼器模型,它能將生成的潛在表示映射回到像素空間。3.5.3
Sora的模型訓(xùn)練過程(3)對(duì)于給定的壓縮輸入視頻,提取一系列時(shí)空區(qū)塊,它們?cè)谧儞Q器模型中充當(dāng)詞元。這種方案同樣適用于圖像,因?yàn)閳D像本質(zhì)上是單幀的視頻?;趨^(qū)塊的表示方法使Sora能夠針對(duì)不同分辨率、持續(xù)時(shí)間和縱橫比的視頻和圖像進(jìn)行訓(xùn)練。在推理過程中,可以通過在適當(dāng)大小的網(wǎng)格中排列隨機(jī)初始化的區(qū)塊來控制生成視頻的大小。(4)隨著Sora訓(xùn)練計(jì)算量的增加,樣本質(zhì)量有了顯著提升。Sora訓(xùn)練時(shí)沒有對(duì)素材進(jìn)行裁切,使得Sora能夠直接為不同設(shè)備以其原生縱橫比創(chuàng)造內(nèi)容。3.5.3
Sora的模型訓(xùn)練過程(5)針對(duì)視頻的原生縱橫比進(jìn)行訓(xùn)練,可以提高構(gòu)圖和取景的質(zhì)量。訓(xùn)練文本到視頻的生成系統(tǒng)需要大量配有文本提示的視頻。應(yīng)用了在DALL·E3中引入的重新字幕技術(shù)到視頻上。(6)與DALL·E3相似,也利用了GPT技術(shù),將用戶的簡(jiǎn)短提示轉(zhuǎn)換成更詳細(xì)的提示,然后發(fā)送給視頻模型。3.5.3
Sora的模型訓(xùn)練過程Sora展現(xiàn)的三維空間連貫性和長(zhǎng)期物體持久性,提升了視頻內(nèi)容的真實(shí)感。通過模擬數(shù)字世界和與世界互動(dòng),Sora能夠創(chuàng)造出富有創(chuàng)意的視頻內(nèi)容。Sora的獨(dú)特訓(xùn)練方法及其對(duì)不同縱橫比的原生支持,標(biāo)志著視頻生成技術(shù)的一個(gè)新時(shí)代。3.5.3
Sora的模型訓(xùn)練過程01大模型生成原理02多模態(tài)語言模型03大模型的結(jié)構(gòu)04應(yīng)用技術(shù)架構(gòu)目錄/CONTENTS05OpenAI的Sora大模型大語言模型基礎(chǔ)第3章大模型架構(gòu)浙江省普通本科高?!笆奈濉敝攸c(diǎn)教材建設(shè)成果之一大語言模型基礎(chǔ)大語言模型基礎(chǔ)周蘇教授QQ:81505050第4章人工數(shù)據(jù)標(biāo)注數(shù)據(jù)是人工智能的基礎(chǔ),更是大語言模型源源不斷的養(yǎng)分來源,作為大模型數(shù)據(jù)能力鏈上的重要一環(huán),數(shù)據(jù)標(biāo)注受到重要關(guān)注,這個(gè)環(huán)節(jié)做得如何,直接決定了大模型有多聰明。第4章人工數(shù)據(jù)標(biāo)注大模型領(lǐng)域的領(lǐng)跑者OpenAI在數(shù)據(jù)標(biāo)注上有一套自己的方法,他們的數(shù)據(jù)標(biāo)注方式是先做出預(yù)訓(xùn)練模型,再用強(qiáng)化學(xué)習(xí)加上人工反饋來調(diào)優(yōu),也就是RLHF(從人類反饋中強(qiáng)化學(xué)習(xí))。他們找了很多家數(shù)據(jù)公司來共同完成數(shù)據(jù)標(biāo)注,自己組建一個(gè)由幾十名哲學(xué)博士組成的質(zhì)檢團(tuán)隊(duì),對(duì)標(biāo)注好的數(shù)據(jù)進(jìn)行檢查。數(shù)據(jù)標(biāo)注不是以對(duì)錯(cuò)來評(píng)估,而是給每個(gè)問題選出多個(gè)匹配的結(jié)果,再經(jīng)過多人多輪的結(jié)果排序,直至模型數(shù)據(jù)符合常人思維,甚至某些專業(yè)領(lǐng)域的結(jié)果要達(dá)到特定要求的知識(shí)水平。第4章人工數(shù)據(jù)標(biāo)注01知識(shí)表示方法02什么是數(shù)據(jù)標(biāo)注03數(shù)據(jù)標(biāo)注分類04制定標(biāo)注規(guī)則目錄/CONTENTS05執(zhí)行數(shù)據(jù)標(biāo)注06標(biāo)注團(tuán)隊(duì)管理PART01知識(shí)表示方法知識(shí)是信息接受者通過對(duì)信息的提煉和推理而獲得的正確結(jié)論,是人對(duì)自然世界、人類社會(huì)以及思維方式與運(yùn)動(dòng)規(guī)律的認(rèn)識(shí)與掌握,是人的大腦通過思維重新組合和系統(tǒng)化的信息集合。知識(shí)與知識(shí)表示是人工智能中的一項(xiàng)重要的基本技術(shù),它決定著人工智能如何進(jìn)行知識(shí)學(xué)習(xí)。4.1知識(shí)表示方法在信息時(shí)代,有許多可以處理和存儲(chǔ)大量信息的計(jì)算機(jī)系統(tǒng)。信息包括數(shù)據(jù)和事實(shí)。數(shù)據(jù)、事實(shí)、信息和知識(shí)之間存在著層次關(guān)系。最簡(jiǎn)單的信息片是數(shù)據(jù),從數(shù)據(jù)中,我們可以建立事實(shí),進(jìn)而獲得信息。人們將知識(shí)定義為“處理信息以實(shí)現(xiàn)智能決策”,這個(gè)時(shí)代的挑戰(zhàn)是將信息轉(zhuǎn)換成知識(shí),使之可以用于智能決策。4.1知識(shí)表示方法從便于表示和運(yùn)用的角度出發(fā),可將知識(shí)分為4種類型。(1)對(duì)象(事實(shí)):物理對(duì)象和物理概念,反映某一對(duì)象或一類對(duì)象的屬性,例如,桌子結(jié)構(gòu)=高度、寬度、深度。(2)事件和事件序列(關(guān)于過程的知識(shí)):時(shí)間元素和因果關(guān)系。不光有當(dāng)前狀態(tài)和行為的描述,還有對(duì)其發(fā)展的變化及其相關(guān)條件、因果關(guān)系等描述的知識(shí)。4.1.1知識(shí)的概念(3)執(zhí)行(辦事、操作行為):不僅包括如何完成(步驟)事情的信息,也包括主導(dǎo)執(zhí)行的邏輯或算法的信息。如下棋、證明定理、醫(yī)療診斷等。(4)元知識(shí):即知識(shí)的知識(shí),關(guān)于各種事實(shí)的知識(shí),可靠性和相對(duì)重要性的知識(shí),關(guān)于如何表示知識(shí)和運(yùn)用知識(shí)的知識(shí)。例如,如果你在考試前一天晚上死記硬背,那么關(guān)于這個(gè)主題的知識(shí)的記憶就不會(huì)持續(xù)太久。以規(guī)則形式表示的元知識(shí)稱為元規(guī)則,用來指導(dǎo)規(guī)則的選用。運(yùn)用元知識(shí)進(jìn)行的推理稱為元推理。4.1.1知識(shí)的概念這里的知識(shí)涵義和我們的一般認(rèn)識(shí)有所區(qū)別,它是指以某種結(jié)構(gòu)化方式表示的概念、事件和過程。因此,并不是日常生活中的所有知識(shí)都能夠得以體現(xiàn)的,只有限定了范圍和結(jié)構(gòu),經(jīng)過編碼改造的知識(shí)才能成為人工智能知識(shí)表示中的知識(shí)。4.1.1知識(shí)的概念從數(shù)據(jù)、事實(shí)、信息到知識(shí)的層次頻譜如下圖所示。數(shù)據(jù)可以是沒有附加任何意義或單位的數(shù)字,事實(shí)是具有單位的數(shù)字,信息則是將事實(shí)轉(zhuǎn)化為意義。最終,知識(shí)是高階的信息表示和處理,方便做出復(fù)雜的決策和理解。圖4-1數(shù)據(jù)、事實(shí)、信息和知識(shí)的分層關(guān)系4.1.1知識(shí)的概念“知識(shí)表示”是指把知識(shí)客體中的知識(shí)因子與知識(shí)關(guān)聯(lián)起來,便于人們識(shí)別和理解知識(shí)。知識(shí)表示是知識(shí)組織的前提和基礎(chǔ)。下面我們從內(nèi)涵和外延方法方面進(jìn)行思考,從而了解表示方法的選擇、產(chǎn)生式系統(tǒng)、面向?qū)ο蟮雀拍?。知識(shí)的表示是對(duì)知識(shí)的一種描述,或者說是對(duì)知識(shí)的一組約定,一種計(jì)算機(jī)可以接受的用于描述知識(shí)的數(shù)據(jù)結(jié)構(gòu),是能夠完成對(duì)專家的知識(shí)進(jìn)行計(jì)算機(jī)處理的一系列技術(shù)手段。從某種意義上講,表示可視為數(shù)據(jù)結(jié)構(gòu)及其處理機(jī)制的綜合:表示=數(shù)據(jù)結(jié)構(gòu)+處理機(jī)制4.1.2知識(shí)表示的定義知識(shí)表示包含兩層含義:(1)用給定的知識(shí)結(jié)構(gòu),按一定的原則、組織表示知識(shí);(2)解釋所表示知識(shí)的含義。4.1.2知識(shí)表示的定義對(duì)于人類而言,一個(gè)好的知識(shí)表示應(yīng)該具有以下特征:(1)它應(yīng)該是透明的,即容易理解。(2)無論是通過語言、視覺、觸覺、聲音或者這些組合,都對(duì)我們的感官產(chǎn)生影響。(3)從所表示的世界的真實(shí)情況方面考查,它講述的故事應(yīng)該讓人容易理解。4.1.2知識(shí)表示的定義良好的表示可以充分利用機(jī)器龐大的存儲(chǔ)器和極快的處理速度,即充分利用其計(jì)算能力(具有每秒執(zhí)行數(shù)十億計(jì)算的能力)。知識(shí)表示的選擇與問題的解理所當(dāng)然地綁定在一起,以至于可以通過一種表示使問題的約束和挑戰(zhàn)變得顯而易見(并且得到理解),但是如果使用另一種表示方法,這些約束和挑戰(zhàn)就會(huì)隱藏起來,使問題變得復(fù)雜而難以求解。4.1.2知識(shí)表示的定義一般來說,對(duì)于同一種知識(shí)可以采用不同的表示方法。反過來,一種知識(shí)表示模式可以表達(dá)多種不同的知識(shí)。但在解決某一問題時(shí),不同的表示方法可能產(chǎn)生不同的效果。人工智能中知識(shí)表示方法注重知識(shí)的運(yùn)用,可以粗略地將其分為敘述式表示和過程式表示兩大類。4.1.2知識(shí)表示的定義1.敘述式表示法把知識(shí)表示為一個(gè)靜態(tài)的事實(shí)集合,并附有處理它們的一些通用程序,即敘述式表示描述事實(shí)性知識(shí),給出客觀事物所涉及的對(duì)象是什么。對(duì)于敘述式的知識(shí)表示,它的表示與知識(shí)運(yùn)用(推理)是分開處理的。4.1.2知識(shí)表示的定義敘述式表示法易于表示“做什么”,其優(yōu)點(diǎn)是:(1)形式簡(jiǎn)單、采用數(shù)據(jù)結(jié)構(gòu)表示知識(shí)、清晰明確、易于理解、增加了知識(shí)的可讀性。(2)模塊性好、減少了知識(shí)間的聯(lián)系、便于知識(shí)的獲取、修改和擴(kuò)充。(3)可獨(dú)立使用,這種知識(shí)表示出來后,可用于不同目的。其缺點(diǎn)是不能直接執(zhí)行,需要其他程序解釋它的含義,因此執(zhí)行速度較慢。4.1.2知識(shí)表示的定義2.過程式表示法將知識(shí)用使用它的過程來表示,即過程式表示描述規(guī)則和控制結(jié)構(gòu)知識(shí),給出一些客觀規(guī)律,告訴怎么做,一般可用一段計(jì)算機(jī)程序來描述。例如,矩陣求逆程序,其中表示了矩陣的逆和求解方法的知識(shí)。這種知識(shí)是隱含在程序之中的,機(jī)器無法從程序的編碼中抽出這些知識(shí)。4.1.2知識(shí)表示的定義過程式表示法一般是表示“如何做”的知識(shí)。其優(yōu)點(diǎn)有:(1)可以被計(jì)算機(jī)直接執(zhí)行,處理速度快。(2)便于表達(dá)如何處理問題的知識(shí),易于表達(dá)怎樣高效處理問題的啟發(fā)性知識(shí)。其缺點(diǎn)是:不易表達(dá)大量的知識(shí),且表示的知識(shí)難于修改和理解。4.1.2知識(shí)表示的定義知識(shí)表示的過程如圖4-2所示。其中的“知識(shí)Ⅰ”是指隱性知識(shí)或者使用其他表示方法表示的顯性知識(shí);“知識(shí)Ⅱ”是指使用該種知識(shí)表示方法表示后的顯性知識(shí)。“知識(shí)Ⅰ”與“知識(shí)Ⅱ”的深層結(jié)構(gòu)一致,只是表示形式不同。所以,知識(shí)表示的過程就是把隱性知識(shí)轉(zhuǎn)化為顯性知識(shí)的過程,或者是把知識(shí)由一種表示形式轉(zhuǎn)化成另一種表示形式的過程。圖4-2知識(shí)表示的過程4.1.3知識(shí)表示的過程知識(shí)表示系統(tǒng)通常有兩種元素組成:數(shù)據(jù)結(jié)構(gòu)(包含樹、列表和堆棧等結(jié)構(gòu))和為了使用知識(shí)而需要的解釋性程序(如搜索、排序和組合)。換句話說,系統(tǒng)中必須有便利的用于存儲(chǔ)知識(shí)的結(jié)構(gòu),有用以快速訪問和處理知識(shí)的方式,這樣才能進(jìn)行計(jì)算,得到問題求解、決策和動(dòng)作。4.1.3知識(shí)表示的過程PART02什么是數(shù)據(jù)標(biāo)注人工智能通過機(jī)器學(xué)習(xí)方法大量學(xué)習(xí)已知樣本,有了預(yù)測(cè)能力之后再預(yù)測(cè)未知樣本,以達(dá)到智能化的效果。機(jī)器學(xué)習(xí)主要分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),實(shí)際應(yīng)用中,有監(jiān)督的深度學(xué)習(xí)方式是主流,而無監(jiān)督學(xué)習(xí)因效果不可控而常常被用來做探索性的實(shí)驗(yàn)。監(jiān)督學(xué)習(xí)需要做數(shù)據(jù)標(biāo)注,對(duì)于標(biāo)注數(shù)據(jù)有著強(qiáng)依賴性需求。未經(jīng)標(biāo)注處理過的原始數(shù)據(jù)多以非結(jié)構(gòu)化數(shù)據(jù)為主,這些數(shù)據(jù)難以被機(jī)器識(shí)別和學(xué)習(xí)。只有經(jīng)過標(biāo)注處理后的結(jié)構(gòu)化數(shù)據(jù)才能被算法模型訓(xùn)練使用。人工數(shù)據(jù)標(biāo)注可以說是智能的前提與靈魂。4.2什么是數(shù)據(jù)標(biāo)注簡(jiǎn)單來說,數(shù)據(jù)標(biāo)注的過程就是通過人工標(biāo)注的方式,把需要機(jī)器識(shí)別和分辨的語音、圖片、文本、視頻等數(shù)據(jù)打上標(biāo)簽,進(jìn)行加工處理,為機(jī)器系統(tǒng)提供大量的學(xué)習(xí)樣本,然后讓計(jì)算機(jī)不斷地學(xué)習(xí)這些數(shù)據(jù)的特征,最終實(shí)現(xiàn)計(jì)算機(jī)自主識(shí)別。數(shù)據(jù)標(biāo)注是大部分AI算法得以有效運(yùn)行的關(guān)鍵環(huán)節(jié),想要實(shí)現(xiàn)AI就要先讓計(jì)算機(jī)學(xué)會(huì)理解并具備判斷事物的能力??梢哉f數(shù)據(jù)決定了AI的落地程度,精準(zhǔn)的數(shù)據(jù)集產(chǎn)品和高度定制化數(shù)據(jù)服務(wù)更是受到各大企業(yè)的重視。4.2什么是數(shù)據(jù)標(biāo)注大模型數(shù)據(jù)標(biāo)注的特點(diǎn)主要如下。(1)非結(jié)構(gòu)化。早期的數(shù)據(jù)標(biāo)注工作主要以“打點(diǎn)”和“畫框”為主,就是讓機(jī)器學(xué)習(xí)什么是“人臉”,什么是“障礙物”,需要嚴(yán)格按照客戶給定的標(biāo)注規(guī)范進(jìn)行,標(biāo)注要求也偏客觀。大模型標(biāo)注則更像是在做閱讀理解,模型學(xué)習(xí)應(yīng)該給出什么樣的內(nèi)容,大模型生成的多個(gè)結(jié)果哪個(gè)更接近滿分答案,標(biāo)注要求偏主觀,難以形成統(tǒng)一的標(biāo)準(zhǔn)。4.2什么是數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)從客觀到主觀,使得標(biāo)注工作更困難,這非??简?yàn)標(biāo)注師的主觀能動(dòng)性以及解決問題的能力,而且標(biāo)注師需要具備很廣的知識(shí)面,數(shù)據(jù)標(biāo)注工作不再是個(gè)結(jié)構(gòu)化的簡(jiǎn)單工作,而變成了需要邏輯思維的非結(jié)構(gòu)化工作。4.2什么是數(shù)據(jù)標(biāo)注(2)知識(shí)密集型。大模型背景下的標(biāo)注工作主要分為兩類:通識(shí)大模型標(biāo)注、領(lǐng)域大模型標(biāo)注。目前的大模型產(chǎn)品多數(shù)是通識(shí)大模型,但即便如此,標(biāo)注工作也是非結(jié)構(gòu)化的,需要標(biāo)注師具備較強(qiáng)的自然語言能力。至于領(lǐng)域大模型標(biāo)注,對(duì)學(xué)歷、能力、專業(yè)度的要求則更高。大多數(shù)行業(yè)或企業(yè)需要具備領(lǐng)域知識(shí)的專業(yè)人才,他們要重點(diǎn)解決金融、醫(yī)療、科技等領(lǐng)域的專業(yè)問題,最終形成符合專業(yè)邏輯的高質(zhì)量數(shù)據(jù)。比如,政務(wù)大模型中,用戶通常會(huì)問很多“專精”的問題,“社保斷繳5年怎么辦”這類標(biāo)注問題就需要標(biāo)注師讀取大量的政府文件,并能從中找到準(zhǔn)確答案。4.2什么是數(shù)據(jù)標(biāo)注(3)對(duì)標(biāo)注者的學(xué)歷要求高。早期的數(shù)據(jù)標(biāo)注工作者算是人工智能領(lǐng)域的流水線工人,通常集中人力資源豐富的地區(qū),以控制人力成本。如今的標(biāo)注師們屬于互聯(lián)網(wǎng)公司的白領(lǐng),甚至很多專業(yè)領(lǐng)域的標(biāo)注人員都是碩士或博士學(xué)歷,其身份是領(lǐng)域標(biāo)注專家。4.2什么是數(shù)據(jù)標(biāo)注PART03數(shù)據(jù)標(biāo)注分類從不同的角度思考,數(shù)據(jù)標(biāo)注有許多不同的分類。(1)從難易程度方面,數(shù)據(jù)標(biāo)注可劃分為常識(shí)性標(biāo)注與專業(yè)性標(biāo)注。例如,地圖識(shí)別標(biāo)注多為常識(shí)性標(biāo)注,標(biāo)注道路、路牌、地圖等數(shù)據(jù),語音識(shí)別標(biāo)注也多為常識(shí)性標(biāo)注。這類標(biāo)注工作的難點(diǎn)在于需要大量標(biāo)注訓(xùn)練樣本,因?yàn)閼?yīng)用場(chǎng)景多樣且復(fù)雜,一般對(duì)標(biāo)注員無專業(yè)技能要求,認(rèn)真負(fù)責(zé),任務(wù)完成效率快、質(zhì)量高的即為好的標(biāo)注員。4.3數(shù)據(jù)標(biāo)注分類醫(yī)療診斷領(lǐng)域標(biāo)注多為專業(yè)性標(biāo)注,因?yàn)椴》N、癥狀的分類與標(biāo)注需要有醫(yī)療專業(yè)知識(shí)的人才來完成,人力資源招聘領(lǐng)域的標(biāo)注也屬于專業(yè)性標(biāo)注,因?yàn)闃?biāo)注員需要熟知招聘業(yè)務(wù)、各崗位所需的知識(shí)技能,還需了解人力資源經(jīng)理招人時(shí)的關(guān)注點(diǎn),才能判斷簡(jiǎn)歷是否符合職位的招聘要求。該類型的標(biāo)注工作需要有招聘專業(yè)知識(shí)的標(biāo)注員,或者稱為標(biāo)注專家。標(biāo)注工作的難點(diǎn)比較多,例如選拔培養(yǎng)合適的標(biāo)注員、標(biāo)注規(guī)則的界定、標(biāo)注質(zhì)量的控制等多方面。4.3數(shù)據(jù)標(biāo)注分類(2)從標(biāo)注目的方面,數(shù)據(jù)標(biāo)注可劃分為評(píng)估型標(biāo)注與樣本型標(biāo)注。評(píng)估型標(biāo)注一般是為了評(píng)估模型的準(zhǔn)確率,發(fā)現(xiàn)一些不好的樣例,然后優(yōu)化算法模型。為此,為了節(jié)約標(biāo)注資源可控制標(biāo)注數(shù)量。一般情況下標(biāo)注千量級(jí)的數(shù)據(jù),樣本具有統(tǒng)計(jì)意義即可,標(biāo)注完成后需要統(tǒng)計(jì)正確率以及錯(cuò)誤樣例。該類型標(biāo)注的重點(diǎn)是錯(cuò)誤樣例的原因總結(jié),分析每個(gè)壞樣例出現(xiàn)的原因,并將原因歸納為不同分類,以方便算法分析分類型分批次的優(yōu)化模型。4.3數(shù)據(jù)標(biāo)注分類樣本型標(biāo)注是為模型提供前期的訓(xùn)練樣本作為機(jī)器學(xué)習(xí)的輸入,該類型標(biāo)注工作需要標(biāo)注大量數(shù)據(jù),一般情況下需要標(biāo)注萬量級(jí)的數(shù)據(jù)。為了樣本的均衡性,標(biāo)注樣本大都是隨機(jī)抽取的。這樣做的優(yōu)點(diǎn)是可在一定程度上避免樣本偏差,但缺點(diǎn)是要標(biāo)注大量數(shù)據(jù)。如果是文本型樣本,有時(shí)可借助算法抽取一些高頻、高質(zhì)量樣本進(jìn)行標(biāo)注,這樣可在一定程度上減少標(biāo)注工作量,但可能存在樣本偏差。數(shù)據(jù)標(biāo)注從標(biāo)注對(duì)象方面,可劃分為圖像標(biāo)注、語音標(biāo)注、視頻標(biāo)注、文本標(biāo)注。4.3數(shù)據(jù)標(biāo)注分類圖像標(biāo)注是對(duì)未經(jīng)處理的圖片數(shù)據(jù)進(jìn)行加工處理,轉(zhuǎn)換為機(jī)器可識(shí)別信息,然后輸送到人工智能算法和模型里完成調(diào)用。常見的圖像標(biāo)注方法有語義分割、矩形框標(biāo)注、多邊形標(biāo)注、關(guān)鍵點(diǎn)標(biāo)注、點(diǎn)云標(biāo)注、3D立方體標(biāo)注、2D/3D融合標(biāo)注、目標(biāo)追蹤等。圖4-3圖像標(biāo)注4.3.1圖像標(biāo)注語音標(biāo)注是標(biāo)注員把語音中包含的文字信息、各種聲音先“提取”出來,再進(jìn)行轉(zhuǎn)寫或者合成。標(biāo)注后的數(shù)據(jù)主要用于人工智能機(jī)器學(xué)習(xí),使計(jì)算機(jī)可以擁有語音識(shí)別能力。常見的語音標(biāo)注類型有語音轉(zhuǎn)寫、語音切割、語音清洗、情緒判斷、聲紋識(shí)別、音素標(biāo)注、韻律標(biāo)注、發(fā)音校對(duì)等。
圖4-4語音標(biāo)注4.3.2語音標(biāo)注點(diǎn)云數(shù)據(jù)一般由激光雷達(dá)等3D掃描設(shè)備獲取空間若干點(diǎn)的信息,包括X、Y、Z坐標(biāo)位置信息、RGB顏色信息和強(qiáng)度信息等,是一種多維度的復(fù)雜數(shù)據(jù)集合。
圖4-53D點(diǎn)云標(biāo)注4.3.3
3D點(diǎn)云標(biāo)注3D點(diǎn)云數(shù)據(jù)可以提供豐富的幾何、形狀和尺度信息,并且不易受光照強(qiáng)度變化和其它物體遮擋等影響,可以很好地了解機(jī)器的周圍環(huán)境。常見的3D點(diǎn)云標(biāo)注類型有3D點(diǎn)云目標(biāo)檢測(cè)標(biāo)注、3D點(diǎn)云語義分割標(biāo)注、2D3D融合標(biāo)注、點(diǎn)云連續(xù)幀標(biāo)注等。4.3.3
3D點(diǎn)云標(biāo)注文本標(biāo)注是對(duì)文本進(jìn)行特征標(biāo)記的過程,對(duì)其打上具體的語義、構(gòu)成、語境、目的、情感等數(shù)據(jù)標(biāo)簽。通過標(biāo)注好的訓(xùn)練數(shù)據(jù),可以教會(huì)機(jī)器識(shí)別文本中所隱含的意圖或者情感,使機(jī)器可以更好地理解語言。常見的文本標(biāo)注有OCR轉(zhuǎn)寫、詞性標(biāo)注、命名實(shí)體標(biāo)注、語句泛化、情感分析、句子編寫、槽位提取、意圖匹配、文本判斷、文本匹配、文本信息抽取、文本清洗、機(jī)器翻譯等。4.3.4文本標(biāo)注PART04制定標(biāo)注規(guī)則常識(shí)性標(biāo)注的規(guī)則比較簡(jiǎn)單,標(biāo)注一部分樣本即可總結(jié)出較通用的規(guī)則,但專業(yè)性標(biāo)注的規(guī)則比較復(fù)雜,制定專業(yè)的標(biāo)注規(guī)則需要遵循的原則主要如下。(1)多維分析與綜合分析相結(jié)合。簡(jiǎn)歷與職位的匹配度影響因素肯定是多維的,不能只參考工作經(jīng)歷或?qū)I(yè)要求一個(gè)因子,或者某幾個(gè)因子,要多維分析,最終再給出綜合評(píng)分結(jié)果。當(dāng)然,簡(jiǎn)歷與職位的匹配標(biāo)注也不可能一上來就能給出綜合的評(píng)分。要先給單一因子打分,然后參考每個(gè)因子的評(píng)分結(jié)果,最終再進(jìn)行綜合分析,給出評(píng)分結(jié)果。4.4制定標(biāo)注規(guī)則(2)因子權(quán)重影響因素場(chǎng)景化。簡(jiǎn)歷與職位匹配度評(píng)估需要給每個(gè)因子打分,要結(jié)合具體場(chǎng)景把所有因子進(jìn)行歸類分析,比如設(shè)定一些重要因子,如果重要因子不匹配可能就直接不給分,比如工作經(jīng)歷代表的是一個(gè)人的勝任力,如果該候選人不具備該崗位的勝任力,總分肯定是0分。還有一些因子雖然不是很重要,但會(huì)影響評(píng)分,有些因子時(shí)而重要時(shí)而不重要,比如年齡,人力資源經(jīng)理想要1~3年經(jīng)驗(yàn)的行政專員,候選人40歲,該情況肯定會(huì)影響最終評(píng)分且很有可能總分是0分。所以把所有影響因子結(jié)合場(chǎng)景進(jìn)行歸類分析是十分必要的。4.4制定標(biāo)注規(guī)則(3)問題類型標(biāo)簽化、結(jié)構(gòu)化。一般情況下標(biāo)注結(jié)果會(huì)以分?jǐn)?shù)的形式展示,ABCD或者0123。前期制定標(biāo)注規(guī)則時(shí),一定要把原因分析考慮進(jìn)去,列出所有不匹配的原因,形成結(jié)構(gòu)化的原因標(biāo)簽,有利于最終分析壞樣例的分類與占比,然后,算法或者策略團(tuán)隊(duì)在優(yōu)化時(shí)可以優(yōu)先解決占比高或影響惡劣的樣例。4.4制定標(biāo)注規(guī)則數(shù)據(jù)標(biāo)注是一項(xiàng)看似簡(jiǎn)單實(shí)際卻十分復(fù)雜的工作,涉及標(biāo)注分類、標(biāo)注規(guī)則制定、標(biāo)注原因分析、標(biāo)注系統(tǒng)搭建、標(biāo)注團(tuán)隊(duì)管理等,尤其涉及到專業(yè)領(lǐng)域的標(biāo)注則更困難。4.4制定標(biāo)注規(guī)則PART05執(zhí)行數(shù)據(jù)標(biāo)注圖像標(biāo)注專家阿德拉·巴里烏索于2007年開始使用標(biāo)簽系統(tǒng)地標(biāo)注SUN數(shù)據(jù)庫(kù),標(biāo)注了超過25萬個(gè)物體。她記錄了標(biāo)注過程中曾遇到的困難和采用的解決方案,以便得到一致性高的注釋。巴里烏索在數(shù)據(jù)標(biāo)注中的主要心得如下。(1)在標(biāo)注圖像時(shí),首先對(duì)圖像進(jìn)行整體評(píng)估,衡量標(biāo)注難度。有些乍一看標(biāo)注難度較大的圖像,實(shí)際上圖中的元素很少,很容易標(biāo)記。4.5執(zhí)行數(shù)據(jù)標(biāo)注(2)標(biāo)注時(shí),通常由大到小進(jìn)行標(biāo)注。比如開放空間中先標(biāo)注天空,封閉空間內(nèi)先標(biāo)注天花板,然后再
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025交通事故致人死亡賠償協(xié)議書14篇
- 借款借貸合同協(xié)議書七篇
- 補(bǔ)水美容病因介紹
- 內(nèi)蒙古通遼市(2024年-2025年小學(xué)六年級(jí)語文)統(tǒng)編版能力評(píng)測(cè)(下學(xué)期)試卷及答案
- 全國(guó)賽課一等獎(jiǎng)初中統(tǒng)編版七年級(jí)道德與法治上冊(cè)單元思考與行動(dòng)《追求美好人生》精美課件
- (2024年)藝術(shù)學(xué)校建設(shè)項(xiàng)目可行性研究報(bào)告
- 【中職專用】中職對(duì)口高考-機(jī)電與機(jī)制類專業(yè)-核心課-模擬試卷1(河南適用)(答案版)
- 2023年天津市和平區(qū)高考語文三模試卷
- 2023年復(fù)合管道項(xiàng)目融資計(jì)劃書
- 蔬菜園藝工中級(jí)考試題
- 五年級(jí)體質(zhì)健康數(shù)據(jù)
- 真空蒸鍍中部分金屬熔點(diǎn)及不同氣壓下蒸發(fā)溫度
- 中日標(biāo)準(zhǔn)件對(duì)照表
- (完整版)密閉式靜脈輸液技術(shù)操作評(píng)分標(biāo)準(zhǔn)
- 《賁門失弛緩癥》PPT課件課件
- 壩基滲漏問題分析
- 汽車連桿加工工藝規(guī)程及夾具設(shè)計(jì)畢業(yè)論文 (1)
- RP90型吉他綜合效果處理器操作手冊(cè)
- 外研版小學(xué)英語(三起)五年級(jí)下冊(cè)單詞表(含音標(biāo))
- 小化肥生產(chǎn)原理及過程
- 安全工作總結(jié)PPT
評(píng)論
0/150
提交評(píng)論