第5章 大模型預訓練數據_第1頁
第5章 大模型預訓練數據_第2頁
第5章 大模型預訓練數據_第3頁
第5章 大模型預訓練數據_第4頁
第5章 大模型預訓練數據_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

浙江省普通本科高?!笆奈濉敝攸c教材大語言模型通識大語言模型通識周蘇教授QQ:81505050第5章大模型預訓練數據一般情況下用于預訓練的都是大模型,具備復雜網絡結構,眾多參數量,以及在足夠大的數據集下進行訓練而產生的模型。在自然語言處理領域,預訓練模型往往是語言模型,其訓練是無監(jiān)督的,可以獲得大規(guī)模語料。同時,語言模型又是許多典型自然語言處理任務的基礎,如機器翻譯、文本生成、閱讀理解等。

圖5-1從語言模型嵌入第5章大模型預訓練數據(1)在RNN(循環(huán)神經網絡)模型中,每一個詞嵌入的輸出是要參考前面已經輸入過的數據,所以叫做上下文化詞嵌入。(2)不止要考慮每個詞嵌入前文,同時還要考慮后文,所以再從句尾向句首訓練。第5章大模型預訓練數據(3)使用多層隱藏層后,最終的詞嵌入=該詞所有層的詞嵌入進行加權平均(見圖5-2)。

圖5-2從句子中訓練第5章大模型預訓練數據訓練大語言模型需要數萬億的各類型數據。如何構造海量“高質量”數據對于大模型的訓練至關重要。研究表明,預訓練數據是影響大模型效果及樣本泛化能力的關鍵因素之一。大模型采用的預訓練數據需要覆蓋盡可能多的領域、語言、文化和視角,通常來自網絡、圖書、論文、百科和社交媒體等。第5章大模型預訓練數據01數據來源02數據處理03數據影響分析04典型的開源數據集目錄/CONTENTS05數據集面臨的挑戰(zhàn)PART01數據來源OpenAI訓練GPT-3使用的主要數據來源,包含經過過濾的CommonCravwl、WebText2、Books1、Books2及英文維基百科等數據集。其中CommonCrawl的原始數據有45TB,過濾后僅保留了570GB的數據。通過詞元方式對上述數據進行切分,大約包含5000億個詞元。為了保證模型使用更多高質量數據進行訓練,在GPT-3訓練時,根據數據來源的不同,設置不同的采樣權重。在完成3000億個詞元的訓練時,英文維基百科的數據平均訓練輪數為3.4次,而CommonCrawl和Books2僅有0.44次和0.43次。5.1數據來源另一個例子,由于CommonCrawl數據集的過濾過程繁瑣復雜,Meta公司的研究人員在訓練OPT模型時,采用了混合RoBERTa、Pile和PushShift.ioReddit數據的方法。由于這些數據集中包含的絕大部分數據都是英文數據,因此OPT也從CommonCrawl數據集中抽取了部分非英文數據加入訓練數據。大模型預訓練所需的數據來源大體上分為通用數據和專業(yè)數據兩大類。5.1數據來源通用數據在大模型訓練數據中占比非常高,主要包括網頁、圖書、新聞、對話文本等不同類型的數據,具有規(guī)模大、多樣性和易獲取等特點,因此支持大模型的語言建模和泛化能力。5.1.1通用數據網頁是通用數據中數量最多的一類。隨著互聯網的日益普及,人們通過網站、論壇、博客、App創(chuàng)造了海量的數據。網頁數據使語言模型能夠獲得多樣化的語言知識并增強其泛化能力。爬取和處理海量網頁內容并不是一件容易的事情,因此,一些研究人員構建了ClueWeb09、ClueWeb12、SogouT-16、CommonCrawl等開源網頁數據集。雖然這些爬取的網絡數據包含大量高質量的文本(如維基百科),但也包含非常多低質量的文本(如垃圾郵件等),所以過濾并處理網頁數據以提高數據質量對大模型訓練非常重要。5.1.1通用數據對話文本是指有兩個或更多參與者交流的文本內容。對話文本包含書面形式的對話、聊天記錄、論壇帖子、社交媒體評論等。研究表明,對話文本可以有效增強大模型的對話能力,并潛在地提高大模型在多種問答任務上的表現。對話文本可以通過收集、清洗、歸并等過程從社會媒體、論壇、郵件組等處構建。相較于網頁數據,對話文本數據的收集和處理會困難一些,數據量也少很多。常見的對話文本數據集包括PushShift.ioReddit、UbuntuDialogueCorpus、DoubanConversationCorpus、ChromiumConversationsCorpus等。此外,還提出了使用大模型自動生成對話文本數據的UltraChat方法。5.1.1通用數據書籍是人類知識的主要積累方式之一,從古代經典到現代學術著作,承載了豐富多樣的人類思想。書籍通常包含廣泛的詞匯,包括專業(yè)術語、文學表達及各種主題詞匯。利用書籍數據進行訓練,大模型可以接觸多樣化的詞匯,從而提高其對不同領域和主題的理解能力。相較于其他數據庫,書籍也是最重要的,甚至是唯一的長文本書面語的數據來源。書籍提供了完整的句子和段落,使大模型可以學習到上下文之間的聯系。這對于模型理解句子中的復雜結構、邏輯關系和語義連貫性非常重要。5.1.1通用數據書籍涵蓋了各種文體和風格,包括小說、科學著作、歷史記錄等等。用書籍數據訓練大模型,可以使模型學習到不同的寫作風格和表達方式,提高大模型在各種文本類型上的能力。受限于版權因素,開源書籍數據集很少,現有的開源大模型研究通常采用Pile數據集中提供的Books3和BookCorpus2數據集。5.1.1通用數據專業(yè)數據包括多語言數據、科學文本數據、代碼及領域特有資料等。雖然專業(yè)數據在大模型中所占比例通常較低,但是其對改進大模型在下游任務上的特定解決能力有著非常重要的作用。專業(yè)數據種類非常多,大模型使用的專業(yè)數據主要有三類。5.1.2專業(yè)數據多語言數據對于增強大模型的語言理解和生成多語言能力具有至關重要的作用。當前的大模型訓練除了需要目標語言中的文本,通常還要整合多語言數據庫。例如,BLOOM的預訓練數據中包含46種語言的數據,PaLM的預訓練數據中甚至包含高達122種語言的數據。研究發(fā)現,通過多語言數據混合訓練,預訓練模型可以在一定程度上自動構建多語言之間的語義關聯。因此,多語言數據混合訓練可以有效提升翻譯、多語言摘要和多語言問答等任務能力。此外,由于不同語言中不同類型的知識獲取難度不同,多語言數據還可以有效地增加數據的多樣性和知識的豐富性。5.1.2專業(yè)數據科學文本數據包括教材、論文、百科及其他相關資源。這些數據對于提升大模型在理解科學知識方面的能力具有重要作用??茖W文本數據的來源主要包括arXiv論文、PubMed論文、教材、課件和教學網頁等。由于科學領域涉及眾多專業(yè)領域且數據形式復雜,通常還需要對公式、化學式、蛋白質序列等采用特定的符號標記并進行預處理。例如,公式可以用LaTeX語法表示,化學結構可以用SMILES(簡化的分子輸入管路輸入系統(tǒng))表示,蛋白質序列可以用單字母代碼或三字母代碼表示。這樣可以將不同格式的數據轉換為統(tǒng)一的形式,使大模型更好地處理和分析科學文本數據。5.1.2專業(yè)數據代碼是進行程序生成任務所必需的訓練數據。研究表明,通過在大量代碼上進行預訓練,大模型可以有效提升代碼生成的效果。程序代碼除本身之外,還包含大量的注釋信息。代碼不同于自然語言文本,它是一種格式化語言,對應著長程依賴和準確的執(zhí)行邏輯。代碼的語法結構、關鍵字和特定的編程范式都對其含義和功能起著重要的作用。5.1.2專業(yè)數據代碼的主要來源是編程問答社區(qū)和公共軟件倉庫。編程問答社區(qū)中的數據包含了開發(fā)者提出的問題、其他開發(fā)者的回答及相關代碼示例。這些數據提供了豐富的語境和真實世界中的代碼使用場景。公共軟件倉庫中的數據包含了大量的開源代碼,涵蓋多種編程語言和不同領域。這些代碼庫中的很多代碼經過了嚴格的代碼評審和實際的使用測試,因此具有一定的可靠性。5.1.2專業(yè)數據PART02數據處理由于數據質量對于大模型的影響非常大。因此,在收集了各種類型的數據之后,需要對數據進行處理,去除低質量數據、重復數據、有害信息、個人隱私等內容和進行詞元切分。5.2數據處理互聯網上的數據質量參差不齊,因此,從收集到的數據中刪除低質量數據成為大模型訓練中的重要步驟。大模型訓練中所使用的低質量數據過濾方法可以大致分為兩類;基于分類器的方法和基于啟發(fā)式的方法。(1)基于分類器的方法。目標是訓練文本質量判斷模型,利用該模型識別并過濾低質量數據。GPT-3、PaLM和GLaM模型在訓練數據構造時都使用了基于分類器的方法。例如,基于特征哈希的線性分類器,可以非常高效地完成文本質量判斷。5.2.1質量過濾該分類器使用一組精選文本(維基百科、書籍和一些選定的網站)進行訓練,目標是給與訓練數據類似的網頁較高分數。利用這個分類器可以評估網頁的內容質量。在實際應用中,還可以通過使用Pareto分布對網頁進行采樣,根據其得分選擇合適的閾值,從而選定合適的數據集。然而,一些研究發(fā)現,基于分類器的方法可能會刪除包含方言或者口語的高質量文本,從而損失一定的多樣性。5.2.1質量過濾(2)基于啟發(fā)式的方法。通過一組精心設計的規(guī)則來消除低質量文本,BLOOM和Gopher采用了基于啟發(fā)式的方法。一些啟發(fā)式規(guī)則如下?!ふZ言過濾:如果一個大模型僅關注一種或者幾種語言,則可以大幅過濾數據中其他語言的文本?!ぶ笜诉^濾:利用評測指標也可以過濾低質量文本。例如,可以使用語言模型對給定文本的困惑度進行計算,利用該值過濾非自然的句子。5.2.1質量過濾·統(tǒng)計特征過濾:針對文本內容可以計算包括標點符號分布、符號字比、句子長度在內的統(tǒng)計特征,利用這些特征過濾低質量數據?!りP鍵詞過濾:根據特定的關鍵詞集,可以識別并刪除文本中的噪聲或無用元素。例如,HTML標簽、超鏈接及冒犯性詞語等。5.2.1質量過濾在大模型出現之前,在自然語言處理領域已經開展了很多文章質量判斷相關的研究,主要應用于搜索引擎、社會媒體、推薦系統(tǒng)、廣告排序及作文評分等任務中。在搜索和推薦系統(tǒng)中,內容結果的質量是影響用戶體驗的重要因素之一,因此,此前很多工作都是針對用戶生成內容的質量進行判斷的。5.2.1質量過濾自動作文評分也是文章質量判斷領域的一個重要子任務,自1998年提出使用貝葉斯分類器進行作文評分預測以來,基于SVM、CNN-RNN、BERT等方法的作文評分算法相繼被提出,并取得了較大的進展。這些方法都可以應用于大模型預訓練數據過濾。由于預訓練數據量非常大,并且對質量判斷的準確率要求并不很高,因此一些基于深度學習和預訓練的方法還沒有應用于低質過濾中。5.2.1質量過濾研究表明,大模型訓練數據庫中的重復數據會降低大模型的多樣性,并可能導致訓練過程不穩(wěn)定,從而影響模型性能。因此,需要對預訓練數據庫中的重復數據進行處理,去除其中的冗余部分。文本冗余發(fā)現也被稱為文本重復檢測,是自然語言處理和信息檢索中的基礎任務之一,其目標是發(fā)現不同粒度上的文本重復,包括句子、段落、文檔、數據集等不同級別。在實際產生預訓練數據時,冗余去除需要從不同粒度著手,這對改善語言模型的訓練效果具有重要作用。5.2.2冗余去除在句子級別上,包含重復單詞或短語的句子很可能造成語言建模中引入重復的模式。這對語言模型來說會產生非常嚴重的影響,使模型在預測時容易陷入重復循環(huán)。重復循環(huán)對語言模型生成的文本質量的影響非常大,因此在預訓練數據中需要刪除這些包含大量重復單詞或者短語的句子。5.2.2冗余去除在文檔級別上,大部分大模型依靠文檔之間的表面特征相似度(例如n-gram重疊比例)進行檢測并刪除重復文檔。LLaMA采用CCNet處理模式,先將文檔拆分為段落,并把所有字符轉換為小寫字符、將數字替換為占位符,刪除所有Unicode標點符號和重音符號,對每個段落進行規(guī)范化處理。然后,使用SHA-1方法為每個段落計算一個哈希碼,并使用前64位數字作為鍵。5.2.2冗余去除最后,利用每個段落的鍵進行重復判斷。RefinedWeb先去除頁面中的菜單、標題、頁腳、廣告等內容,僅抽取頁面中的主要內容。在此基礎上,在文檔級別進行過濾,使用n-gram重復程度來衡量句子、段落及文檔的相似度。如果超過預先設定的閾值,則會過濾重復段落或文檔。此外,數據集級別上也可能存在一定數量的重復情況,比如很多大模型預訓練數據集都會包含GitHub、維基百科、C4等。需要特別注意預訓練數據中混入測試數據,造成數據集污染的情況。5.2.2冗余去除由于絕大多數預訓練數據源于互聯網,因此不可避免地會包含涉及敏感或個人信息的用戶生成內容,這可能會增加隱私泄露的風險。因此,有必要從預訓練數據庫中刪除包含個人身份信息的內容。刪除隱私數據最直接的方法是采用基于規(guī)則的算法,BigScienceROOTSCorpus在構建過程中就采用了基于命名實體識別的方法,利用算法檢測姓名、地址、電話號碼等個人信息內容并進行刪除或者替換。該方法被集成在muliwai類庫中,使用了基于Transformer的模型,并結合機器翻譯技術,可以處理超過100種語言的文本,消除其中的隱私信息。5.2.3隱私消除傳統(tǒng)的自然語言處理通常以單詞為基本處理單元,模型都依賴預先確定的詞表,在編碼輸入詞序列時,這些詞表示模型只能處理詞表中存在的詞。因此,使用時如果遇到不在詞表中的未登錄詞,模型無法為其生成對應的表示,只能給予這些未登錄詞一個默認的通用表示。5.2.4詞元切分在深度學習模型中,詞表示模型會預先在詞表中加入一個默認的“[UNK]”標識,表示未知詞,并在訓練的過程中將[UNK]的向量作為詞表示矩陣的一部分一起訓練,通過引入某些相應機制來更新[UNK]向量的參數。使用時,對全部未登錄詞使用[UNK]向量作為表示向量。此外,基于固定詞表的詞表示模型對詞表大小的選擇比較敏感。當詞表過小時,未登錄詞的比例較高,影響模型性能;當詞表大小過大時,大量低頻詞出現在詞表中,這些詞的詞向量很難得到充分學習。理想模式下,詞表示模型應能覆蓋絕大部分的輸入詞,并避免詞表過大所造成的數據稀疏問題。5.2.4詞元切分為了緩解未登錄詞問題,一些工作通過利用亞詞級別的信息構造詞表示向量。一種直接的解決思路是為輸入建立字符級別表示,并通過字符向量的組合獲得每個單詞的表示,以解決數據稀疏問題。然而,單詞中的詞根、詞綴等構詞模式往往跨越多個字符,基于字符表示的方法很難學習跨度較大的模式。為了充分學習這些構詞模式,研究人員提出了子詞詞元化方法,試圖緩解未登錄詞問題。詞元表示模型會維護一個詞元詞表,其中既存在完整的單詞,也存在形如“c”“re”“ing”等單詞的部分信息,稱為子詞。5.2.4詞元切分詞元表示模型對詞表中的每個詞元計算一個定長向量表示,供下游模型使用。對于輸入的詞序列,詞元表示模型將每個詞拆分為詞表內的詞元。例如,將單詞“reborn”拆分為“re”和“born”。模型隨后查詢每個詞元的表示,將輸入重新組成詞元表示序列。當下游模型需要計算一個單詞或詞組的表示時,可以將對應范圍內的詞元表示合成需要的表示。因此,詞元表示模型能夠較好地解決自然語言處理系統(tǒng)中未登錄詞的問題。詞元分析是將原始文本分割成詞元序列的過程。詞元切分也是數據預處理中至關重要的一步。5.2.4詞元切分字節(jié)對編碼是一種常見的子詞詞元算法。該算法采用的詞表包含最常見的單詞及高頻出現的子詞。使用時,常見詞通常位于字節(jié)對編碼詞表中,而罕見詞通常能被分解為若干個包含在字節(jié)對編碼詞表中的詞元,從而大幅減小未登錄詞的比例。字節(jié)對編碼算法包括以下兩個部分。(1)詞元詞表的確定。(2)全詞切分為詞元及詞元合并為全詞的方法。5.2.4詞元切分PART03數據影響分析過去自然語言處理是一個任務用標注數據訓練一個模型,而現在可以在大量無標注的語料上預訓練出一個在少量有監(jiān)督數據上微調就能做很多任務的模型。這其實就比較接近人類學習語言的過程。例如參加某個考試測試英文能力的好壞,里面有聽說讀寫等各式各樣的任務,有填空和選擇等很多題型。但我們學習英文的方法并不是去做大量的選擇題,而是背大量的英文單詞,理解它的詞性、意思,閱讀大量的英文文章、掌握它在段落中的用法,你只需做少量的選擇題,就可以通過某個語言能力的測試。這便是自然語言處理領域所追求的目標。5.3數據影響分析我們期待可以訓練一個模型,它真的了解人類的語言,在需要解決各式各樣的任務的時候,只需要稍微微調一下,它就知道怎么做了(見圖5-3)。

圖5-3在預訓練基礎上微調5.3數據影響分析大模型的訓練需要大量的計算資源,通常不可能進行多次。有千億級參數量的大模型進行一次預訓練需要花費數百萬元的計算成本。因此,在正式訓練大模型之前,構建一個準備充分的預訓練數據庫尤為重要。5.3數據影響分析隨著大模型參數規(guī)模的增加,為了有效地訓練模型,需要收集足夠數量的高質量數據。在針對模型參數規(guī)模、訓練數據量及總計算量與模型效果之間關系的研究被提出之前,大部分大模型訓練所采用的訓練數據量相較于LLaMA等新的大模型都少很多。5.3.1數據規(guī)模DeepMind的研究人員描述了他們訓練400多個語言模型后得出的分析結果(模型的參數量從7000萬個到160億個,訓練數據量從5億個詞元到5000億個詞元)。研究發(fā)現,如果希望模型訓練達到計算最優(yōu),則模型大小和訓練詞元數量應該等比例縮放,即模型大小加倍則訓練詞元數量也應該加倍。5.3.1數據規(guī)模為了驗證該分析結果,他們使用與Gopher語言模型訓練相同的計算資源,根據上述理論預測了Chinchilla語言模型的最優(yōu)參數量與詞元量組合。最終確定Chinchilla語言模型具有700億個參數,使用了1.4萬億個詞元進行訓練。通過實驗發(fā)現,Chinchilla在很多下游評估任務中都顯著地優(yōu)于Gopher(280B)、GPT-3(175B)、Jurassic-1(178B)及Megatron-TuringNLG(530B)。5.3.1數據規(guī)模數據質量是影響大模型訓練效果的關鍵因素之一。大量重復的低質量數據會導致訓練過程不穩(wěn)定,模型訓練不收斂。研究表明,訓練數據的構建時間、包含噪聲或有害信息情況、數據重復率等因素,都對語言模型性能產生較大影響。語言模型在經過清洗的高質量數據上訓練數據可得到更好的性能。5.3.2數據質量Gopher語言模型在訓練時針對文本質量進行相關實驗,具有140億個參數的模型在OpenWebText、C4及不同版本的MassiveWeb數據集上訓練得到模型效果對比。他們分別測試了利用不同數據訓練得到的模型在Wikitext103單詞預測、CuraticCorpus摘要及Lambada書籍級別的單詞預測三個下游任務上的表現。從結果可以看到,使用經過過濾和去重的MassiveWeb數訓練得到的語言模型,在三個任務上都遠好于使用未經處理的數據訓練得到的模型。使用經過處理的MassiveWeb數據訓練得到的語言模型在下游任務上的表現也遠好于使用OpenWebText和C4數據集訓練得到的結果。5.3.2數據質量構建GLaM語言模型時,也對訓練數據質量的影響進行了分析。實驗結果可以看到使用高質量數據訓練的模型在自然語言生成和自然語言理解任務上表現更好。特別是,高質量數據對自然語言生成任務的影響大于自然語言理解任務。這可能是因為自然語言生成任務通常需要生成高質量的語言,過濾預訓練數據庫對語言模型的生成能力至關重要。預訓練數據的質量在下游任務的性能中也扮演著關鍵角色。來自不同領域、使用不同語言、應用于不同場景的訓練數據具有不同的語言特征,包含不同語義知識。通過使用不同來源的數據進行訓練,大模型可以獲得廣泛的知識。5.3.2數據質量PART04典型的開源數據集隨著基于統(tǒng)計機器學習的自然語言處理算法的發(fā)展,以及信息檢索研究的需求增加,特別是對深度學習和預訓練語言模型的研究更深入,研究人員構建了多種大規(guī)模開源數據集,涵蓋了網頁、圖書、論文、百科等多個領域。在構建大模型時,數據的質量和多樣性對于提高模型的性能至關重要。同時,為了推動大模型的研究和應用,學術界和工業(yè)界也開放了多個針對大模型的開源數據集。5.4典型的開源數據集Pile數據集是一個用于大模型訓練的多樣性大規(guī)模文本數據庫,由22個不同的高質量子集構成,包括現有的和新構建的,主要來自學術或專業(yè)領域。這些子集包括Pile-CC(清洗后的CommonCrawl子集)、Wikipedia、OpenWebText2、ArXiv、PubMedCentral等。Pile的特點是包含大量多樣化文本,涵蓋不同領域和主題,從而提高了訓練數據集的多樣性和豐富性。5.4.1PilePile數據集包含825GB英文文本,其數據類型組成大體上如圖5-4所示,所占面積大小表示數據在整個數據集中所占的規(guī)模。

圖5-4Pile數據集的主要構成5.4.1PilePile數據集的部分子集簡單介紹如下。(1)Pile-CCC:通過在WebArchive文件上使用jusText方法提取,比直接使用WET文件產生更高質量的輸出。(2)PubMedCentral(PMC):是由美國國家生物技術信息中心(NCBI)運營的PubMed生物醫(yī)學在線資源庫的一個子集,提供對近500萬份出版物的開放全文訪問。5.4.1Pile(3)OpenWebText2(OWT2):是一個基于WebText1和OpenWobTextCorpts的通用數據集,它包括來自多種語言的文本內容、網頁文本元數據,以及多個開源數據集和開源代碼庫。(4)ArXiv:是一個自1991年開始運營的研究論文預印版本發(fā)布服務平臺。論文主要集中在數學、計算機科學和物理領域。ArXiv上的論文是用LaTeX編寫的,其中公式、符號、表格等內容的表示非常適合語言模型學習。5.4.1Pile(5)GitHub:是一個大型的開源代碼庫,對于語言模型完成代碼生成、代碼補全等任務具有非常重要的作用。(6)FreeLaw:是一個非營利項目,為法律學術研究提供訪問和分析工具.CourtListener是FreeLaw項目的一部分,包含美國聯邦和州法院的數百萬法律意見,并提供批量下載服務。5.4.1Pile(7)StackExchange:是一個圍繞用戶提供問題和答案的網站集合,其中StackExchangeDataDump包含了網站集合中所有用戶貢獻的內容的匿名數據集。它是最大的問題-答案對數據集之一,包括編程、園藝、藝術等主題。(8)USPTO:是美國專利商標局授權專利背景數據集,源于其公布的批量檔案。該數據集包含大量關于應用主題的技術內容,如任務背景、技術領域概述、建立問題空間框架等。5.4.1Pile(9)Wikipedia(English):是維基百科的英文部分。維基百科旨在提供各種主題的知識,是世界上最大的在線百科全書之一。(10)PubMed:是由PubMed的3000萬份出版物的摘要組成的數據集。它是由美國國家醫(yī)學圖書館運營的生物醫(yī)學文章在線存儲庫,它還包含1946年至今的生物醫(yī)學摘要。(11)OpenSubtitles:是由英文電影和電視的字幕組成的數據集。字幕是對話的重要來源并且可以增強模型對虛構格式的理解,對創(chuàng)造性寫作任務(如劇本寫作、演講寫作、交式故事講述等)有一定作用。5.4.1Pile(12)DeepMindMathematics:以自然語言提示形式給出,由代數、算術、微積分、數論和概率等一系列數學問題組成的數據集。大模型在數學任務上的表現較差,這可能是由于訓練集中缺乏數學問題。因此,Pile數據集中專門增加數學問題數據集,期望增強通過Pile數據集訓練的語言模型的數學能力。(13)PhilPapers:由國際數據庫中的哲學出版物組成,它涵蓋了廣泛的抽象、概念性話語,文本寫作質量也非常高。5.4.1Pile(14)NIH:包含1985年至今獲得NIH資助的項目申請摘要,是高質量的科學寫作實例。Pile中不同數據子集所占比例及訓練時的采樣權重有很大不同,高質量的數據會有更高的采樣權重。例如,Pile-CC數據集包含227.12GB數據,整個訓練周期中采樣1輪,雖然維基百科(英文)數據集僅有6.38GB的數據,但是整個訓練周期中采樣3輪。5.4.1PileROOTS(負責任的開放科學、開放協(xié)作文本源)數據集是Big-Science項目在訓練具有1760億個參數的BLOOM大模型時使用的數據集,其中包含46種自然語言和13種編程語言,整個數據集約1.6TB。5.4.2ROOTSROOTS數據主要來源于四個方面:公開數據、虛擬抓取、GitHub代碼、網頁數據。(1)在公開數據方面,目標是收集盡可能多的各種類型的數據,包括自然語言處理數據集和各類型文檔數據集。在收集原始數據集的基礎上,進一步從語言和統(tǒng)一表示方面對收集的文檔進行規(guī)范化處理。識別數據集所屬語言并分類存儲,將所有數據都按照統(tǒng)一的文本和元數據結構進行表示。5.4.2ROOTS(2)在虛擬抓取方面,由于很多語言的現有公開數據集較少,因此這些語言的網頁信息是十分重要的資源補充。在ROOTS數據集中,采用網頁鏡像,選取了614個域名,從這些域名下的網頁中提取文本內容補充到數據集中,以提升語言的多樣性。(3)在GitHub代碼方面,針對程序語言,ROOTS數據集從BigQuery公開數據集中選取文件長度在100到20萬字符,字母符號占比在15%至65%,最大行數在20至1000行的代碼。5.4.2ROOTS(4)大模型訓練中,網頁數據對于數據的多樣性和數據量支撐都起到重要的作用。ROOTS數據集中包含了OSCAR21.09版本,對應的是CommonCrawl2021年2月的快照,占整體ROOTS數據集規(guī)模的38%。5.4.2ROOTS在數據準備完成后,還要進行清洗、過濾、去重及隱私信息刪除等工作,ROOTS數據集處理流程如圖5-5所示。整個處理工作采用人工與自動相結合的方法,針對數據中存在的一些非自然語言的文本,例如預處理錯誤、SEO頁面或垃圾郵件,構建ROOTS數據集時會進行一定的處理。

圖5-5ROOTS數據集處理流程5.4.2ROOTSPART05數據集面臨的挑戰(zhàn)盡管人工智能大模型之間正“卷”向高潮,但實際上,其應用的落地部分仍不明確,需要進一步的探索和創(chuàng)新。為了適應更多細分的落地場景,大模型之間的“卷”也逐步帶起一堆小模型之間的競爭。好模型離不開好數據,好的數據集對模型的成功至關重要,它能提升模型的精確度,讓模型能更準確地預測或分類。同時,好的數據集還能增強模型的可解釋性,使人們更容易理解模型的決策過程,也有助于模型更快地收斂到最優(yōu)解。這意味著模型的訓練時間將大大縮短,實打實的效率和成本是核心競爭力。5.5數據集面臨的挑戰(zhàn)由于數據來源多樣、類型復雜,大模型數據集存在質量參差不齊的問題。高質量的數據集需要專業(yè)的標注和清洗過程,包括對數據的詳細分類、校對和驗證,以確保模型能夠接收準確、一致和有用的信息。然而,部分數據集因缺乏嚴格的標注和清洗流程,導致數據質量不如意,包括標注錯誤、數據重復和不平衡的數據分布,都可能削弱人工智能大模型的訓練效果,從另外一個角度看,這也凸顯了高質量數據的價值。高質量數據集不僅能夠提升模型的性能,由于其收集和處理的復雜性,成本也相對較高。5.5.1數據集規(guī)模和質量待提升與此同時,數據文化有其自身的特色,例如在數據集的共享和開放性方面的相對謹慎。由于對數據隱私、安全以及商業(yè)競爭的考慮,許多有價值的數據庫并沒有公開。從技術角度看,這種做法可能會限制數據集的廣泛應用和研究。然而換個角度來看,保持數據的獨立性和私密性也有其合理性。這種做法有助于保護敏感信息,防止數據被濫用,同時也鼓勵企業(yè)和機構投資于數據收集和分析,以獲得競爭優(yōu)勢,也體現了對數據安全和商業(yè)利益的重視。5.5.1數據集規(guī)模和質量待提升未來,大模型會呈現出一種增長飛輪效應,然而無論模型變得多么龐大,數據集的質量始終是關鍵。為了從公開網絡中獲取高質量的數據,我們需要尋找那些內容質量高、規(guī)模大的平臺。相對的,中文數據集在人工智能研究中進展較慢,部分原因是構建中文數據集的難度大,且自然語言處理算法的進步與中文數據集關聯性不強。這些因素導致中文的自然語言處理數據集在數量和質量上與國外存在明顯差距。5.5.1數據集規(guī)模和質量待提升為了有效縮小這一差距,同時考慮實際操作、成本效益和時間效率,推動關鍵行業(yè)應用數據集的發(fā)展,不僅能加快中文自然語言處理技術的發(fā)展,還能確保其在實際應用中的高效和實用。5.5.1數據集規(guī)模和質量待提升伴隨著GPT系列大模型的火熱,國內的科大訊飛星火認知、百度文心一言、商湯商量、智譜AI-ChatGLM、阿里巴巴通義千問,百川智能百川等大模型相繼面市,發(fā)展呈現百花齊放的盛況,與此同時,數據的發(fā)展需要跟上這一步伐。5.5.2大模型與數據集相輔相成達摩院院長、湖畔實驗室主任張建鋒建議統(tǒng)籌建設高質量醫(yī)學影像數據集,推動醫(yī)療人工智能技術的廣泛應用,進而促進醫(yī)療行業(yè)的發(fā)展。在模型和數據相互助力方面,達摩院與全球多家頂級醫(yī)療機構合作,創(chuàng)建了一個迄今為止最大的胰腺腫瘤CT影像訓練集,并利用它訓練出一個具有強大泛化能力的人工智能模型。據報道,在一個包含2萬多人的回顧性真實病例試驗中,該模型成功發(fā)現了31例之前未被診斷出的臨床病變,其中2例病患已經通過手術治愈。這項研究的成果被發(fā)表在了國際著名的醫(yī)學期刊《自然·醫(yī)學》上。5.5.2大模型與數據集相輔相成可見,好的人工智能模型和好的數據集相輔相成,互相助力。大模型如同大腦,通過深度學習與不斷優(yōu)化,實現智能識別、預測與分析;而數據集則如同養(yǎng)料,為大模型提供豐富、準確的信息來源。只有優(yōu)秀的大模型與高質量的數據集相結合,才能充分發(fā)揮人工智能的潛力,為各行各業(yè)帶來顛覆性的變革。5.5.2大模型與數據集相輔相成例如,假設初次見面,我們讓星火認知大模型做自我介紹。問題(提示)很簡單,就用“你好,請介紹一下你自己,我該如何向你提問才能得到有效的答案?”看看它的回復(見圖5-6)。

圖5-6科大訊飛星火認知大模型

的“初次相識”回復5.5.2大模型與數據集相輔相成感興趣的讀者可以自行選擇不同的中文大模型產品來體驗,了解不同產品回復,在信息組織,邏輯性強,傳達信息的高效和精確等方面,做出自己的評價。5.5.2大模型與數據集相輔相成人工智能大模型在眾多領域展現出驚人的成長速度,但大模型所需的數據集標準和規(guī)范卻不夠健全,略顯滯后,在一定程度上影響了大模型的訓練效果和應用范圍?!秶倚乱淮斯ぶ悄軜藴鼠w系建設指南》中提出,要“初步建立人工智能標準體系,重點研制數據算法、系統(tǒng)、服務等重點急需標準,并率先在制造、交通、金融、安防、家居、養(yǎng)老、環(huán)保、教育、醫(yī)療健康、司法等重點行業(yè)和領域進行推進。建設人工智能標準試驗驗證平臺,提供公共服務能力。”5.5.3數據集標準規(guī)范需健全國家工業(yè)信息安全發(fā)展研究中心2023年9月14日發(fā)布《AI大模型發(fā)展白皮書》

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論