人工智能通識教程 第2版 課件 第11、12章 自然語言處理、GPT-大語言模型起步_第1頁
人工智能通識教程 第2版 課件 第11、12章 自然語言處理、GPT-大語言模型起步_第2頁
人工智能通識教程 第2版 課件 第11、12章 自然語言處理、GPT-大語言模型起步_第3頁
人工智能通識教程 第2版 課件 第11、12章 自然語言處理、GPT-大語言模型起步_第4頁
人工智能通識教程 第2版 課件 第11、12章 自然語言處理、GPT-大語言模型起步_第5頁
已閱讀5頁,還剩165頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第2版人工智能通識教程第11章周蘇教授QQ:81505050自然語言處理導讀案例:機器翻譯:大數(shù)據(jù)簡單算法與小數(shù)據(jù)復雜算法2006年,谷歌公司開始涉足機器翻譯。這被當作實現(xiàn)“收集全世界的數(shù)據(jù)資源,并讓人人都可享受這些資源”這個目標的一個步驟。谷歌翻譯開始利用一個更大更繁雜的數(shù)據(jù)庫,也就是全球的互聯(lián)網(wǎng),而不再只利用兩種語言之間的文本翻譯。01語言的問題和可能性02什么是自然語言處理03語法類型與語義分析04處理數(shù)據(jù)與處理工具目錄/CONTENTS05語音處理自然語言處理(NaturalLanguageProcessing,NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的科學。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現(xiàn)自然語言通信的計算機系統(tǒng),特別是其中的軟件系統(tǒng)。第11章自然語言處理PART01語言的問題和可能性人類大約在10萬年前學會了如何說話,大約5千年前學會了如何寫字。人類語言的復雜性和多樣性使得智人區(qū)別于其他所有物種。當然,人類還有一些其他的特有屬性:沒有任何其他物種像人類那樣穿衣服,進行藝術創(chuàng)作,或者每天花兩小時在社交媒體上交流。但是,圖靈提出的智能測試是基于語言的,而非藝術或服飾,也許是因為語言具有普適性,并且捕捉到了如此多的智能行為:一個演講者演講(或作家寫作)的目標是交流知識,他組織語言來表示這些知識,然后采取行動以實現(xiàn)這一目標。聽眾(或讀者)感知他們的語言并推斷其中的含義。11.1語言的問題和可能性這種通過語言的交流促進了文明的發(fā)展,是我們傳播文化、法律、科學和技術知識的主要方式。語言是人類區(qū)別于其他動物的本質(zhì)特性。在所有生物中,只有人類才具有語言能力,人類的智能與語言密切相關。人類的邏輯思維以語言為形式,人類的絕大部分知識也是以語言文字的形式記載和流傳下來的。11.1語言的問題和可能性口語是人類之間最常見、最古老的語言交流形式,使我們能夠進行同步對話——可以與一個或多個人進行交互式交流,讓我們變得更具表現(xiàn)力,最重要的是,也可以讓我們彼此傾聽。雖然語言有其精確性,卻很少有人會非常精確地使用語言。兩方或多方說的不是同一種語言,對語言有不同的解釋,詞語沒有被正確理解,聲音可能聽不清或很含糊,又或者受到地方方言的影響,此時,口語就會導致誤解。11.1語言的問題和可能性試思考下列一些通信方式,思考這些方式在正常使用的情況下怎么會導致溝通不暢:電話——聲音可能聽不清楚,一個人的話可能被誤解,雙方對語言理解構成了其獨特的問題集,存在錯誤解釋、錯誤理解、錯誤回顧等許多可能性。手寫信——可能難以辨認,容易發(fā)生各種書寫錯誤;郵局可能會丟失信件:發(fā)信人和日期可以省略。11.1語言的問題和可能性打字信——速度不夠快,信件的來源及其背后的真實含義可能被誤解,可能不夠正式。電子郵件——需要上網(wǎng),容易造成上下文理解錯誤和誤解其意圖。微信消息——精確、快速,可能同步但仍然不像說話那樣流暢。記錄可以得到保存。短信——需要手機,長度有限,可能難以編寫(如鍵盤小,有時不能發(fā)短信等)。11.1語言的問題和可能性語言既是精確也是模糊的。在法律或科學事務中,語言需要得到精確使用;又或者它可以有意地以“藝術”的方式(例如詩歌或小說)使用。作為交流的一種形式,書面語或口語又可能是模糊的。11.1語言的問題和可能性示例11-1“音樂會結束后,我要在酒吧見到你?!北M管很多缺失的細節(jié)使得這個約會可能不會成功,但是這句話的意圖是明確的。如果音樂廳里有多個酒吧怎么辦?音樂會可能就在酒吧里,我們音樂會后相見嗎?相見的確切時間是什么?你愿意等待多久?語句“音樂會結束后”表明了意圖,但是不明確。經(jīng)過一段時間后,雙方將會做什么呢?他們遇到對方了嗎?11.1語言的問題和可能性示例11-2“在第三盞燈那里右轉。”這句話的意圖是明確的,但是省略了很多細節(jié)。燈有多遠?它們可能會相隔幾個街區(qū)或者相距幾公里。當方向給出后,提供更精確的信息(如距離、地標等)將有助于駕駛指導。11.1語言的問題和可能性可以看到,語言中有許多含糊之處,可以想象語言理解可能會給機器帶來的問題。對計算機而言,理解語音無比困難,但理解文本就簡單得多。文本語言可以提供記錄(無論是書、文檔、電子郵件還是其他形式),這是明顯的優(yōu)勢,但是文本語言缺乏口語所能提供的自發(fā)性、流動性和交互性。11.1語言的問題和可能性PART02什么是自然語言處理使用自然語言與計算機進行通信,這是人們長期以來所追求的。因為它既有明顯的實際意義,同時也有重要的理論意義:人們可以用自己最習慣的語言來使用計算機,而無需再花大量的時間和精力去學習不很自然和不習慣的各種計算機語言;人們也可以通過它進一步了解人類的語言能力和智能的機制。11.2什么是自然語言處理自然語言會話是人工智能發(fā)展史上從早期開始就被關注的主題之一。開發(fā)智能系統(tǒng)的任何嘗試,最終似乎都必須解決一個問題,即使用何種形式的標準進行交流,比起使用圖形系統(tǒng)或基于數(shù)據(jù)系統(tǒng)的交流,語言交流通常是首選。11.2.1自然語言處理的原因計算機進行自然語言處理有以下3個主要原因。(1)與人類交流。很多情況下,人類使用語音與計算機進行交互很方便,而且在大多數(shù)情況下,使用自然語言要比使用形式語言更加方便。(2)學習。人類已經(jīng)用自然語言記錄了很多知識。例如某個百科網(wǎng)站就有3000萬頁事實知識,例如“嬰猴是一種夜間活動的小型靈長類動物”,然而幾乎沒有任何一個這樣的知識來源是用形式邏輯寫成的。如果我們想讓計算機系統(tǒng)知道很多知識,它最好能理解自然語言。(3)使用人工智能工具有助于結合語言學、認知心理學和神經(jīng)科學,促進對語言和語言使用的科學理解。11.2.1自然語言處理的原因實現(xiàn)人機間自然語言通信意味著要使計算機既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等。前者稱為自然語言理解,后者稱為自然語言生成,因此,自然語言處理大體包括了這兩個部分。11.2.2自然語言處理的方法從現(xiàn)有的理論和技術現(xiàn)狀看,通用的、高質(zhì)量的自然語言處理系統(tǒng)仍然是較長期的努力目標,但是針對一定應用,具有相當自然語言處理能力的實用系統(tǒng)已經(jīng)出現(xiàn),有些已商品化甚至產(chǎn)業(yè)化。典型的例子有:多語種數(shù)據(jù)庫和專家系統(tǒng)的自然語言接口、各種機器翻譯系統(tǒng)、全文信息檢索系統(tǒng)、自動文摘系統(tǒng)等。11.2.2自然語言處理的方法造成自然語言處理困難的根本原因是自然語言文本和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性。一個中文文本從形式上看是由漢字(包括標點符號等)組成的一個字符串。由字組成詞,由詞組成詞組,由詞組組成句子,進而由一些句子組成段、節(jié)、章、篇。無論在字(符)、詞、詞組、句子、段各種層次,還是在下一層次向上一層次轉變中,都存在著歧義和多義現(xiàn)象,即形式上一樣的一段字符串,在不同的場景或不同的語境下,可以理解成不同的詞串、詞組串等,并有不同的意義。11.2.2自然語言處理的方法反過來,一個相同或相近的意義同樣也可以用多個文本或多個字串來表示。一般情況下,它們中的大多數(shù)都可以根據(jù)相應的語境和場景的規(guī)定而得到解決的。也就是說,從總體上說,并不存在歧義。這也就是我們平時并不感到自然語言歧義,和能用自然語言進行正確交流的原因。我們也看到,為了消解歧義,需要大量的知識和進行推理。如何將這些知識較完整地加以收集和整理出來;又如何找到合適的形式,將它們存入計算機系統(tǒng)中去;以及如何有效地利用它們來消除歧義,都是工作量極大且十分困難的工作。11.2.2自然語言處理的方法自然語言的形式(字符串)與其意義之間是一種多對多的關系,其實這也正是自然語言的魅力所在。但從計算機處理的角度看,人們必須消除歧義,要把帶有潛在歧義的自然語言輸入轉換成某種無歧義的計算機內(nèi)部表示。11.2.2自然語言處理的方法以基于語言學的方法、基于知識的方法為主流的自然語言處理研究所存在的問題主要有兩個方面:一方面,迄今為止的語法都限于分析一個孤立的句子,上下文關系和談話環(huán)境對本句的約束和影響還缺乏系統(tǒng)的研究,因此分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題,尚無明確規(guī)律可循,需要加強語用學的研究才能逐步解決。11.2.2自然語言處理的方法另一方面,人理解一個句子不是單憑語法,還運用了大量的有關知識,包括生活知識和專門知識,這些知識無法全部貯存在計算機里。因此一個書面理解系統(tǒng)只能建立在有限的詞匯、句型和特定的主題范圍內(nèi);計算機的貯存量和運轉速度大大提高之后,才有可能適當擴大范圍。11.2.2自然語言處理的方法自然語言處理是一個非常大的領域,它的一些主要任務包括如下。(1)語音識別。是將語音轉換為文本的任務。之后我們可以對生成的文本執(zhí)行進一步的任務(如問答)。取決于測試集的具體情況,語音識別系統(tǒng)的單詞錯誤率大約為3%~5%,與人工轉錄員的錯誤率相近。語音識別系統(tǒng)面臨的挑戰(zhàn)是即使個別單詞有錯誤,也要做出適當?shù)捻憫?1.2.3自然語言處理的任務頂級語音識別系統(tǒng)結合了循環(huán)神經(jīng)網(wǎng)絡和隱馬爾可夫模型。2011年,語音領域引入深度神經(jīng)網(wǎng)絡,錯誤率立即顯著改進了約30%——這一領域似乎已經(jīng)成熟,之前每年的改進只有幾個百分點。語音識別問題具有自然的成分分解,所以非常適合使用深度神經(jīng)網(wǎng)絡:從波形到音素再到單詞最后到句子。11.2.3自然語言處理的任務(2)文本-語音合成。是與語音識別相反的過程——將文本轉換為聲音。文本-語音合成面臨的挑戰(zhàn)是如何對每個單詞正確發(fā)音,同時通過適當?shù)耐nD和強調(diào)讓每個句子聽起來自然流暢。另一個發(fā)展領域是合成不同的聲音——從普通男性或女性的聲音開始,接著可以合成地方方言,甚至模仿名人的聲音。與語音識別一樣,深層循環(huán)神經(jīng)網(wǎng)絡的引入為文本-語音合成帶來了巨大的進步,大約2/3的聽者認為,采用神經(jīng)網(wǎng)絡的語音處理系統(tǒng)比之前的非神經(jīng)網(wǎng)絡系統(tǒng)聽起來更自然。11.2.3自然語言處理的任務(3)機器翻譯。將文本從一種語言轉換到另一種語言,其發(fā)展態(tài)勢如圖11-5所示。系統(tǒng)通常使用雙語語料庫進行訓練。例如,一組成對的文檔,每對文檔的其中一個使用英語,而另一個使用中文。不需要以任何方式對文檔進行標記;機器翻譯系統(tǒng)學習如何對齊句子和短語,然后當遇到其中一種語言的新語句時,可以生成另一種語言的翻譯。

圖11-5機器翻譯發(fā)展歷程11.2.3自然語言處理的任務21世紀早期的機器翻譯系統(tǒng)使用n元模型,系統(tǒng)通常能夠理解文本的含義,但大多數(shù)句子都包含文法錯誤。一個問題是n元的長度限制:即使將限制放大到7,信息也很難從句子的一端傳遞到另一端。另一個問題是,一個n元模型中的所有信息都位于單個單詞的層級。這樣的系統(tǒng)可以學習將“blackcat(英語:黑貓)”翻譯成“chatnoir(法語:黑貓)”,但是卻不能學到英語中形容詞通常在名詞之前而法語中形容詞通常在名詞之后這樣的規(guī)則。11.2.3自然語言處理的任務序列到序列循環(huán)神經(jīng)網(wǎng)絡模型解決了這一問題。它們可以更好地泛化,并且可以在整個深度網(wǎng)絡的不同層級上形成組合模型,從而有效地傳遞信息。之后的工作使用Transformer(“變壓器”)模型的注意力機制,提高了翻譯性能,對這兩種模型各方面進行結合的混合模型則進一步提升了效果,在某些語言對上達到了人類水平的表現(xiàn)。11.2.3自然語言處理的任務(4)信息提取。是通過瀏覽文本并查找文本中特定類別的對象及其關系來獲取知識的過程。典型的任務包括,從網(wǎng)頁中提取地址實例獲取街道名、城市名、地區(qū)名以及郵政編碼等數(shù)據(jù)庫字段;從天氣預報中提取暴風雨信息,獲取溫度、風速以及降水量等字段。如果源文本具有很好的結構(如以表格的形式),那么像正則表達式之類的簡單技術就可以進行信息提取。11.2.3自然語言處理的任務如果我們試圖提取所有事實,而不僅是特定類型(如天氣預報),那么提取會變得更加困難;TextRunner(文本運行程序)系統(tǒng)在一個開放的不斷擴展的關系集上進行信息提取。對于自由格式的文本,可以使用隱馬爾可夫模型和基于規(guī)則的學習系統(tǒng)。如今的系統(tǒng)使用循環(huán)神經(jīng)網(wǎng)絡,以利用詞嵌入的靈活性。11.2.3自然語言處理的任務(5)信息檢索。其任務是查找與給定查詢相關且重要的文檔。百度和谷歌等互聯(lián)網(wǎng)搜索引擎每天都會執(zhí)行數(shù)十億次這樣的任務。(6)問答。與信息檢索不同,它的查詢其實是一個問題,如“誰創(chuàng)立了美國海岸警衛(wèi)隊”,查詢結果也不是一個排好序的文檔列表,而是一個實際答案:“AlexanderHamilton.(亞歷山大·漢密爾頓)”。自20世紀60年代以來,就已經(jīng)出現(xiàn)了依賴于句法分析的問答系統(tǒng),但是直到2001年,這類系統(tǒng)才開始使用網(wǎng)頁信息檢索,從根本上增加了系統(tǒng)的覆蓋范圍。11.2.3自然語言處理的任務在數(shù)學、邏輯和計算機科學中,所謂“形式語言”是用精確的數(shù)學或機器可處理的公式定義的語言。形式語言一般有兩個方面:語法和語義。專門研究語言語法的數(shù)學和計算機科學分支叫做形式語言理論,其中的形式語言就是一個字母表上的某些有限長字符串的集合。一個形式語言可以包含無限多個字符串,然而自然語言(如英語或漢語)就無法如此清晰地表示。11.2.4語言模型我們將語言模型定義為描述任意字符串可能性的概率分布。通過語言模型可以預測文本中接下來可能出現(xiàn)的單詞,從而為電子郵件或短信息提供補全建議??梢杂嬎愠鰧ξ谋具M行哪些更改會使其具有更高的概率,從而提供拼寫或文法更正建議。通過一對語言模型,可以計算出一個句子最可能的翻譯。用一些示例“問題-答案”對作為訓練數(shù)據(jù),可以計算出針對某一問題的最可能的答案。因此,語言模型是各種自然語言任務的核心。語言建模任務本身也可以作為衡量語言理解進度的通用基準。11.2.4語言模型自然語言是復雜的,因此任何語言模型充其量只能是自然語言的一個近似。語言學家愛德華·薩丕爾曾說“沒有一種語言是絕對一成不變的,任何文法都會有所遺漏”。哲學家唐納德·戴維森曾經(jīng)表達過這樣的意思:沒有一種像Python3.8那樣的確定性的自然語言模型,人們有不同的模型,但人類仍然設法應對過去了,并進行交流。11.2.4語言模型傳統(tǒng)情況下,CNN(卷積神經(jīng)網(wǎng)絡)和RNN(遞歸神經(jīng)網(wǎng)絡)幾乎占據(jù)著深度學習的半壁江山。而如今,人們正越來越關注Transformer模型結構(圖11-6)。Transformer一開始就是為語言任務而設計的,但它在模仿大腦方面也有著很大的潛力,它是一個利用注意力機制來提高模型訓練速度的深度學習模型。它適用于并行計算,其本身模型的復雜程度使得它在精度和性能上都要高于傳統(tǒng)的CNN和RNN,它完全由Self-attention(自我關注)機制組成,它不僅賦予各種AI應用模型寫文作詩的功能,而且在多模態(tài)方面也大放異彩。11.2.4語言模型圖11-6Transformer模型結構11.2.4語言模型PART03語法類型與語義分析自然語言理解的研究工作最早的是機器翻譯。1949年,美國人威弗首先提出了機器翻譯設計方案,此后,自然語言處理歷史大致分為6個時期(表11-1)。11.3語法類型與語義分析表11-1NLP的6個時期11.3語法類型與語義分析自然語言處理的歷史可追溯到以圖靈的計算算法模型為基礎的計算機科學發(fā)展之初。在奠定了初步基礎后,該領域出現(xiàn)了許多子領域,每個子領域都為計算機進一步的研究提供了沃土。隨著計算機的速度和內(nèi)存的不斷增加,可用的高性能計算系統(tǒng)加速了發(fā)展。隨著大量用戶可用更多的計算能力,語音和語言處理技術可以應用于商業(yè)領域。特別是在各種環(huán)境中,具有拼寫/語法校正工具的語音識別變得更加常用。由于信息檢索和信息提取成了Web應用的關鍵部分,因此Web是這些應用的另一個主要推動力。11.3語法類型與語義分析近年來,無監(jiān)督的統(tǒng)計方法重新得到關注。這些方法有效地應用到了對單獨、未加注釋的數(shù)據(jù)進行機器翻譯方面。可靠、已注釋的語料庫的開發(fā)成本成了監(jiān)督學習方法使用的限制因素。11.3語法類型與語義分析在自然語言處理中,我們可以在一些不同結構層次上對語言進行分析,如句法、詞法和語義等,所涉及到的一些關鍵術語簡單介紹如下:詞法——對單詞的形式和結構的研究,還研究詞與詞根以及詞的衍生形式之間的關系。句法——將單詞放在一起形成短語和句子的方式,通常關注句子結構的形成。語義學——語言中對意義進行研究的科學。11.3.1語法類型解析——將句子分解成語言組成部分,并對每個部分的形式、功能和語法關系進行解釋。語法規(guī)則決定了解析方式。詞匯——與語言的詞匯、單詞或語素(原子)有關。詞匯源自詞典。語用學——在語境中運用語言的研究。省略——省略了在句法上所需的句子部分,但是,從上下文而言,句子在語義上是清晰的。11.3.1語法類型學習語法是學習語言和教授計算機語言的一種好方法。費根鮑姆等人將語言的語法定義為“指定在語言中所允許語句的格式,指出將單詞組合成形式完整的短語和子句的句法規(guī)則?!甭槭±砉W院的語言學家諾姆·喬姆斯基在對語言語法進行數(shù)學式的系統(tǒng)研究中做出了開創(chuàng)性的工作,為計算語言學領域的誕生奠定了基礎。他將形式語言定義為一組由符號詞匯組成的字符串,這些字符串符合語法規(guī)則。字符串集對應于所有可能句子的集合,其數(shù)量可能無限大。符號的詞匯表對應于有限的字母或單詞詞典。11.3.1語法類型喬姆斯基非常了解形式語法的局限性,提出語言必須在兩個層面上進行分析:表面結構,進行語法上的分析和解析;基礎結構(深層結構),保留句子的語義信息。關于復雜的計算機系統(tǒng),通過與醫(yī)學示例的類比,道江教授總結了表面理解和深層理解之間的區(qū)別:“一位患者的臀部有一個膿腫,通過穿刺可以除去這個膿腫。但是,如果他患的是會迅速擴散的癌癥(一個深層次的問題),那么任何次數(shù)的穿刺都不能解決這個問題。”11.3.2語義分析研究人員解決這個問題的方法是增加更多的知識,如關于句子的更深層結構的知識、關于句子目的的知識、關于詞語的知識,甚至詳盡地列舉句子或短語的所有可能含義的知識。在過去幾十年中,隨著計算機速度和內(nèi)存的成倍增長,這種完全枚舉的可能性變得更如現(xiàn)實。11.3.2語義分析在早些時候,機器翻譯主要是通過非統(tǒng)計學方法進行的。翻譯的3種主要方法是:①直接翻譯,即對源文本的逐字翻譯。②使用結構知識和句法解析的轉換法。③中間語言方法,即將源語句翻譯成一般的意義表示,然后將這種表示翻譯成目標語言。這些方法都不是非常成功。圖11-7機器翻譯11.3.3IBM機器翻譯系統(tǒng)隨著IBMCandide系統(tǒng)的發(fā)展,20世紀90年代初,機器翻譯開始向統(tǒng)計方法過渡。這個項目對隨后的機器翻譯研究形成了巨大的影響,統(tǒng)計方法在接下來的幾年中開始占據(jù)主導地位。在語音識別的上下文中己經(jīng)開發(fā)了概率算法,IBM將此概率算法應用于機器翻譯研究。概率統(tǒng)計方法是過去幾十年中自然語言處理的準則,NLP研究以統(tǒng)計作為主要方法,解決在這個領域中長期存在的問題,被稱之為“統(tǒng)計革命”。11.3.3IBM機器翻譯系統(tǒng)PART04處理數(shù)據(jù)與處理工具現(xiàn)代NLP算法是基于機器學習,特別是統(tǒng)計機器學習的,它不同于早期的嘗試語言處理,通常涉及大量的規(guī)則編碼。11.4處理數(shù)據(jù)與處理工具統(tǒng)計方法需要大量數(shù)據(jù)才能訓練概率模型。出于這個目的,在語言處理應用中,使用了大量的文本和口語集。這些集由大量句子組成,人類注釋者對這些句子進行了語法和語義信息的標記。自然語言處理中的一些典型的自然語言處理數(shù)據(jù)集包括:tc-corpus-train(語料庫訓練集)、面向文本分類研究的中英文新聞分類語料、以IG卡方等特征詞選擇方法生成的多維度ARFF格式中文VSM模型、萬篇隨機抽取論文中文DBLP資源、用于非監(jiān)督中文分詞算法的中文分詞詞庫、UCI評價排序數(shù)據(jù)、帶有初始化說明的情感分析數(shù)據(jù)集等。11.4.1統(tǒng)計自然語言處理數(shù)據(jù)集許多不同類型的機器學習算法已應用于自然語言處理任務,這些算法的輸入是一大組從輸入數(shù)據(jù)生成的“特征”。一些最早使用的算法,如決策樹,產(chǎn)生類似于手寫的if-then規(guī)則。隨著越來越多的研究集中于統(tǒng)計模型,人們愈加重視基于附加實數(shù)值的權重,每個輸入要素的可適應性,概率的決策性等。此類模型能夠表達許多不同的可能答案,而不是只有一個相對的確定性,這種模型被包括作為較大系統(tǒng)的一個組成部分。11.4.2自然語言處理工具(1)OpenNLP:是一個基于Java機器學習工具包,用于處理自然語言文本。支持大多數(shù)常用的NLP任務,例如:標識化、句子切分、部分詞性標注、名稱抽取、組塊、解析等。11.4.2自然語言處理工具(2)FudanNLP:主要是為中文自然語言處理而開發(fā)的工具包,也包含為實現(xiàn)這些任務的機器學習算法和數(shù)據(jù)集。本工具包及其包含數(shù)據(jù)集使用LGPL3.0許可證,其開發(fā)語言為Java,主要功能是:·文本分類:新聞聚類;·中文分詞:詞性標注、實體名識別、關鍵詞抽取、依存句法分析、時間短語識別;·結構化學習:在線學習、層次分類、聚類、精確推理。11.4.2自然語言處理工具(3)語言技術平臺:是哈工大社會計算與信息檢索研究中心歷時十年開發(fā)的一整套中文語言處理系統(tǒng),系統(tǒng)制定了基于XML的語言處理結果表示,并在此基礎上提供了一整套自底向上的豐富而且高效的中文語言處理模塊(包括詞法、句法、語義等6項中文處理核心技術),以及基于動態(tài)鏈接庫的應用程序接口,可視化工具,并且能夠以網(wǎng)絡服務的形式進行使用。11.4.2自然語言處理工具自然語言處理的技術難點一般有:(1)單詞的邊界界定。在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。(2)詞義的消歧。許多字詞不單只有一個意思,因而我們必須選出使句意最為通順的解釋。11.4.3自然語言處理技術難點(3)句法的模糊性。自然語言的文法通常是模棱兩可的,針對一個句子通??赡軙饰龀龆嗫闷饰鰳?,而我們必須要仰賴語意及前后文的信息才能在其中選擇一棵最為適合的剖析樹。(4)有瑕疵的或不規(guī)范的輸入。例如語音處理時遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學字符識別(OCR)的錯誤。11.4.3自然語言處理技術難點(5)語言行為與計劃。句子常常并不只是字面上的意思;例如,“你能把鹽遞過來嗎”,一個好的回答應當是把鹽遞過去;在大多數(shù)上下文環(huán)境中,“能”將是糟糕的回答,雖說回答“不”或者“太遠了我拿不到”也是可以接受的。再者,如果一門課程上一年沒開設,對于提問“這門課程去年有多少學生沒通過?”回答“去年沒開這門課”要比回答“沒人沒通過”好。11.4.3自然語言處理技術難點PART05語音處理語音處理是研究語音發(fā)聲過程、語音信號的統(tǒng)計特性、語音的自動識別、機器合成以及語音感知等各種處理技術的總稱。由于現(xiàn)代的語音處理技術都以數(shù)字計算為基礎,并借助微處理器、信號處理器或通用計算機加以實現(xiàn),因此也稱數(shù)字語音信號處理。語音信號處理是一門多學科的綜合技術。它以生理、心理、語言以及聲學等基本實驗為基礎,以信息論、控制論、系統(tǒng)論的理論作指導,通過應用信號處理、統(tǒng)計分析、模式識別等現(xiàn)代技術手段,發(fā)展成為新的學科。11.5語音處理語音信號處理的研究起源于對發(fā)音器官的模擬。1939年美國H.杜德萊展示了一個簡單的發(fā)音過程模擬系統(tǒng),以后發(fā)展為聲道的數(shù)字模型。利用該模型可以對語音信號進行各種頻譜及參數(shù)的分析,進行通信編碼或數(shù)據(jù)壓縮的研究,同時也可根據(jù)分析獲得的頻譜特征或參數(shù)變化規(guī)律,合成語音信號,實現(xiàn)機器的語音合成。利用語音分析技術,還可以實現(xiàn)對語音的自動識別,發(fā)音人的自動辨識,如果與人工智能技術結合,還可以實現(xiàn)各種語句的自動識別以至語言的自動理解,從而實現(xiàn)人機語音交互應答系統(tǒng),真正賦予計算機以聽覺的功能。11.5.1語音處理的發(fā)展語言信息主要包含在語音信號的參數(shù)之中,因此準確而迅速地提取語言信號的參數(shù)是進行語音信號處理的關鍵。常用的語音信號參數(shù)有:共振峰幅度、頻率與帶寬、音調(diào)和噪音、噪音的判別等。后來又提出了線性預測系數(shù)、聲道反射系數(shù)和倒譜參數(shù)等參數(shù)。這些參數(shù)僅僅反映了發(fā)音過程中的一些平均特性,而實際語言的發(fā)音變化相當迅速,需要用非平穩(wěn)隨機過程來描述,因此,20世紀80年代之后,研究語音信號非平穩(wěn)參數(shù)分析方法迅速發(fā)展,人們提出了一整套快速的算法,還有利用優(yōu)化規(guī)律實現(xiàn)以合成信號統(tǒng)計分析參數(shù)的新算法,取得了很好的效果。11.5.1語音處理的發(fā)展當語音處理向實用化發(fā)展時,人們發(fā)現(xiàn)許多算法的抗環(huán)境干擾能力較差。因此,在噪聲環(huán)境下保持語音信號處理能力成為了一個重要課題。這促進了語音增強的研究。一些具有抗干擾性的算法相繼出現(xiàn)。當前,語音信號處理日益同智能計算技術和智能機器人的研究緊密結合,成為智能信息技術中的一個重要分支。11.5.1語音處理的發(fā)展語音信號處理在通信、國防等部門中有著廣闊的應用領域。為了改善通信中語言信號的質(zhì)量而研究的各種頻響修正和補償技術,為了提髙效率而研究的數(shù)據(jù)編碼壓縮技術,以及為了改善通信條件而研究的噪聲抵消及干擾抑制技術,都與語音處理密切相關。在金融部門應用語音處理,開始利用說話人識別和語音識別實現(xiàn)根據(jù)用戶語音自動存款、取款的業(yè)務。在儀器儀表和控制自動化生產(chǎn)中,利用語音合成讀出測量數(shù)據(jù)和故障警告。隨著語音處理技術的發(fā)展,可以預期它將在更多部門得到應用。11.5.1語音處理的發(fā)展人們通常更方便說話而不是打字,因此語音識別軟件非常受歡迎??谑雒畋扔檬髽嘶蛴|摸板點擊按鈕更快。要在Windows中打開如“記事本”這樣的程序,需要單擊開始、程序、附件,最后點擊記事本,最輕松也需要點擊四到五次。語音識別軟件允許用戶簡單地說“打開記事本”,就可以打開程序,節(jié)省了時間,有時也改善了心情。11.5.2語音理解語音理解是指利用知識表達和組織等人工智能技術進行語句自動識別和語意理解。同語音識別的主要不同點是對語法和語義知識的充分利用程度。語音理解起源于1971年美國遠景研究計劃局(ARPA)資助的一個龐大研究項目,該項目要達到的目標叫做語音理解系統(tǒng)。由于人對語音有廣泛的知識,可以對要說的話有一定的預見性,所以人對語音具有感知和分析能力。依靠人對語言和談論的內(nèi)容所具有的廣泛知識,利用知識提高計算機理解語言的能力,就是語音理解研究的核心。11.5.2語音理解利用理解能力,可以使系統(tǒng)提高性能:①能排除噪聲和嘈雜聲;②能理解上下文的意思并能用它來糾正錯誤,澄清不確定的語義;③能夠處理不合語法或不完整的語句。因此,研究語音理解的目的,可以說是與其研究系統(tǒng)仔細地去識別每一個單詞,倒不如去研究系統(tǒng)能抓住說話的要旨更為有效。11.5.2語音理解一個語音理解系統(tǒng)除了包括原語音識別所要求的部分之外,還須添入知識處理部分。知識處理包括知識的自動收集、知識庫的形成,知識的推理與檢驗等。當然還希望能有自動地作知識修正的能力。因此語音理解可以認為是信號處理與知識處理結合的產(chǎn)物。語音知識包括音位知識、音變知識、韻律知識、詞法知識、句法知識,語義知識以及語用知識。這些知識涉及實驗語音學、漢語語法、自然語言理解、以及知識搜索等許多交叉學科。11.5.2語音理解語音識別是指利用計算機自動對語音信號的音素、音節(jié)或詞進行識別的技術總稱。語音識別是實現(xiàn)語音自動控制的基礎。語音識別起源于20世紀50年代的“口授打字機”夢想,科學家在掌握了元音的共振峰變遷問題和輔音的聲學特性之后,相信從語音到文字的過程是可以用機器實現(xiàn)的,即可以把普通的讀音轉換成書寫的文字。語音識別的理論研究已經(jīng)有40多年,但是轉入實際應用卻是在數(shù)字技術、集成電路技術發(fā)展之后,現(xiàn)在已經(jīng)取得了許多實用的成果。11.5.3語音識別語音識別一般要經(jīng)過以下幾個步驟:

圖11-8語音識別系統(tǒng)框架11.5.3語音識別(1)語音預處理,包括對語音幅度標稱化、頻響校正、分幀、加窗和始末端點檢測等內(nèi)容。(2)語音聲學參數(shù)分析,包括對語音共振峰頻率、幅度等參數(shù),以及對語音的線性預測參數(shù)、倒譜參數(shù)等的分析。(3)參數(shù)標稱化,主要是時間軸上的標稱化,常用的方法有動態(tài)時間規(guī)整(DTW),或動態(tài)規(guī)劃方法(DP)。(4)模式匹配,可以采用距離準則或概率規(guī)則,也可以采用句法分類等。(5)識別判決,通過最后的判別函數(shù)給出識別的結果。11.5.3語音識別語音識別可按不同的識別內(nèi)容進行分類:有音素識別、音節(jié)識別、詞或詞組識別;也可以按詞匯量分類:有小詞匯量(50個詞以下)、中詞量(50~500個詞)、大詞量(500個詞以上)及超大詞量(幾十至幾萬個詞)。按照發(fā)音特點分類:可以分為孤立音、連接音及連續(xù)音的識別。按照對發(fā)音人的要求分類:有認人識別,即只對特定的發(fā)話人識別,和不認人識別,即不分發(fā)話人是誰都能識別。顯然,最困難的語音識別是大詞量、連續(xù)音和不識人同時滿足的語音識別。11.5.3語音識別如今,幾乎每個人都擁有一臺帶有蘋果或安卓操作系統(tǒng)的智能手機。這些設備具有語音識別功能,使用戶能夠說出自己的短信而無須輸入字母。導航設備也增加了語音識別功能,用戶無須打字,只需說出目的地址或“家”,就可以導航回家。如果有人由于拼寫困難或存在視力問題,無法在小窗口中使用小鍵盤,那么語音識別功能是非常有幫助的。11.5.3語音識別第2版人工智能通識教程第12章周蘇教授QQ:81505050GPT——大語言模型崛起導讀案例:2023國內(nèi)大模型匯總大模型領域在國內(nèi)外都取得了顯著的成就,各個國家和地區(qū)的企業(yè)、機構以及學術界都在積極投入資源和努力,推動大模型技術的發(fā)展。01自然語言處理的進步02科普AI大語言模型03ChatGPT的模仿秀04傳統(tǒng)行業(yè)的下崗目錄/CONTENTS自然語言處理主要應用于機器翻譯、輿情監(jiān)測、自動摘要、觀點提取、文本分類、問題回答、文本語義對比、語音識別、中文OCR等方面?;诰浞ǚ治龊驼Z義分析的自然語言處理系統(tǒng)已經(jīng)在許多任務上獲得了成功,但是它們的性能受到實際文本中極度復雜的語言現(xiàn)象的限制。由于存在大量機器可讀形式的可用文本,因此,可以考慮基于數(shù)據(jù)驅動的機器學習方法應用于自然語言處理。第12章GPT——大語言模型崛起PART01自然語言處理的進步在2012年的ImageNet(圖12-2)比賽中,深度學習系統(tǒng)取得的令人驚嘆的優(yōu)秀表現(xiàn)帶動計算機視覺出現(xiàn)了一個發(fā)展的轉折點。而到2018年,自然語言處理也出現(xiàn)了一個轉折點,它的主要推動力是,深度學習和遷移學習顯著提高了自然語言處理的技術水平:可以下載通用語言模型,并針對特定任務進行微調(diào),以至于研究者為此斷言“自然語言處理的ImageNet時刻已經(jīng)到來”。12.1自然語言處理的進步

圖12-2ImageNet是一種數(shù)據(jù)集12.1自然語言處理的進步ImageNet是斯坦福大學教授李飛飛為了解決機器學習中過擬合和泛化的問題而牽頭構建的一種數(shù)據(jù)集。該數(shù)據(jù)集從2007年開始建立,2009年作為論文的形式在CVPR2009上發(fā)布。直到目前,該數(shù)據(jù)集仍然是深度學習領域中圖像分類、檢測、定位的最常用數(shù)據(jù)集之一?;贗mageNet有一個比賽,稱為ILSVRC(ImageNet大規(guī)模視覺識別挑戰(zhàn)賽),從2010年開始舉行,到2017年最后一屆結束,每年舉辦一次,每次從ImageNet數(shù)據(jù)集中抽取部分樣本作為比賽的數(shù)據(jù)集。12.1.1關于ImageNetILSVRC比賽包括:圖像分類、目標定位、目標檢測、視頻目標檢測、場景分類。在該比賽的歷年優(yōu)勝者中,誕生了AlexNet(2012)、VGG(2014)、GoogLeNet(2014)、ResNet(2015)等著名的深度學習網(wǎng)絡模型?!癐LSVRC”一詞有時也被用來特指該比賽使用的數(shù)據(jù)集,即ImageNet的一個子集,其中最常用的是2012年的數(shù)據(jù)集,記為ILSVRC2012。因此,有時候提到ImageNet,很可能是指ImageNet中的ILSVRC2012子集。ILSVRC2012數(shù)據(jù)集擁有1000個分類(這意味著面向ImageNet圖片識別的神經(jīng)網(wǎng)絡的輸出是1000個),每個分類約有1000張圖片。12.1.1關于ImageNet這些用于訓練的圖片總數(shù)約為120萬張,此外還有一些圖片作為驗證集和測試集。ILSVRC2012含有5萬張圖片作為驗證集,10萬張圖片作為測試集。測試集沒有標簽,驗證集的標簽在另外的文檔給出。ImageNet本身有1400多萬張圖片,2萬多的分類。其中有超過100萬張圖片有明確類別標注和物體位置標注。對于基于ImageNet的圖像識別的結果評估,往往用到兩個準確率的指標,一個是top-1準確率,一個是top-5準確率。top-1準確率指的是輸出概率中最大的那一個對應正確類別的概率;top-5準確率指的是輸出概率中最大的5個對應類別中包含正確類別的概率。12.1.1關于ImageNet自然語言處理的ImageNet轉折點始于2013年word2vec和2014年GloVe等系統(tǒng)生成的簡單詞嵌入。研究人員可以下載這樣的模型,或者在不使用超級計算機的情況下,相對快速地訓練他們自己的模型。另外,預訓練上下文表示的開銷要高出幾個量級。12.1.2自然語言處理的ImageNet時刻只有在硬件(GPU圖形處理器和TPU谷歌張量處理單元)進步普及之后,這些模型才是可行的,在這種情況下,研究人員能夠直接下載模型,而不需要花費資源訓練自己的模型。Transformer模型(谷歌云TPU推薦的參考模型)允許使用者高效地訓練比之前更大更深的神經(jīng)網(wǎng)絡(這一次是因為軟件的進步,而不是硬件的進步)。自2018年以來,新的自然語言處理項目通常從一個預先訓練好的Transformer模型開始。12.1.2自然語言處理的ImageNet時刻雖然這些Transformer模型被訓練用來預測文本中的下一個單詞,但它們在其他語言任務中的表現(xiàn)也出奇地好。經(jīng)過一些微調(diào)后,RoBERTa模型在問答和閱讀理解測試中取得了最高水平的成績。GPT-2是一種類似于Transformer的語言模型,它有15億個參數(shù),在40GB的因特網(wǎng)文本上訓練。它在法英翻譯、查找遠距離依賴的指代對象以及一般知識問答等任務中都取得了良好的成績,并且所有這些成績都沒有針對特定任務進行微調(diào)。例如在僅給定幾個單詞作為提示時,GPT-2依然可以生成相當令人信服的文本。12.1.2自然語言處理的ImageNet時刻作為一個高水平的自然語言處理系統(tǒng)示例,Aristo在八年級科學選擇題考試中獲得了91.6%的分數(shù)。Aristo由一系列求解器組成:一些使用信息檢索(類似于一個網(wǎng)絡搜索引擎),一些使用文本蘊涵和定性推理,還有一些使用大規(guī)模Transformer語言模型。結果表明,RoBERTa的測試成績是88.2%。Aristo在12年級考試中也取得了83%的成績(65%表示“達到標準”,85%表示“出色地達到標準”)。Aristo也有其局限性。它只能處理選擇題,不能處理論述題,而且它既不能閱讀也不能生成圖表。12.1.2自然語言處理的ImageNet時刻使用更多的訓練數(shù)據(jù)可以得到更好的模型,例如,RoBERTa在訓練了2.2萬億個單詞后獲得了最高水平的成績,如果使用更多的文本數(shù)據(jù)會更好。那么,如果進一步使用其他類型的數(shù)據(jù)——結構化數(shù)據(jù)庫、數(shù)值數(shù)據(jù)、圖像和視頻會怎么樣呢?當然,需要在硬件處理速度上取得突破,才能對大量視頻進行訓練,此外,可能還需要在人工智能方面取得一些突破。12.1.2自然語言處理的ImageNet時刻讀者可能會問:“為什么我們學習了文法、句法分析和語義解釋,現(xiàn)在卻舍棄了這些概念,轉而使用純粹的數(shù)據(jù)驅動模型?”答案很簡單,數(shù)據(jù)驅動的模型更容易開發(fā)和維護,并且在標準的基準測試中得分更高??赡苁荰ransformer及其相關模型學習到了潛在的表征,這些表征捕捉到與語法和語義信息相同的基本思想,也可能是在這些大模型中發(fā)生了完全不同的事情。但我們只知道,使用文本數(shù)據(jù)訓練的系統(tǒng)比依賴手工創(chuàng)建特征的系統(tǒng)更容易維護,更容易適應新的領域和新的自然語言。12.1.2自然語言處理的ImageNet時刻未來在顯式語法語義建模方面的突破也有可能會導致研究的重點回擺。更有可能出現(xiàn)的是混合方法。例如,基塔夫和克菜因使用注意力機制改進了傳統(tǒng)的成分句法分析器,從而獲得了PennTreebank(賓夕法尼亞樹銀行)測試集記錄的最佳結果。類似地,林高等人演示了如何通過詞嵌入和循環(huán)神經(jīng)網(wǎng)絡改進依存句法分析器。他們的系統(tǒng)SLING直接解析為一個語義框架表示,緩解了傳統(tǒng)管道系統(tǒng)中錯誤累積的問題。12.1.2自然語言處理的ImageNet時刻當然還有改進的空間。自然語言處理系統(tǒng)不僅在許多任務上仍然落后于人類,而且在處理了人類一輩子都無法閱讀的數(shù)千倍的文本之后,它們?nèi)匀宦浜笥谌祟?。這表明,語言學家、心理學家和自然語言處理研究人員要研究的東西還有很多。12.1.2自然語言處理的ImageNet時刻GPT(GenerativePre-trainedTransformer,衍生式預訓練變壓器)是一種基于互聯(lián)網(wǎng)可用數(shù)據(jù)訓練的文本生成深度學習模型,它主要用于問答、文本摘要生成、機器翻譯、分類、代碼生成和對話AI。12.1.3從GPT-1到GPT-32018年GPT-1誕生,這一年也是NLP(自然語言處理)的預訓練模型元年。在性能方面,GPT-1有一定的泛化能力,能夠用于和監(jiān)督任務無關的NLP任務中。其常用任務包括:·自然語言推理:判斷兩個句子的關系(包含、矛盾、中立)·問答與常識推理:輸入文章及若干答案,輸出答案的準確率·語義相似度識別:判斷兩個句子語義是否相關·分類:判斷輸入文本是指定的哪個類別12.1.3從GPT-1到GPT-3雖然GPT-1在未經(jīng)調(diào)試的任務上有一些效果,但其泛化能力遠低于經(jīng)過微調(diào)的有監(jiān)督任務,因此,它只能算得上是一個還不錯的語言理解工具而非對話式AI。12.1.3從GPT-1到GPT-3GPT-2于2019年如期而至,不過它并沒有對原有的網(wǎng)絡進行過多的結構創(chuàng)新與設計,只使用了更多的網(wǎng)絡參數(shù)與更大的數(shù)據(jù)集:最大模型共計48層,參數(shù)量達15億,學習目標則使用無監(jiān)督預訓練模型來完成有監(jiān)督任務。在性能方面,除了理解能力外,GPT-2在生成方面第一次表現(xiàn)出了強大的天賦:閱讀摘要、聊天、續(xù)寫、編故事,甚至生成假新聞、釣魚郵件或在網(wǎng)上進行角色扮演等,通通不在話下。在“變得更大”之后,GPT-2的確展現(xiàn)出了普適而強大的能力,并在多個特定的語言建模任務上實現(xiàn)了彼時的最佳性能。12.1.3從GPT-1到GPT-3之后,GPT-3出現(xiàn)了,作為一個無監(jiān)督模型(現(xiàn)在經(jīng)常被稱為自監(jiān)督模型),它幾乎可以完成自然語言處理的絕大部分任務,例如面向問題搜索、閱讀理解、語義推斷、機器翻譯、文章生成和自動問答等等。而且,該模型在諸多任務上表現(xiàn)卓越,例如在法語-英語和德語-英語機器翻譯任務上達到當前最佳水平,自動產(chǎn)生的文章幾乎讓人無法辨別是出自人還是機器(52%的正確率,與隨機猜測相當),更令人驚訝的,是在兩位數(shù)的加減運算任務上達到幾乎100%的正確率,甚至還可以依據(jù)任務描述自動生成代碼。12.1.3從GPT-1到GPT-3一個無監(jiān)督模型功能多效果好,似乎讓人們看到了通用人工智能的希望,可能這就是GPT-3影響如此之大的主要原因。12.1.3從GPT-1到GPT-3ChatGPT是由人工智能研究實驗室OpenAI在2022年11月30日發(fā)布的全新聊天機器人模型,一款人工智能技術驅動的自然語言處理工具。ChatGPT使用了Transformer神經(jīng)網(wǎng)絡架構,也是GPT-3.5架構的主力模型,這是一種用于處理序列數(shù)據(jù),優(yōu)化對話的語言模型,擁有語言理解和文本生成能力,尤其是它會通過連接大量語料庫來訓練模型,這些語料庫包含了真實世界中的對話,使得ChatGPT具備上知天文下知地理,還能根據(jù)聊天的上下文進行互動的能力,做到與人類幾乎無異的聊天場景進行交流。12.1.4ChatGPT聊天機器人模型與對策ChatGPT不單是聊天機器人,它還能夠通過學習和理解人類的語言來進行對話,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼等任務,同時也引起無數(shù)網(wǎng)友沉迷與ChatGPT聊天,成為大家討論的火爆話題。12.1.4ChatGPT聊天機器人模型與對策ChatGPT是一個免費程序,它具有同類產(chǎn)品具備的一些特性,例如對話能力,能夠在同一個會話期間內(nèi)回答上下文相關的后續(xù)問題。然而,在短時間內(nèi)引爆全球的原因還在于,在網(wǎng)友們曬出的截圖中,ChatGPT不僅能流暢地與用戶對話,甚至可根據(jù)提示生成幾乎任何主題的原始文本,包括文章、論文、笑話、編碼甚至詩歌。。由于ChatGPT太“聰明”,無數(shù)網(wǎng)友與它聊天,有人讓它幫忙改作業(yè),有人讓它扮演虛擬女友、有人讓它編寫請假理由、有人用它來補習外語,更有人讓ChatGPT陪自己演戲。無論是生成小說、疑難解答或者是哲學的問題,ChatGPT都交上幾乎完美的答案,令人驚嘆不已。12.1.4ChatGPT聊天機器人模型與對策ChatGPT采用了注重道德水平的訓練方式,按照預先設計的道德準則,對不懷好意的提問和請求“說不”。一旦發(fā)現(xiàn)用戶給出的文字提示里面含有惡意,包括但不限于暴力、歧視、犯罪等意圖,都會拒絕提供有效答案。不過,ChatGPT的強大功能引起學術界的擔憂。頂級科學雜志《自然》宣布,將人工智能工具列為作者的論文不能在該雜志上發(fā)表。2023年1月27日巴黎政治大學宣布,該校已向所有學生和教師發(fā)送電子郵件,要求禁止使用ChatGPT等一切基于AI的工具,旨在防止學術欺詐和剽竊。12.1.4ChatGPT聊天機器人模型與對策2023年初,谷歌發(fā)布了從文本生成高保真音樂的AI模型MusicLM的研究,該系統(tǒng)可以從文本描述中生成任何類型的高保真音樂。但因擔心風險,谷歌并沒有立即發(fā)布該產(chǎn)品?!拔覀儚娬{(diào),需要在未來開展更多工作,來應對這些與音樂生成相關的風險——目前沒有發(fā)布模型的計劃?!惫雀璋l(fā)布的論文寫道。12.1.5從文本生成音樂的MusicLM模型據(jù)了解,谷歌自己的AudioML和人工智能研究機構OpenAI的Jukebox等項目都可以從文字生成音樂。然而,MusicLM模型和龐大的訓練數(shù)據(jù)庫(280000小時的音樂)使其能制作出特別復雜或保真度特別高的歌曲。MusicLM不僅可以結合流派和樂器,還可以使用計算機通常難以掌握的抽象概念來編寫曲目。比如“一種舞曲和雷鬼音樂的混合體,其曲調(diào)空曠、超凡脫俗,能喚起驚奇和敬畏之感”,MusicLM就可以實現(xiàn)。12.1.5從文本生成音樂的MusicLM模型谷歌研究人員表明,該系統(tǒng)可以建立在現(xiàn)有旋律的基礎上,無論是哼唱、演唱、吹口哨還是在樂器基礎上演奏。此外,MusicLM有一個“故事模式”來編程特定時間的風格、氛圍和節(jié)奏的轉變,比如可以采用幾個按順序編寫的描述“冥想時間”“醒來時間”“跑步時間”來創(chuàng)建一種“故事”敘事旋律。12.1.5從文本生成音樂的MusicLM模型ChatGPT以其強大的信息整合和對話能力驚艷了全球,一項調(diào)查顯示,美國89%的大學生都是用ChatGPT做作業(yè),學生們已經(jīng)在用ChatGPT肆無忌憚地作弊了。于是,紐約的教育系統(tǒng)試圖全面封殺ChatGPT,老師們防ChatGPT如洪水猛獸,卻還是屢禁不止。很多教授在擔心,AI聊天機器人會對教育產(chǎn)生災難性影響,會讓學生的大腦“萎縮”。12.1.6檢測AI文本的DetectGPT算法當然,有攻就有防,斯坦福大學的研究團隊就提出了一種用于檢測AI生成文本的全新算法——DetectGPT。這個算法可以用于判斷文本是否是機器生成,并且不需要訓練人工智能或收集大型數(shù)據(jù)集來比較文本。研究團隊聲稱新算法檢測的準確性能有了實質(zhì)性的提高,并表明該技術可對未來越來越普遍的人工智能寫作論文事件起到很好的反制作用。雖然ChatGPT引發(fā)了學術誠信的風暴,但也有不少專家認為,這項技術只是一個新學習時代的開始,AI寫作工具是學習的未來。12.1.6檢測AI文本的DetectGPT算法PART02科普AI大語言模型人工智能大語言模型(AI-LLM)已經(jīng)引起社會各界關注。從知識中來,大模型的能力來源于人類的龐大知識庫;到知識中去,大模型也將重新塑造人類知識應用、創(chuàng)造和轉化的模式,在經(jīng)濟社會發(fā)展中產(chǎn)生巨大價值。12.2科普AI大語言模型大模型擁有豐富的各學科知識,并表現(xiàn)出一定的邏輯能力,這是因為科學家利用海量的人類語言數(shù)據(jù)和大規(guī)模的GPU(圖形處理器)算力,對大模型進行了預訓練,為其精心挑選的預訓練知識數(shù)據(jù)量達到13萬億“字”,相當于500萬套四大名著的規(guī)模;而通過訓練提取的“知識片段”,即模型的參數(shù),有1.8萬億個。無論訓練量和參數(shù)量都遠超以往人工智能模型的規(guī)模,這也是人工智能大語言模型這個名字的由來。12.2科普AI大語言模型這種利用龐大語料庫對人類知識進行建模的方式,可理解為對現(xiàn)實世界的一種“模糊壓縮”。通過訓練好的大模型來解答問題,相當于對世界的“模糊還原”?!澳:笨赡軐е聠栴}解答不準確,但也因為模糊,大模型可以解答原有知識解答不了的新問題。12.2科普AI大語言模型“壓縮”和“還原”的過程中,大模型都在反復預測文本中可能出現(xiàn)的下一個字。它用這樣的方式來理解人類語言和知識的規(guī)律,并在遇到問題時,利用模型學到的規(guī)律,一個字一個字地生成連貫而有意義的內(nèi)容。由于使用自然語言(而非程序語言)與人類進行交互,大模型可以靈活地接收并完成人類下達的各種知識型任務,這就打開了大模型跨學科跨行業(yè)應用的廣闊空間。大模型具有強大的應用前景。12.2科普AI大語言模型利用訓練中積累的知識,輔以專業(yè)領域的知識庫和流程邏輯,大模型可以充當行業(yè)專家的人工智能助手,甚至直接為客戶提供一對一的知識服務。例如,面向鄉(xiāng)村教師的人工智能助教,可以幫助教師進行課程設計和作業(yè)輔導,顯著提高鄉(xiāng)村教育質(zhì)量。通過一對一的知識定制應用,大模型能大大降低專業(yè)服務的交付成本,打破以往服務個性化和普惠化之間的矛盾,讓更多人享受到教育、醫(yī)療和法律等領域既個性化又普惠的專業(yè)服務。12.2科普AI大語言模型大模型還能通過知識的跨界關聯(lián),推動人類新知識的發(fā)現(xiàn)和創(chuàng)造。20世紀80年代,科研人員開始通過計算機技術分析科學文獻,尋找新的關聯(lián)協(xié)作機會點,比如利用這一方法發(fā)現(xiàn)魚油跟雷諾氏綜合征的關聯(lián)性,據(jù)此提出的療效假設得到了驗證。在跨學科研究成為大勢所趨的今天,化學及材料科學等領域的研究顯示,人工智能能實現(xiàn)更靈活、更深度的知識理解和挖掘,可將不同學科、不同語言的知識關聯(lián)到一起,幫助科學家發(fā)現(xiàn)創(chuàng)新盲點,提出新假設,給出跨學科研究路徑甚至合作對象的建議,從而推動人類知識發(fā)展到全新水平。12.2科普AI大語言模型工業(yè)制造未來也將是大模型的用武之地。大模型通過推動人類知識向物理機器轉移,實現(xiàn)更復雜的工業(yè)人機協(xié)作。在以往的工業(yè)制造自動化領域,機器人依據(jù)嚴謹?shù)念A定義編程指令來執(zhí)行操作,執(zhí)行任務的能力受到一定限制,因為大部分的人類知識存在模糊性,對這些知識的理解和應用依賴于環(huán)境和常識。比如對機器人說:“我要一個蘋果?!睓C器人不知道該去拿還是去買,不知道去哪拿、怎么買。12.2科普AI大語言模型而大模型可通過自然語言的交互,理解人類任務,借助自身訓練獲取的知識和外接的環(huán)境感知能力——知道冰箱在哪,猜測冰箱冷藏區(qū)可能有蘋果,正確拆解任務并轉譯為機器指令——找到并打開冰箱,取出蘋果,如果沒有,則通過網(wǎng)絡下單購買蘋果。這樣,大模型就在人類與機器人之間建立了復雜的、實時動態(tài)的協(xié)作機制,完成之前無法實現(xiàn)的、更高難度的工業(yè)制造任務。12.2科普AI大語言模型未來,知識的應用、創(chuàng)造和轉化將提升到一個新的高度。從老百姓可感知的民生普惠服務落地,同時進行更多方向探索——推動工業(yè)制造升級和科研手段演進,人工智能大模型對經(jīng)濟社會的影響將逐步往深層次發(fā)展,從而創(chuàng)造更大的社會價值。12.2科普AI大語言模型PART03ChatGPT的模仿秀現(xiàn)在是成為一家搜索初創(chuàng)公司的好時機。微軟和谷歌連續(xù)公布了它們各自對搜索引擎未來的看法,展示了可以用流暢的句子而不是鏈接列表來回答查詢的聊天機器人。微軟公司升級其必應搜索引擎,也使用爆紅聊天機器人ChatGPT背后的人工智能技術;谷歌則開發(fā)一個名為Bard的產(chǎn)品,以作為ChatGPT的競爭對手。12.3ChatGPT的模仿秀盡管微軟和谷歌這樣的巨頭將繼續(xù)占據(jù)主導地位,但對于任何想要尋找其他選擇的人來說,搜索領域將會涌入更多的參與者,并變得更加多樣化。在這種大背景下,一段時間以來涌現(xiàn)出來的一大波初創(chuàng)公司,已經(jīng)開發(fā)出了許多類似的聊天機器人輔助搜索工具。Y在2022年12月推出了一款搜索聊天機器人,此后一直在推出更新的功能。許多其他公司比如Perplexity、Andi和Metaphor,也在將聊天機器人應用與其他功能結合起來,例如圖像搜索、社交信息保存或搜索、以及快速搜索信息等。12.3.1舊的守衛(wèi),新的想法ChatGPT的成功引發(fā)了一場熱潮,因為科技巨頭和初創(chuàng)公司都在試圖找出答案——如何以人們意想不到的方式給他們想要的東西。谷歌多年來一直主導著搜索引擎市場。在美國華盛頓大學研究搜索技術的奇拉格·沙阿說:“這種局面已經(jīng)持續(xù)了很長時間了。”“盡管有很多創(chuàng)新,但情況并沒有發(fā)生太大的變化?!?2.3.1舊的守衛(wèi),新的想法隨著2022年11月ChatGPT的推出,情況發(fā)生了改變。突然間,通過輸入一串不連貫的單詞來搜索目標的想法已經(jīng)變得過時了,為什么不直接問你想要什么呢?谷歌探索大型語言模型(例如ChatGPT和Bard等聊天機器人背后的技術)的用途已經(jīng)有一段時間了。當ChatGPT成為主流熱門產(chǎn)品時,谷歌和微軟立即采取了行動,其他人也是如此。12.3.1舊的守衛(wèi),新的想法如今,現(xiàn)成的軟件使得構建一個搜索引擎并結合一個大型語言模型比以往任何時候都更容易。你可以依靠少數(shù)幾個工程師在幾個月內(nèi)大肆開發(fā)由數(shù)千名工程師在十余年間開發(fā)的技術庫。12.3.2搜索引擎結合LLM創(chuàng)立于2020年的Y網(wǎng)站為尋找谷歌替代品的網(wǎng)絡搜索高級用戶提供一站式服務,它旨在為人們提供各種格式的不同類型的答案,比如從電影推薦到代碼片段等。Y引入多模式搜索——它的聊天機器人可以使用來自附屬應用程序的圖像或嵌入式小部件而不是文本來響應查詢,它還具備一項讓人們與聊天機器人分享交流內(nèi)容的功能。Y推出的一項升級計劃,解決了有關現(xiàn)場體育賽事的問題,比如老鷹隊是否能在比賽還剩8分鐘的時間里贏得超級碗。12.3.2搜索引擎結合LLMPerplexity是一家由OpenAI、Meta和Quora的前員工建立的公司。這家初創(chuàng)公司將OpenAI的大型語言模型GPT-3與必應結合在一起,并于2022年12月推出了搜索聊天機器人,他們設想要抓住人們的興趣,并圍繞著它建立一個社區(qū)。這家公司希望重新創(chuàng)建基于社區(qū)的信息存儲庫,如Quora或維基百科,使用聊天機器人來生成條目,而不是人們自行編輯。當人們問Perplexity的聊天機器人問題時,問答環(huán)節(jié)會被保存下來,并可以被其他人瀏覽。用戶還可以對聊天機器人生成的響應投贊成票或反對票,并添加自己的見解到正在進行的線程中。這就像Reddit一樣,不過是人類在提問、人工智能做回答。12.3.2搜索引擎結合LLM曾經(jīng)有一次,當谷歌尚未發(fā)布的聊天機器人Bard被發(fā)現(xiàn)在一個匆忙發(fā)布的宣傳片中給出了錯誤答案的第二天(一個可能讓公司損失數(shù)十億美元的錯誤),Perplexity宣布了一個新的插件,它可以結合谷歌的網(wǎng)絡瀏覽器Chrome。對于相同的問題,后者給出了正確答案。12.3.2搜索引擎結合LLM總部位于美國邁阿密的搜索公司Andi的CEO兼聯(lián)合創(chuàng)始人安吉拉·胡佛成立了自己的公司,此前她對不得不篩選廣告和垃圾郵件以在谷歌中找到相關鏈接感到沮喪。與許多玩過ChatGPT等聊天機器人的人一樣,她的搜索靈感受到科幻小說中“萬事通”之類角色的啟發(fā),例如《鋼鐵俠》中的賈維斯或《她》中的薩曼莎。當然,我們還沒有這樣的東西。“我們不認為Andi什么都知道,”她說,“Andi只是在尋找人們放在互聯(lián)網(wǎng)上的信息,然后以一種漂亮的、包裝好的形式帶給你?!?2.3.2搜索引擎結合LLMAndi在搜索方面的創(chuàng)新,涉及到使用大型語言模型來選擇最佳結果并進行總結,她讓模型學習從普利策獲獎文章到SEO垃圾郵件的所有內(nèi)容,以讓搜索引擎更好地支持一些結果。最終,搜索之戰(zhàn)將不會局限于網(wǎng)絡——人們還需要使用工具來搜索更多的個人信息,比如電子郵件和短信。“與世界上其他數(shù)據(jù)相比,網(wǎng)絡很小,”有大量使用聊天機器人進行搜索的公司并未尋求與微軟和谷歌競爭,例如他們提供軟件以方便地將大語言模型與小型的、定制的搜索引擎相結合,可以為用戶手冊、醫(yī)療數(shù)據(jù)庫和播客文本構建定制的搜索工具。12.3.2搜索引擎結合LLM也有一些人認為用聊天機器人進行搜索是一個糟糕的想法,驅動它們的大語言模型充斥著偏見、偏見和錯誤信息。為搜索開發(fā)聊天機器人的公司,試圖通過將大語言模型嵌入到現(xiàn)有的搜索引擎,讓它們總結相關結果,而不是從零開始創(chuàng)造句子來回答問題。大多數(shù)人還會讓聊天機器人引用它們正在總結的網(wǎng)頁或文件。但這些策略并非是萬無一失的。例如自從微軟向一些試用用戶開放新版必應以來,社交媒體上充斥著一些截圖,顯示聊天機器人流暢的聊天演示也是錯誤百出。12.3.3克服簡單編造與重復為此,Andi避免簡單地重復搜索結果中的文本,“它不像其他聊天機器人那樣編造東西”。人們可以自己決定這是否屬實,在收集以往的用戶反饋之后,該公司的聊天機器人有時會坦言對于某些答案沒有信心。“它會說,‘我不確定,但根據(jù)維基百科……’”無論哪種方式,這個新的搜索時代可能都不會完全地放棄鏈接列表,這是網(wǎng)絡的重要組成部分。12.3.3克服簡單編造與重復但隨著聊天機器人變得越來越有說服力,我們是否會越來越不愿意核實它們的答案?“值得注意的不是大語言模型會產(chǎn)生虛假信息,而是它們正在關閉人們的批判性推理能力?!比A盛頓大學的沙阿就有同樣的擔憂,在微軟必應的聊天演示中,強調(diào)使用聊天機器人進行搜索可以節(jié)省時間。但多年來微軟一直在做的一個鮮為人知的項目叫“搜索教練”,旨在引導人們停下來思考?!八阉鹘叹毷恰畮в柧気喌乃阉饕妗?,搜索教練幫助人們特別是幫助學生和老師學習有效地編寫搜索問題,并識別消息源是否可靠。與ChatGPT相比,‘搜索教練’鼓勵人們放慢時間,而不是節(jié)省時間。”12.3.3克服簡單編造與重復PART04傳統(tǒng)行業(yè)的下崗2023年3月初,OpenAI公司正式宣布開放ChatGPT的API(應用編程接口),這意味著第三方的開發(fā)者也能將ChatGPT集成到他們的應用程序里去。此消息一出,再次向全世界投放了一個“炸彈”:“可以預見,以后客服不會有真人了”,有網(wǎng)友評論道。12.4傳統(tǒng)行業(yè)的下崗盡管OpenAI宣布的ChatGPT先行應用案例里還沒有多少關于替代傳統(tǒng)客服的例子,但基于其應用特性,這被很多人視為是在不遠的未來將發(fā)生的事。12.4傳統(tǒng)行業(yè)的下崗一方面,在ChatGPT出現(xiàn)之前,各大企業(yè)為了降低成本,已經(jīng)在廣泛使用智能客服替代人工客服,有的行業(yè)比如金融領域,滲透率已經(jīng)接近100%。另一方面,現(xiàn)在的智能客服還不夠智能,ChatGPT所具備的能力,正是產(chǎn)業(yè)所需要的。12.4.1客服市場,AI本來就很卷ChatGPT來了,客服是離風暴最近的崗位之一。短短時間里,多位智能客服從業(yè)者有的已經(jīng)推出運用“類ChatGPT”技術的AIGC(人工智能生成)產(chǎn)品,有的已經(jīng)在做“類ChatGPT”產(chǎn)品的合作測試,有的在探索更合適的落地方式及應用場景??傊?,都在爭分奪秒的趕上這趟列車。它從誕生起,人們就或害怕它,或期待它,或無視它。一方面,的確有越來越多的案例佐證,它正在取代人力,但另一方面,ChatGPT的訓練成本高昂,也出現(xiàn)了落地應用不容易,取代人力沒那么簡單的聲音。12.4.1客服市場,AI本來就很卷以客服行業(yè)為切入口,我們試圖來探索,對一個具體行業(yè)來說,ChatGPT能取代的崗位到底是什么,能取代到什么程度?產(chǎn)業(yè)化落地的應用空間到底有多大?12.4.1客服市場,AI本來就很卷這個行業(yè)里,AI客服已經(jīng)在廣泛使用。例如一家酒店的客服會接到旅行社用AI客服打來的電話,核對顧客信息。AI客服先問,“客人離店了嗎?”再問,“客人是幾月幾號退房的?”當聽到第一個問題的時候,酒店客服會回答“某某日,客人已經(jīng)退房了”,于是AI客服就不會再接著問了。幾年前,智能客服還只能聽懂她回答“是”和“不是”,或者得按照流程,聽懂某個固定的答案,但現(xiàn)在她用像跟真人對話一樣的語氣回答,對方也能聽懂。12.4.1客服市場,AI本來就很卷2017年以來,人工智能技術引進,智能客服已滲透到企業(yè)各個環(huán)節(jié)。根據(jù)2020年研究發(fā)布的《智能客服趨勢發(fā)展白皮書》,國內(nèi)市場88.6%的企業(yè)擁有客服業(yè)務,22.1%的企業(yè)基于云的方式構建了智能客服。咨詢機構高德納在2020年曾經(jīng)預測,智能客服的滲透率將從2018年的15%增至2022年的80%,目前來看,這個預測是比較準確的。12.4.1客服市場,AI本來就很卷現(xiàn)在智能客服應用的對話技術,大致可以分為三種。(1)基于知識庫的知識問答,主要解決用戶對知識信息的獲取問題。即基于用戶的提問,在知識庫中尋找最匹配的答案。這項技術和傳統(tǒng)的搜索技術有點相似,典型的應用場景,如用戶對政策法規(guī)的咨詢。(2)面向任務問答,主要幫助用戶解決限定任務,一般采用流程管理的對話技術,以一定的步驟和順序,通過多輪對話幫助用戶解決問題。聽歌、查詢天氣、訂票、下單都屬于這類場景。12.4.1客服市場,AI本來就很卷(3)無特定目標的閑聊。這種主要模擬人們?nèi)粘ie聊的場景,技術路線上有采用大規(guī)模知識庫的,也有使用AIGC的。通常在實際場景中,作為前兩種對話形式的補充配合使用。在行業(yè)里,AI之所以應用如此廣泛,主要是為了節(jié)省成本。例如,應用機器人作為客服后,相比原來的人力成本整體降低了200萬元,人效提升了220%。12.4.1客服市場,AI本來就很卷目前智能客服應用場景主要有兩個,第一個是在人工客服介入之前,通過機器人幫助客戶解決規(guī)范、明確的問題,“絕大部分智能客服廠商都具備這樣的能力”。第二個是輔助人工。比如客服行業(yè)流動性大,企業(yè)培訓成本高,通過人工智能,客服可以通過智庫、問答提示來輔助,降低上手成本。之前他們特地和客戶聊過,如果沒有這些輔助工具,培訓一個合格的在線坐席,需要1-2個月時間,使用這套輔助,時間可以縮短到兩周。12.4.1客服市場,AI本來就很卷根據(jù)《客服中心智能化技術和應用研究報告》,當前智能機器人客服處理咨詢量普遍達到300-500萬人次/日,企業(yè)平均節(jié)約人力成本42.6%,提升人力資源利用率39.3%。不過,同時行業(yè)也面臨著AI不夠智能的問題。現(xiàn)在的客服市場,把簡單、重復、流程性的問題,交給機器人處理,復雜的、需要情感關懷的問題,交由人工客服處理。能否處理復雜問題,行業(yè)有一個通用的指標,即意圖識別的準確率。12.4.1客服市場,AI本來就很卷傳統(tǒng)機器人語義理解能力還是比較弱的。首先是擬人化方面,還有所欠缺,其次是更復雜的需求,還不具備處理能力。智能客服只需要公式化處理問題,處理原本就有解決辦法的問題,對于真人客服來說,算是很輕松的工作內(nèi)容了。在《2021年中國智能客服市場報告》中,僅30%企業(yè)使用智能客服感受整體服務效率提升。中國青年報社會調(diào)查中心2022年對2018名受訪者進行的調(diào)查顯示,95.7%的受訪者使用過智能客服,其中僅41.3%的受訪者覺得智能客服好用。12.4.1客服市場,AI本來就很卷技術提不上去,行業(yè)門檻不高,讓這個市場很內(nèi)卷。電商剛興起時,很多電商平臺的智能客服都是外包,現(xiàn)在很多大平臺都是自研了?!靶袠I(yè)純粹的技術壁壘沒有那么高,一些功能你家能實現(xiàn),我家也能實現(xiàn),大家都在打價格戰(zhàn)”。現(xiàn)在,ChatGPT出現(xiàn)了,情況發(fā)生了變化。12.4.1客服市場,AI本來就很卷針對ChatGPT曾經(jīng)進行了這樣一次智能客服的試驗:先用一個長句告訴ChatGPT是牙科客服,目標是要獲得顧客的電話號碼,它很快進入角色,先安撫顧客,并適當?shù)慕o出了需要對方聯(lián)系方式的原因,邏輯清晰(圖12-6)。12.4.2“伐木場迎來工業(yè)革命”

圖12-6一次ChatGPT的測試12.4.2“伐木場迎來工業(yè)革命”問題中包含了復雜的意圖,從它的回答來看,準確地理解了所有意圖。這對以前的NLP(自然語言處理)技術來說,是一個很大的挑戰(zhàn)。這意味著,傳統(tǒng)人機對話技術需要使用十多個單功能自然語言處理模塊組裝構建的機器人,對于ChatGPT來講,一個角色扮演的命令,加少量的信息設定,即可實現(xiàn)。這還只是一個非常簡單的例子。綜合行業(yè)人士的說法,ChatGPT的技術應用對客服行業(yè)的影響,可以分為幾類。12.4.2“伐木場迎來工業(yè)革命”首先是人機交互上。傳統(tǒng)機器人對復雜場景的應變能力不夠,一旦用戶問的問題在知識庫里沒有,或者超出了預設的流程,機器人就無法很好地應對了?,F(xiàn)在,ChatGPT大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論