人工智能基礎(chǔ)(Python實(shí)現(xiàn))-課件 第7章 自然語(yǔ)言處理與應(yīng)用_第1頁(yè)
人工智能基礎(chǔ)(Python實(shí)現(xiàn))-課件 第7章 自然語(yǔ)言處理與應(yīng)用_第2頁(yè)
人工智能基礎(chǔ)(Python實(shí)現(xiàn))-課件 第7章 自然語(yǔ)言處理與應(yīng)用_第3頁(yè)
人工智能基礎(chǔ)(Python實(shí)現(xiàn))-課件 第7章 自然語(yǔ)言處理與應(yīng)用_第4頁(yè)
人工智能基礎(chǔ)(Python實(shí)現(xiàn))-課件 第7章 自然語(yǔ)言處理與應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩67頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第7章自然語(yǔ)言處理與應(yīng)用授課教師:李老師智能聊天機(jī)器人能夠在任何時(shí)間回答用戶的咨詢,提供個(gè)性化服務(wù)前言智能搜索引擎能夠理解用戶的查詢意圖,提供精準(zhǔn)的信息前言自動(dòng)摘要和文本生成技術(shù)則為新聞、出版等行業(yè)帶來(lái)了革命性的變化前言在教育領(lǐng)域,自然語(yǔ)言處理技術(shù)正在幫助教師批改作業(yè),為學(xué)生提供個(gè)性化的學(xué)習(xí)建議前言在醫(yī)療健康領(lǐng)域,它則用于輔助診斷,通過(guò)分析病歷文書來(lái)提高診療的準(zhǔn)確性前言前言從自然語(yǔ)言處理的基礎(chǔ)概念和發(fā)展歷程出發(fā),探究語(yǔ)言學(xué)知識(shí)對(duì)自然語(yǔ)言處理技術(shù)的影響01詳細(xì)解析文本清洗、分詞等基礎(chǔ)任務(wù),并展示自然語(yǔ)言處理技術(shù)在現(xiàn)實(shí)世界的廣泛應(yīng)用02最后展望多模態(tài)融合等前沿技術(shù)03熟練掌握文本清洗、分詞、詞性標(biāo)注、命名實(shí)體識(shí)別和依存句法分析等基礎(chǔ)任務(wù)的原理、方法和技術(shù)。了解語(yǔ)言學(xué)知識(shí)如語(yǔ)音、詞匯、語(yǔ)法、語(yǔ)義等對(duì)自然語(yǔ)言處理技術(shù)的影響。清晰掌握自然語(yǔ)言處理的定義,了解自然語(yǔ)言處理從早期到現(xiàn)代的發(fā)展脈絡(luò)。熟悉自然語(yǔ)言處理在語(yǔ)言理解、語(yǔ)言生成、機(jī)器翻譯、內(nèi)容審核、個(gè)性化推薦和智能問(wèn)答等領(lǐng)域的具體應(yīng)用場(chǎng)景和實(shí)現(xiàn)方式。030201了解自然語(yǔ)言處理前沿技術(shù)的發(fā)展。0405學(xué)習(xí)目標(biāo)7.1自然語(yǔ)言處理概述基礎(chǔ)語(yǔ)言學(xué)基礎(chǔ)7.1.2自然語(yǔ)言中的歧義問(wèn)題7.1.3自然語(yǔ)言處理的概念及其發(fā)展歷程7.1.17.1.1自然語(yǔ)言處理的概念及其發(fā)展歷程自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域中的一個(gè)關(guān)鍵研究方向,它致力于研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言(如英語(yǔ)、中文等)進(jìn)行有效通信的各種理論和方法,其目標(biāo)可以歸納為語(yǔ)言理解、語(yǔ)言生成和人機(jī)交互。語(yǔ)言理解是使計(jì)算機(jī)能夠準(zhǔn)確理解人類語(yǔ)言的含義,包括詞匯的精確含義、句子的結(jié)構(gòu)以及整個(gè)文本的上下文和意圖。語(yǔ)言生成是讓計(jì)算機(jī)能夠生成自然流暢的人類語(yǔ)言,用于回應(yīng)、解釋或傳達(dá)信息。人機(jī)交互是通過(guò)自然語(yǔ)言處理技術(shù),實(shí)現(xiàn)人與計(jì)算機(jī)之間的自然、流暢交互,提升用戶體驗(yàn)和服務(wù)效率。自然語(yǔ)言處理領(lǐng)域的研究涉及多個(gè)學(xué)科,包括計(jì)算機(jī)科學(xué)、語(yǔ)言學(xué)、心理學(xué)和統(tǒng)計(jì)學(xué)等。自然語(yǔ)言處理自然語(yǔ)言處理的發(fā)展歷程4321以符號(hào)學(xué)派和隨機(jī)學(xué)派為代表,主要集中在基礎(chǔ)理論和模式識(shí)別等方面。早期探索期(1950-60年代)深度神經(jīng)網(wǎng)絡(luò),特別是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和Transformer架構(gòu),帶來(lái)了前所未有的模型性能。深度學(xué)習(xí)時(shí)代和大模型時(shí)代(2110年代-)理性主義時(shí)代(1970-80年代)基于邏輯的范式、基于規(guī)則的范式和隨機(jī)范式得到了廣泛的研究和應(yīng)用。經(jīng)驗(yàn)主義時(shí)代(1990年代-200X)基于機(jī)器學(xué)習(xí)和大量數(shù)據(jù)的方法開始占據(jù)主導(dǎo)地位。語(yǔ)言的發(fā)音和聲音特性(1)語(yǔ)音層7.1.2語(yǔ)言學(xué)基礎(chǔ)語(yǔ)言的句子結(jié)構(gòu)、句法關(guān)系和句子的功能(3)語(yǔ)法層語(yǔ)言的意義和語(yǔ)義關(guān)系(4)語(yǔ)義層詞匯的形態(tài)、詞義、詞法(2)詞匯層語(yǔ)言的層級(jí)結(jié)構(gòu)語(yǔ)音層語(yǔ)音層的研究對(duì)于理解語(yǔ)言的聽覺(jué)特性、進(jìn)行語(yǔ)音識(shí)別和語(yǔ)音合成等方面具有重要意義。如通過(guò)對(duì)不同音素的識(shí)別和分析,可以更好地理解語(yǔ)音信號(hào)中的內(nèi)容,提高語(yǔ)音識(shí)別的準(zhǔn)確性;根據(jù)不同的音節(jié)結(jié)構(gòu)和韻律規(guī)則,生成的語(yǔ)音自然流暢,更符合人類聽覺(jué)習(xí)慣。詞匯層自然語(yǔ)言處理中的詞法分析涉及對(duì)詞匯的形態(tài)、詞性等進(jìn)行分析。詞匯層的知識(shí)對(duì)于準(zhǔn)確識(shí)別詞的邊界、確定詞性以及進(jìn)行詞干提取等任務(wù)至關(guān)重要。例如,通過(guò)分析詞的后綴可以判斷其詞性,為后續(xù)的語(yǔ)法分析和語(yǔ)義理解提供基礎(chǔ)。語(yǔ)法層語(yǔ)法分析是自然語(yǔ)言處理的關(guān)鍵環(huán)節(jié),它旨在確定句子的語(yǔ)法結(jié)構(gòu)。語(yǔ)法層的知識(shí)為語(yǔ)法分析提供了規(guī)則和依據(jù)。通過(guò)分析句子的主謂賓等結(jié)構(gòu),可以更好地理解句子的含義。例如,在機(jī)器翻譯中,準(zhǔn)確的語(yǔ)法分析可以確保翻譯結(jié)果的語(yǔ)法正確性。自然語(yǔ)言處理系統(tǒng)有時(shí)需要生成句子,語(yǔ)法層的規(guī)則可以指導(dǎo)句子的生成過(guò)程。遵循語(yǔ)法規(guī)則生成的句子更加通順、自然,提高了系統(tǒng)的輸出質(zhì)量。語(yǔ)義層語(yǔ)義理解是自然語(yǔ)言處理的核心任務(wù)之一。語(yǔ)義層的知識(shí)有助于系統(tǒng)準(zhǔn)確理解文本的意義。通過(guò)分析詞匯的語(yǔ)義關(guān)系、句子的語(yǔ)義結(jié)構(gòu)等,可以深入理解語(yǔ)言所表達(dá)的信息。例如,在問(wèn)答系統(tǒng)中,準(zhǔn)確理解問(wèn)題的語(yǔ)義是給出正確答案的前提。在信息檢索、文本分類等任務(wù)中,需要計(jì)算文本之間的語(yǔ)義相似度。語(yǔ)義層的知識(shí)可以幫助系統(tǒng)更準(zhǔn)確地計(jì)算語(yǔ)義相似度。通過(guò)分析詞匯的語(yǔ)義特征和句子的語(yǔ)義結(jié)構(gòu),可以確定文本之間的相似程度。例如,在機(jī)器翻譯系統(tǒng)中,最后,進(jìn)行語(yǔ)音合成(若輸出是語(yǔ)音)。隨后展開詞法分析、語(yǔ)法分析以及語(yǔ)義理解,以確定源語(yǔ)言句子的結(jié)構(gòu)與意義。首先進(jìn)行語(yǔ)音識(shí)別(倘若輸入為語(yǔ)音),接著,依據(jù)目標(biāo)語(yǔ)言的語(yǔ)法和語(yǔ)義規(guī)則,生成目標(biāo)語(yǔ)言的句子。7.1.3自然語(yǔ)言中的歧義問(wèn)題歧義問(wèn)題在自然語(yǔ)言處理中一直是一個(gè)具有挑戰(zhàn)性的難題,因?yàn)樗赡軐?dǎo)致誤解、錯(cuò)誤的理解和不準(zhǔn)確的信息傳遞。歧義類型語(yǔ)法歧義指代歧義方向性歧義修飾語(yǔ)歧義語(yǔ)音歧義句法結(jié)構(gòu)歧義數(shù)量歧義詞匯歧義語(yǔ)義歧義語(yǔ)境歧義解決歧義的方法1基于規(guī)則的方法綜合方法基于統(tǒng)計(jì)的方法基于深度學(xué)習(xí)的方法3427.2自然語(yǔ)言處理基礎(chǔ)任務(wù)7.2.1文本清洗7.2.2分詞7.2.3詞性標(biāo)注7.2.4命名實(shí)體識(shí)別7.2.5依存句法分析7.2.1文本清洗文本清洗的目的就是通過(guò)一系列預(yù)處理步驟,提高文本數(shù)據(jù)的質(zhì)量和一致性,使得處理后的文本更加適合后續(xù)的自然語(yǔ)言處理任務(wù)。在自然語(yǔ)言處理的實(shí)際應(yīng)用中,文本清洗的效果往往直接影響整個(gè)系統(tǒng)的性能。例如,在情感分析任務(wù)中,如果文本中存在大量的特殊字符、無(wú)關(guān)詞匯或拼寫錯(cuò)誤,那么模型可能無(wú)法準(zhǔn)確地捕捉到文本中的情感信息,從而導(dǎo)致分析結(jié)果的不準(zhǔn)確。文本清洗通常包括以下幾個(gè)關(guān)鍵步驟去除無(wú)用字符小寫化處理縮寫和簡(jiǎn)寫文本編碼統(tǒng)一文本規(guī)范化去除或替換數(shù)字去除重復(fù)項(xiàng)拼寫校正去除噪聲數(shù)據(jù)1357924687.2.2分詞在自然語(yǔ)言處理領(lǐng)域,分詞作為基礎(chǔ)步驟,發(fā)揮著關(guān)鍵作用。它將連續(xù)的文本拆分為獨(dú)立的單詞、短語(yǔ)或符號(hào),為后續(xù)的各項(xiàng)處理任務(wù)如詞性標(biāo)注、句法分析、語(yǔ)義理解等奠定基礎(chǔ)。不同的語(yǔ)言在分詞過(guò)程中面臨著各自獨(dú)特的規(guī)則和挑戰(zhàn)。英文一般以空格作為基本的單詞分隔符。但英文中的縮寫和連字符常常給分詞帶來(lái)困擾中文沒(méi)有像英文那樣明顯的空格作為單詞邊界的標(biāo)識(shí),確定詞語(yǔ)的邊界往往需要綜合考慮多個(gè)因素。“乒乓球拍賣完了”“乒乓球”“拍賣”“完了”“乒乓球拍”“賣完了”jieba庫(kù)中文分詞示例結(jié)果importjiebatext="自然語(yǔ)言處理是人工智能的一個(gè)分支,涉及計(jì)算機(jī)科學(xué)、人工智能和語(yǔ)言學(xué)等領(lǐng)域。"#使用jieba.lcut進(jìn)行精確模式分詞,結(jié)果存儲(chǔ)在列表中word_list=jieba.lcut(text,cut_all=False)#輸出分詞結(jié)果print("精確模式:",word_list)精確模式:['自然語(yǔ)言','處理','是','人工智能','的','一個(gè)','分支',',','涉及','計(jì)算機(jī)科學(xué)','、','人工智能','和','語(yǔ)言學(xué)','等','領(lǐng)域','。']7.2.3詞性標(biāo)注詞性標(biāo)注(Part-of-SpeechTagging,POSTagging)指的是將文本中的每個(gè)單詞分配一個(gè)詞性標(biāo)簽,如名詞、動(dòng)詞、形容詞、副詞等。jieba庫(kù)中文分詞并詞性標(biāo)注示例結(jié)果importjieba.possegaspsegtext="今天天氣晴朗,我心情愉悅地去公園散步。"words=pseg.cut(text)forword,flaginwords:print(f"{word}({flag})",end=";")今天(t);天氣晴朗(nr);,(x);我(r);心情(n);愉悅(a);地(uv);去(v);公園(n);散步(n);。(x);7.2.4命名實(shí)體識(shí)別命名實(shí)體識(shí)別(NamedEntityRecognition,NER)的主要目的是從文本中識(shí)別出具有特定意義的實(shí)體,如人名、地名、組織機(jī)構(gòu)名、時(shí)間表達(dá)式、日期、貨幣、百分比等。這些實(shí)體對(duì)于理解文本的含義和上下文至關(guān)重要,因?yàn)樗鼈兺ǔ0宋谋局凶铌P(guān)鍵和最有價(jià)值的信息?!袄蠲髟跁?huì)議室匯報(bào)工作。”“李明”“會(huì)議室”命名實(shí)體識(shí)別的應(yīng)用場(chǎng)景信息提取智能問(wèn)答知識(shí)圖譜構(gòu)建機(jī)器翻譯輿情分析搜索引擎優(yōu)化命名實(shí)體識(shí)別的簡(jiǎn)單例子示例結(jié)果importjieba.possegaspsegdefextract_entities(text):entities=[]forword,flaginpseg.cut(text):ifflagin['nr','nrt','n','ns','t']:#使用jieba實(shí)際的詞性標(biāo)簽entities.append(word)returnentitiestext="今天,廣東金融學(xué)院—華為技術(shù)有限公司全面合作框架協(xié)議在深圳舉行簽約儀式。未來(lái),雙方將在人才培養(yǎng)、信息化建設(shè)與科研合作等方面開展深度合作。"entities=extract_entities(text)print("可能的命名實(shí)體:",entities)可能的命名實(shí)體:['今天','廣東','金融','學(xué)院','全面','框架','協(xié)議','深圳','儀式','未來(lái)','雙方','信息化','科研','方面','深度']7.2.5依存句法分析依存句法分析在自然語(yǔ)言處理的多個(gè)領(lǐng)域都有廣泛的應(yīng)用,例如在語(yǔ)言理解、信息抽取、機(jī)器翻譯、情感分析和文本生成等方面。通過(guò)依存句法分析,可以更好地理解句子的含義,提高自然語(yǔ)言處理任務(wù)的準(zhǔn)確率。依存句法分析的基本步驟step01step02step03接著,對(duì)每個(gè)詞進(jìn)行詞性標(biāo)注,即確定每個(gè)詞在句子中的詞性(如名詞、動(dòng)詞、形容詞等)。需要對(duì)輸入的句子進(jìn)行分詞處理,即將句子拆分成一系列獨(dú)立的詞(或詞素)。基于分詞和詞性標(biāo)注的結(jié)果,進(jìn)行依存句法分析,構(gòu)建依存樹。7.3自然語(yǔ)言處理常見(jiàn)應(yīng)用01語(yǔ)言理解03機(jī)器翻譯04內(nèi)容審核05個(gè)性化推薦06智能問(wèn)答-聊天機(jī)器人02語(yǔ)言生成7.3.1語(yǔ)言理解“百度人工智能能力體驗(yàn)中心→語(yǔ)言理解”頁(yè)面1.詞法分析進(jìn)行分詞、詞性標(biāo)注和命名實(shí)體識(shí)別等操作主要應(yīng)用場(chǎng)景語(yǔ)音指令解析法律術(shù)語(yǔ)識(shí)別品牌輿情信息提取多輪交互式搜索新聞人物信息提取2.文本糾錯(cuò)針對(duì)公文寫作的場(chǎng)景內(nèi)容搜索場(chǎng)景將文本糾錯(cuò)功能嵌入對(duì)話系統(tǒng)中在內(nèi)容寫作平臺(tái)中嵌入糾錯(cuò)模塊結(jié)合自然語(yǔ)言處理技術(shù),如拼寫檢查、語(yǔ)法分析、語(yǔ)義理解以及領(lǐng)域知識(shí)庫(kù)等,識(shí)別文本中的多種錯(cuò)誤類型,包括但不限于拼寫錯(cuò)誤、語(yǔ)法錯(cuò)誤、標(biāo)點(diǎn)符號(hào)錯(cuò)誤、語(yǔ)義錯(cuò)誤以及特定領(lǐng)域內(nèi)的術(shù)語(yǔ)使用不當(dāng)?shù)取G楦袃A向分析,又稱情感分析或情感評(píng)分,它用于識(shí)別和提取文本中的主觀信息,并對(duì)作者或說(shuō)話者的情感態(tài)度進(jìn)行分類。這種分析可以幫助理解客戶反饋、產(chǎn)品評(píng)論、社交媒體帖子等文本數(shù)據(jù)中的情緒傾向。3.情感傾向分析“這款產(chǎn)品非常好用,我很滿意,強(qiáng)烈推薦給大家?!薄斑@個(gè)產(chǎn)品質(zhì)量太差了,根本不值得購(gòu)買?!薄斑@款產(chǎn)品的價(jià)格是100元?!鼻楦蟹治鐾ǔI婕耙韵虏襟E特征提取情感分類模型訓(xùn)練文本預(yù)處理置信度評(píng)估0102030405情感傾向分析的主要應(yīng)用領(lǐng)域社交媒體監(jiān)控市場(chǎng)研究客戶服務(wù)內(nèi)容推薦政治選舉情感傾向分析功能演示旨在從用戶評(píng)論、產(chǎn)品評(píng)價(jià)、社交媒體帖子等文本中自動(dòng)識(shí)別出用戶表達(dá)的具體觀點(diǎn)或評(píng)價(jià)對(duì)象。這些觀點(diǎn)通常與某個(gè)實(shí)體(如產(chǎn)品、服務(wù)、個(gè)人等)的屬性或特征相關(guān)聯(lián)。首先,需要確定文本中用戶正在評(píng)價(jià)的具體對(duì)象或?qū)嶓w。例如,在一條關(guān)于手機(jī)的評(píng)論中,評(píng)價(jià)對(duì)象可能是手機(jī)的“屏幕”“電池續(xù)航”或“攝像頭”。其次,需要抽取用戶對(duì)評(píng)價(jià)對(duì)象所持有的具體觀點(diǎn)或情感傾向。這些觀點(diǎn)可能是正面的(如屏幕很清晰)、負(fù)面的(如電池續(xù)航太短)或中性的(如外觀一般)。最后,需要將評(píng)價(jià)對(duì)象和相應(yīng)的觀點(diǎn)關(guān)聯(lián)起來(lái),形成一個(gè)結(jié)構(gòu)化的表示,以便進(jìn)一步分析和應(yīng)用。4.評(píng)論觀點(diǎn)抽取評(píng)論觀點(diǎn)抽取功能演示對(duì)話情緒識(shí)別是自然語(yǔ)言處理和情感分析領(lǐng)域的一個(gè)重要分支,它涉及對(duì)人類交流中情感層面的理解和分析,即通過(guò)分析對(duì)話中的語(yǔ)言、語(yǔ)調(diào)、語(yǔ)速、停頓等特征,結(jié)合機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)模型,來(lái)推斷出說(shuō)話者的情緒狀態(tài),如高興、悲傷、憤怒、驚訝等。5.對(duì)話情緒識(shí)別對(duì)話情緒識(shí)別的方法主要包括基于文本的情緒識(shí)別多模態(tài)情緒識(shí)別基于語(yǔ)音的情緒識(shí)別對(duì)話情緒識(shí)別技術(shù)的應(yīng)用客服領(lǐng)域市場(chǎng)調(diào)研和輿情監(jiān)測(cè)領(lǐng)域社交媒體平臺(tái)心理健康領(lǐng)域?qū)υ捛榫w識(shí)別功能演示地址識(shí)別技術(shù)是通過(guò)分析文本內(nèi)容,能夠從復(fù)雜的文本(如快遞單)中精準(zhǔn)提取出姓名、電話和地址信息等。在實(shí)際應(yīng)用中,地址識(shí)別技術(shù)能夠?qū)⒎墙Y(jié)構(gòu)化的地址文本轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),如將“張三,186****4663,廣東省深圳市南山區(qū)學(xué)府路東百度國(guó)際大廈”這樣的文本信息,解析為包含姓名、電話、省份、城市、區(qū)縣、街道等詳細(xì)信息的結(jié)構(gòu)化數(shù)據(jù)。此外,地址識(shí)別技術(shù)還可以融合地圖數(shù)據(jù)支持,如百度地圖權(quán)威數(shù)據(jù),以識(shí)別并生成標(biāo)準(zhǔn)規(guī)范的地址信息,進(jìn)一步提高了識(shí)別的準(zhǔn)確率。6.地址識(shí)別地址識(shí)別功能演示實(shí)體分析是通過(guò)結(jié)合上下文信息,識(shí)別文本中的實(shí)體,并將其與百科知識(shí)庫(kù)中的實(shí)體對(duì)象相關(guān)聯(lián)。這一過(guò)程不僅涉及對(duì)實(shí)體的識(shí)別,還包括對(duì)實(shí)體概念的分析和實(shí)體簡(jiǎn)介的生成,旨在深入理解文本中的實(shí)體信息。例如對(duì)文本“蘋果公司最近發(fā)布了新款iPhone”進(jìn)行實(shí)體分析,先識(shí)別出“蘋果公司”和“iPhone”為實(shí)體;然后將“蘋果公司”鏈接到知識(shí)庫(kù)中的AppleInc.實(shí)體,將“iPhone”鏈接到相應(yīng)的產(chǎn)品類別;再進(jìn)行概念分析,確定“蘋果公司”屬于“科技公司”類別,“iPhone”屬于“智能手機(jī)”類別;最后,為“蘋果公司”提供簡(jiǎn)介,如成立年份、創(chuàng)始人、主要產(chǎn)品等;為“iPhone”提供產(chǎn)品系列、特點(diǎn)、市場(chǎng)表現(xiàn)等信息。在實(shí)際應(yīng)用中,實(shí)體分析可應(yīng)用于文本理解、智能問(wèn)答系統(tǒng)、知識(shí)圖譜構(gòu)建等多個(gè)領(lǐng)域。例如,在智能問(wèn)答系統(tǒng)中,通過(guò)實(shí)體分析可以理解用戶問(wèn)題中的實(shí)體,并在知識(shí)庫(kù)中檢索相關(guān)信息,以提供準(zhǔn)確的答案。7.實(shí)體分析短文本相似度計(jì)算是自然語(yǔ)言處理領(lǐng)域的一項(xiàng)核心技能,它用于評(píng)估兩個(gè)短文本之間的語(yǔ)義接近程度。這項(xiàng)技術(shù)通過(guò)將文本內(nèi)容轉(zhuǎn)化為數(shù)值形式的向量,進(jìn)而比較這些向量之間的相似性。8.短文本相似度sklearn庫(kù)計(jì)算兩個(gè)短文本相似度的示例示例#導(dǎo)入必要的庫(kù)importjiebafromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.p人工智能rwiseimportcosine_similarity#定義兩個(gè)相似的中文文本text1="自然語(yǔ)言處理是人工智能的一個(gè)重要分支。"text2="人工智能領(lǐng)域包含了自然語(yǔ)言處理。"#使用jieba進(jìn)行中文分詞,并用空格連接分詞結(jié)果text1_cut="".join(jieba.cut(text1))text2_cut="".join(jieba.cut(text2))sklearn庫(kù)計(jì)算兩個(gè)短文本相似度的示例示例#使用TfidfVectorizer將文本轉(zhuǎn)換為TF-IDF特征向量#注意:fit_transform會(huì)同時(shí)擬合和轉(zhuǎn)換數(shù)據(jù),如果后續(xù)有新文本需要轉(zhuǎn)換,應(yīng)使用transformvectorizer=TfidfVectorizer()tfidf_matrix=vectorizer.fit_transform([text1_cut,text2_cut])#計(jì)算兩個(gè)文本的余弦相似度#注意:cosine_similarity函數(shù)的輸入是兩個(gè)數(shù)組,這里通過(guò)切片獲取單個(gè)樣本的向量cosine_sim=cosine_similarity(tfidf_matrix[:1],tfidf_matrix[1:])#輸出相似度#cosine_sim是一個(gè)二維數(shù)組,因?yàn)檩斎胧莾蓚€(gè)樣本的列表。取第一個(gè)元素(即第一個(gè)樣本與第二個(gè)樣本的相似度)print(f"文本1和文本2的相似度為:{cosine_sim[0][0]}")sklearn庫(kù)計(jì)算兩個(gè)短文本相似度的示例示例text1="自然語(yǔ)言處理是人工智能的一個(gè)重要分支。"text2="自然語(yǔ)言處理確實(shí)是人工智能的一個(gè)重要分支。"運(yùn)行上述代碼后,得到的運(yùn)行結(jié)果是“文本1和文本2的相似度為:0.380……”將text1和text2換成下面的內(nèi)容,得到的相似度達(dá)到0.867……短文本相似度計(jì)算的應(yīng)用電子商務(wù)社交媒體監(jiān)控方面信息檢索領(lǐng)域?qū)W術(shù)研究?jī)?nèi)容推薦客戶服務(wù)與支持領(lǐng)域010605020304從文本中自動(dòng)提取出若干關(guān)鍵的詞或短語(yǔ),這些關(guān)鍵詞或短語(yǔ)能夠準(zhǔn)確反映文本的主題、話題以及涉及的實(shí)體等方面。在個(gè)性化推薦場(chǎng)景中,通過(guò)對(duì)用戶瀏覽的文本進(jìn)行關(guān)鍵詞提取,可以了解用戶的興趣偏好。在話題聚合方面,對(duì)大量的文本進(jìn)行關(guān)鍵詞提取后,可以將具有相同或相似關(guān)鍵詞的文本歸為一類。電商推薦場(chǎng)景,當(dāng)用戶撰寫商品評(píng)價(jià)或搜索商品時(shí),關(guān)鍵詞提取技術(shù)可以從這些文本中提取出關(guān)鍵信息。9.關(guān)鍵詞提取文本信息提取技術(shù)能夠精準(zhǔn)理解用戶輸入的短語(yǔ)或問(wèn)題,并從中提取出豐富多樣的文本信息,包括但不限于實(shí)體、關(guān)系、事件論元以及事件描述等。文本信息提取的關(guān)鍵技術(shù)通常包括實(shí)體識(shí)別、關(guān)系抽取、事件抽取、文本分類、情感分析和觀點(diǎn)抽取等。在媒體領(lǐng)域,文本信息提取技術(shù)可以快速分析大量的新聞稿件。金融領(lǐng)域中,該技術(shù)可以對(duì)金融新聞、公司財(cái)報(bào)等文本進(jìn)行分析。提取出涉及的金融機(jī)構(gòu)實(shí)體、不同金融產(chǎn)品之間的關(guān)系、重大金融事件的詳細(xì)描述。在政務(wù)領(lǐng)域,文本信息提取能夠處理各類政策文件、政務(wù)公告等文本。提取出相關(guān)的政府部門實(shí)體、政策實(shí)施對(duì)象之間的關(guān)系、政策所針對(duì)的事件和具體的政策描述。10.文本信息提取7.3.2語(yǔ)言生成文章標(biāo)題生成12345文章標(biāo)簽智能創(chuàng)作新聞?wù)恼路诸愇恼聵?biāo)簽是指通過(guò)給文章附加關(guān)鍵詞或短語(yǔ)的方式,對(duì)文章進(jìn)行分類和歸檔的一種方法。這些標(biāo)簽?zāi)軌驕?zhǔn)確地描述文章的主題、內(nèi)容或特點(diǎn),不僅方便讀者快速檢索和篩選文章,也便于作者掌握自己創(chuàng)作內(nèi)容的整體情況。在新聞個(gè)性化推薦、相似文章聚合、文本內(nèi)容分析等應(yīng)用場(chǎng)景中,文章標(biāo)簽提供了重要的技術(shù)支持。1.文章標(biāo)簽文章分類是指將文章按照內(nèi)容類型進(jìn)行自動(dòng)劃分,以便更好地進(jìn)行文章聚類、文本內(nèi)容分析等。2.文章分類通過(guò)分析文章的內(nèi)容,該技術(shù)可以提取出關(guān)鍵信息、主題關(guān)鍵詞和核心觀點(diǎn)。然后,運(yùn)用自然語(yǔ)言處理算法和語(yǔ)言模型,生成多個(gè)富有創(chuàng)意和吸引力的標(biāo)題。這些標(biāo)題既能夠準(zhǔn)確反映文章的主題,又具有一定的新穎性和獨(dú)特性,能夠在眾多標(biāo)題中脫穎而出。3.文章標(biāo)題生成新聞?wù)峭ㄟ^(guò)自動(dòng)提取新聞文本中的關(guān)鍵信息并生成簡(jiǎn)短的摘要來(lái)幫助用戶快速了解新聞內(nèi)容。4.新聞?wù)?.智能創(chuàng)作文學(xué)創(chuàng)作視覺(jué)藝術(shù)音樂(lè)創(chuàng)作游戲開發(fā)機(jī)器翻譯是指使用計(jì)算機(jī)程序?qū)⒁环N自然語(yǔ)言轉(zhuǎn)換成另一種自然語(yǔ)言的過(guò)程。神經(jīng)機(jī)器翻譯是機(jī)器翻譯的重大變革,它利用深度學(xué)習(xí)技術(shù),尤其是Transformer模型,通過(guò)自注意力機(jī)制處理輸入序列中的關(guān)聯(lián)信息,有效捕捉長(zhǎng)距離依賴關(guān)系,從而顯著提升了翻譯的準(zhǔn)確性和流暢性。多模態(tài)融合技術(shù)的興起預(yù)示著機(jī)器翻譯將突破文本的界限,邁向更加廣闊的應(yīng)用空間。7.3.3機(jī)器翻譯內(nèi)容審核是指對(duì)互聯(lián)網(wǎng)上的文本、圖片、視頻等媒體內(nèi)容進(jìn)行審查,以確保這些內(nèi)容不違反法律法規(guī)、平臺(tái)規(guī)則和社會(huì)道德標(biāo)準(zhǔn)。7.3.4內(nèi)容審核個(gè)性化推薦是指根據(jù)用戶的個(gè)性化信息,如興趣愛(ài)好、歷史行為、人口統(tǒng)計(jì)學(xué)信息等,為用戶提供符合其特定需求的信息推薦服務(wù)。它旨在解決信息過(guò)載問(wèn)題,幫助用戶快速發(fā)現(xiàn)感興趣的內(nèi)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論