自然語言處理導(dǎo)論 課件 第7-9章 語義分析、文本分類、情感計算_第1頁
自然語言處理導(dǎo)論 課件 第7-9章 語義分析、文本分類、情感計算_第2頁
自然語言處理導(dǎo)論 課件 第7-9章 語義分析、文本分類、情感計算_第3頁
自然語言處理導(dǎo)論 課件 第7-9章 語義分析、文本分類、情感計算_第4頁
自然語言處理導(dǎo)論 課件 第7-9章 語義分析、文本分類、情感計算_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

《自然語言處理導(dǎo)論》第7章語義分析詞袋模型語義特征社會化網(wǎng)絡(luò)維基百科的知識多源異構(gòu)語義知識融合Word2vec,詞袋模型等BasketballAcademicBasketballAcademic詞袋模型+TFIDF計算相似度相似度計算:1.基于距離的方法曼哈頓距離、歐氏距離、切比雪夫距離相似度計算:2.基于角度計算的方法向量表示+TFIDF/Attention計算相似度=Word2vec,詞袋模型等實體消岐問答系統(tǒng):答案與問題是否配對翻譯系統(tǒng):譯文是否與原文匹配基于以下觀察現(xiàn)象:相熟的人或者具有相似背景的人所在的網(wǎng)頁很可能是相互鏈接的,而同名卻不同背景的人很少會有鏈接關(guān)系。以上向量拼接余弦相似度Word2vec,詞袋模型等實體頁面、重定向頁面、消歧頁面INFOBOX類別信息給定兩個人物/事物社會網(wǎng)絡(luò)實體消岐《自然語言處理導(dǎo)論》第8章文本分類文本自動分類的方法傳統(tǒng)的文本分類算法包括:樸素貝葉斯NaiveBayes(NB)、Logistic回歸、最大熵(maximumentropy,ME)和支持向量機(jī)

(supportvectormachine,SVM)等。近年來,深度神經(jīng)網(wǎng)絡(luò)技術(shù)如卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等發(fā)展成為研究中的主流方法。機(jī)器學(xué)習(xí)方法文本表示預(yù)處理預(yù)處理文本表示向量空間模型,也稱為詞袋模型(bagofwordsmodel,BOW)文本表示預(yù)處理特征選擇特征權(quán)重計算特征選擇(特征過濾)文檔頻率(Document

Frequency,

DF)互信息(Mutual

Informaiton,

MI)信息增益(Information

Gain,

IG)Chi-Square統(tǒng)計(Chi-Square

Statistics,CHI)

互信息:反應(yīng)的是兩個隨機(jī)變量相互關(guān)聯(lián)的程度。它可以看成是一個隨機(jī)變量由于已知另一個隨機(jī)變量而減少的不確定性。

信息論的基本概念互信息互信息=熵-條件熵

信息論的基本概念互信息互信息=熵-條件熵互信息的具體用法舉例-主題段落的劃分特征選擇(特征過濾)文檔頻率(Document

Frequency,

DF)互信息(Mutual

Informaiton,

MI)信息增益(Information

Gain,

IG)Chi-Square統(tǒng)計(Chi-Square

Statistics,CHI)信息論的基本概念

信息增益文本表示預(yù)處理特征選擇特征權(quán)重計算權(quán)重計算1.詞頻將單詞的頻數(shù)tfij當(dāng)作該單詞的權(quán)重2.布爾變量3.逆文檔頻率(IDF)4.TF-IDF文本表示預(yù)處理分類器的設(shè)計自動分類算法分類決策樹樸素貝葉斯神經(jīng)網(wǎng)絡(luò)支持向量機(jī)K階近鄰文本表示預(yù)處理性能評估遺漏率:準(zhǔn)確率:召回率:正確率:錯誤率:誤報率:盈虧平衡點(diǎn):Precision是分類器預(yù)測為某一個類別的正確率的評價,Accuracy是對分類器整體上的正確率的評價。HumanTrueFalseclassifierYesabNocd深度神經(jīng)網(wǎng)絡(luò)算法例子

愛奇藝短視頻分類技術(shù)解析解決方案特征表示特征融合層次分類文本信息圖像信息離散特征標(biāo)題、描述…封面圖…時長、類別、ID…《自然語言處理導(dǎo)論》第9章情感計算我覺得某車的性價比還是不錯的,可能是我工資低,所以覺得價格有點(diǎn)貴。但它的顏值很高,車?yán)锩孀詭У墓δ芤彩潜容^多的。駕駛感受的話,某車的方向盤相對來說還是比較輕巧的,而且它的操控性也是比較高的,操控方面的準(zhǔn)確度也挺高的,車輛開起來它的底盤是比較穩(wěn)的,不會有任何虛實的感覺。價格顏值操控底盤觀點(diǎn)識別(subjective/Objective)中美兩方的代表就朝鮮核問題進(jìn)行了磋商(客觀)中方發(fā)言人對近期發(fā)生的恐怖行動進(jìn)行了強(qiáng)烈的譴責(zé)(主觀)極性分類(Positive/Negative/Neutral)這家餐廳總體來說還可以。(中性)但是價格偏貴,性價比低。(負(fù)面)拋開價格的因素還是很不錯的,值得推薦。(正面)1.情感識別強(qiáng)度識別(情感強(qiáng)度識別)iPhoneX的價格太貴了,一年的收入都沒了。(強(qiáng)烈)iPhoneX的價格有點(diǎn)貴。(稍弱)1.情感識別的不同粒度詞級別識別一個詞的傾向性特征級別(AspectLevel)識別一個Aspect的傾向性:“這家餐廳價格偏貴,但菜好吃”價格、味道句子級別識別一個句子的觀點(diǎn)傾向性文檔級別識別一篇文本(包含多個句子)整體的傾向性2.觀點(diǎn)屬性抽取觀點(diǎn)持有者抽取老師就小明近期在學(xué)校的行為進(jìn)行了詳細(xì)的評價”觀點(diǎn)目標(biāo)抽取“老師”就小明近期在學(xué)校的行為進(jìn)行了詳細(xì)的評價”“這款手機(jī)的屏幕太小,分辨率不足”3.觀點(diǎn)摘要“IboughtaniPhoneafewdaysago.Itwassuchanicephone.Thetouchscreenwasreallycool.Thevoicequalitywascleartoo.Althoughthebatterylifewasnotlong,thatisokforme.However,mymotherwasmadwithmeasIdidnottellherbeforeIboughtthephone.Shealsothoughtthephonewastooexpensive,andwantedmetoreturnittotheshop.…”特征1:TouchscreenPositive:212人Negative:6特征2:batterylife……情感識別-基于詞典的方法主要步驟確定情感詞典,比方說SentiWordNet搜索情感詞,并對其進(jìn)行標(biāo)記和計數(shù)+1/-1需要考慮否定詞和轉(zhuǎn)折表達(dá)計算總的分?jǐn)?shù)The

cameraisgreat!+1(pos)Itlooksterrible!-1(neg)Ifinditgoodandbeautiful.+2(pos)Thecarisblue.0(neu)基于詞典方法我覺得某車的性價比還是不錯的,可能是我工資低,所以覺得價格有點(diǎn)貴。但它的顏值很高,車?yán)锩孀?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論