商務(wù)智能理論與應(yīng)用9-文本挖掘課件_第1頁(yè)
商務(wù)智能理論與應(yīng)用9-文本挖掘課件_第2頁(yè)
商務(wù)智能理論與應(yīng)用9-文本挖掘課件_第3頁(yè)
商務(wù)智能理論與應(yīng)用9-文本挖掘課件_第4頁(yè)
商務(wù)智能理論與應(yīng)用9-文本挖掘課件_第5頁(yè)
已閱讀5頁(yè),還剩107頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)與數(shù)據(jù)挖掘-文本挖掘大數(shù)據(jù)與數(shù)據(jù)挖掘-文本挖掘文本挖掘的背景數(shù)據(jù)挖掘大部分研究主要針對(duì)結(jié)構(gòu)化數(shù)據(jù),如關(guān)系的、事務(wù)的和數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)?,F(xiàn)實(shí)中大部分?jǐn)?shù)據(jù)存儲(chǔ)在文本數(shù)據(jù)庫(kù)中,如新聞文章、研究論文、書籍、WEB頁(yè)面等。存放在文本數(shù)據(jù)庫(kù)中的數(shù)據(jù)是半結(jié)構(gòu)化數(shù)據(jù),文檔中可能包含結(jié)構(gòu)化字段,如標(biāo)題、作者、出版社、出版日期等,也包含大量非結(jié)構(gòu)化數(shù)據(jù),如摘要和內(nèi)容等。1、文本挖掘概述文本挖掘的背景數(shù)據(jù)挖掘大部分研究主要針對(duì)結(jié)構(gòu)化數(shù)據(jù),如關(guān)系的文本挖掘概念文本挖掘旨在通過(guò)識(shí)別和檢索令人感興趣的模式,進(jìn)而從數(shù)據(jù)源中抽取有用的信息。文本挖掘的數(shù)據(jù)源是文本集合,令人感興趣的模式不是從形式化的數(shù)據(jù)庫(kù)記錄里發(fā)現(xiàn),而是從非結(jié)構(gòu)化的數(shù)據(jù)中發(fā)現(xiàn)。文本挖掘概念文本挖掘旨在通過(guò)識(shí)別和檢索令人感興趣的模式,進(jìn)而文本挖掘的過(guò)程預(yù)處理文檔建模相似性計(jì)算信息檢索文本分類文本聚類模型評(píng)價(jià)文本挖掘的過(guò)程預(yù)處理預(yù)處理把中文的漢字序列切分成有意義的詞,就是中文分詞,也稱為切詞?!拔沂且粋€(gè)學(xué)生”分詞的結(jié)果是:我是一個(gè)學(xué)生。和平民主和平、民主;和、平民、主提高人民生活水平提高、高人、人民、民生、生活、活水、水平大學(xué)生活象白紙大學(xué)、生活、象、白紙大學(xué)生、活象、白紙預(yù)處理把中文的漢字序列切分成有意義的詞,就是中文分詞,也稱為最大匹配分詞法S1="計(jì)算語(yǔ)言學(xué)課程是三個(gè)課時(shí)"設(shè)定最大詞長(zhǎng)MaxLen=5S2=""最大匹配分詞法S1="計(jì)算語(yǔ)言學(xué)課程是三個(gè)課時(shí)"(1)S2=“”;S1不為空,從S1左邊取出候選子串W="計(jì)算語(yǔ)言學(xué)";(2)查詞表,“計(jì)算語(yǔ)言學(xué)”在詞表中,將W加入到S2中,S2=“計(jì)算語(yǔ)言學(xué)/”,并將W從S1中去掉,此時(shí)S1="課程是三個(gè)課時(shí)";(3)S1不為空,于是從S1左邊取出候選子串W="課程是三個(gè)";(4)查詞表,W不在詞表中,將W最右邊一個(gè)字去掉,得到W="課程是三";(5)查詞表,W不在詞表中,將W最右邊一個(gè)字去掉,得到W="課程是";(1)S2=“”;S1不為空,從S1左邊取出候選子串商務(wù)智能理論與應(yīng)用9-文本挖掘(11)查詞表,W不在詞表中,將W最右邊一個(gè)字去掉,得到W="是三"(12)查詞表,W不在詞表中,將W最右邊一個(gè)字去掉,得到W=“是”,這時(shí)W是單字,將W加入到S2中,S2=“計(jì)算語(yǔ)言學(xué)/課程/是/”,并將W從S1中去掉,此時(shí)S1="三個(gè)課時(shí)";(21)S2=“計(jì)算語(yǔ)言學(xué)/課程/是/三/個(gè)/課時(shí)/”,此時(shí)S1=""。(22)S1為空,輸出S2作為分詞結(jié)果,分詞過(guò)程結(jié)束。(11)查詞表,W不在詞表中,將W最右邊一個(gè)字去掉,得到W=停用詞指文檔中出現(xiàn)的連詞,介詞,冠詞等并無(wú)太大意義的詞。英文中常用的停用詞有the,a,it等中文中常見(jiàn)的有“是”,“的”,“地”等。停用詞消除可以減少term的個(gè)數(shù),降低存儲(chǔ)空間。停用詞的消除方法:(1)查表法:建立一個(gè)停用詞表,通過(guò)查表的方式去掉停用詞。(2)基于DF的方法:統(tǒng)計(jì)每個(gè)詞的DF,如果超過(guò)總文檔數(shù)目的某個(gè)百分比(如80%),則作為停用詞去掉。停用詞指文檔中出現(xiàn)的連詞,介詞,冠詞等并無(wú)太大意義的詞。文檔建模特征表示是指以一定的特征項(xiàng)如詞條或描述來(lái)代表文檔信息。特征表示模型有多種,常用的有布爾邏輯型、向量空間型等文檔建模特征表示是指以一定的特征項(xiàng)如詞條或描述來(lái)代表文檔信息向量空間模型中,將每個(gè)文本文檔看成是一組詞條(T1,T2,T3,…,Tn)構(gòu)成,對(duì)于每一詞條Ti,根據(jù)其在文檔中的重要程度賦予一定的權(quán)值,可以將其看成一個(gè)n維坐標(biāo)系,W1,W2,…,Wn為對(duì)應(yīng)的坐標(biāo)值,因此每一篇文檔都可以映射為由一組詞條矢量構(gòu)成的向量空間中的一點(diǎn),對(duì)于所有待挖掘的文檔都用詞條特征矢量(T1,W1;T2,W2;T3,W3;…;Tn,Wn)表示。向量空間模型將文檔表達(dá)為一個(gè)矢量,看作向量空間中的一個(gè)點(diǎn)。向量空間模型中,將每個(gè)文本文檔看成是一組詞條(T1,T2,T文檔的向量空間模型文檔的向量空間模型W權(quán)值計(jì)算方法TF-IDF

目前廣泛采用TF-IDF權(quán)值計(jì)算方法來(lái)計(jì)算權(quán)重,TF-IDF的主要思想是,如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力,適合用來(lái)分類。

TF詞頻(TermFrequency)指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的次數(shù)。

IDF逆文檔頻率(InverseDocumentFrequency)是全體文檔數(shù)與包含詞條文檔數(shù)的比值。如果包含詞條的文檔越少,IDF越大,則說(shuō)明詞條具有很好的類別區(qū)分能力。在完整的向量空間模型中,將TF和IDF組合在一起,形成TF-IDF度量:TF-IDF(d,t)=TF(d,t)*IDF(t)W權(quán)值計(jì)算方法TF-IDFTF度量在一份給定的文件里,詞頻(termfrequency,TF)指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的頻率。這個(gè)數(shù)字是對(duì)詞數(shù)(termcount)的歸一化,以防止它偏向長(zhǎng)的文件。(同一個(gè)詞語(yǔ)在長(zhǎng)文件里可能會(huì)比短文件有更高的詞數(shù),而不管該詞語(yǔ)重要與否。)對(duì)于在某一特定文件里的詞語(yǔ)

來(lái)說(shuō),它的重要性可表示為:

以上式子中

是該詞在文件中的出現(xiàn)次數(shù),而分母則是在文件中所有字詞的出現(xiàn)次數(shù)之和。TF度量在一份給定的文件里,詞頻(termfrequencIDF度量逆向文件頻率(inversedocumentfrequency,IDF)是一個(gè)詞語(yǔ)普遍重要性的度量。某一特定詞語(yǔ)的IDF,可以由總文件數(shù)目除以包含該詞語(yǔ)之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到:?|D|:語(yǔ)料庫(kù)中的文件總數(shù)?:包含詞語(yǔ)的文件數(shù)目(即的文件數(shù)目)如果該詞語(yǔ)不在語(yǔ)料庫(kù)中,就會(huì)導(dǎo)致被除數(shù)為零,因此一般情況下使用IDF度量逆向文件頻率(inversedocumentf關(guān)鍵詞與網(wǎng)頁(yè)的相關(guān)性計(jì)算在某個(gè)一共有一千詞的網(wǎng)頁(yè)中“大數(shù)據(jù)”、“的”和“應(yīng)用”分別出現(xiàn)了2次、35次和5次,那么它們的詞頻就分別是0.002、0.035和0.005。三個(gè)數(shù)相加,其和0.042就是相應(yīng)網(wǎng)頁(yè)和查詢“大數(shù)據(jù)的應(yīng)用”相關(guān)性的一個(gè)簡(jiǎn)單的度量。概括地講,如果一個(gè)查詢包含關(guān)鍵詞w1,w2,...,wN,它們?cè)谝黄囟ňW(wǎng)頁(yè)中的詞頻分別是:TF1,TF2,...,TFN。(TF:termfrequency)。那么,這個(gè)查詢和該網(wǎng)頁(yè)的相關(guān)性就是:TF1+TF2+...+TFN。關(guān)鍵詞與網(wǎng)頁(yè)的相關(guān)性計(jì)算在某個(gè)一共有一千詞的網(wǎng)頁(yè)中“大數(shù)據(jù)”詞“的”站了總詞頻的80%以上,它對(duì)確定網(wǎng)頁(yè)的主題幾乎沒(méi)有用。在度量相關(guān)性時(shí)不應(yīng)考慮它們的頻率。刪除后,上述網(wǎng)頁(yè)的相似度就變成了0.007,其中“大數(shù)據(jù)”貢獻(xiàn)了0.002,“應(yīng)用”貢獻(xiàn)了0.005?!皯?yīng)用”是個(gè)很通用的詞,而“大數(shù)據(jù)”是個(gè)很專業(yè)的詞,后者在相關(guān)性排名中比前者重要。因此我們需要給漢語(yǔ)中的每一個(gè)詞給一個(gè)權(quán)重,這個(gè)權(quán)重的設(shè)定必須滿足下面兩個(gè)條件:一個(gè)詞預(yù)測(cè)主題能力越強(qiáng),權(quán)重就越大,反之,權(quán)重就越小。我們?cè)诰W(wǎng)頁(yè)中看到“大數(shù)據(jù)”這個(gè)詞,或多或少地能了解網(wǎng)頁(yè)的主題。我們看到“應(yīng)用”一次,對(duì)主題基本上還是一無(wú)所知。因此,“原子能“的權(quán)重就應(yīng)該比應(yīng)用大。應(yīng)刪除詞的權(quán)重應(yīng)該是零。詞“的”站了總詞頻的80%以上,它對(duì)確定網(wǎng)頁(yè)的主題幾乎沒(méi)如果一個(gè)關(guān)鍵詞只在很少的網(wǎng)頁(yè)中出現(xiàn),我們通過(guò)它就容易鎖定搜索目標(biāo),它的權(quán)重也就應(yīng)該大。反之如果一個(gè)詞在大量網(wǎng)頁(yè)中出現(xiàn),我們看到它仍然不很清楚要找什么內(nèi)容,因此它應(yīng)該小。概括地講,假定一個(gè)關(guān)鍵詞w在Dw個(gè)網(wǎng)頁(yè)中出現(xiàn)過(guò),那么Dw越大,w的權(quán)重越小,反之亦然。在信息檢索中,使用最多的權(quán)重是“逆文本頻率指數(shù)”(Inversedocumentfrequency縮寫為IDF),它的公式為log(D/Dw)其中D是全部網(wǎng)頁(yè)數(shù)。如果一個(gè)關(guān)鍵詞只在很少的網(wǎng)頁(yè)中出現(xiàn),我們通過(guò)它就容易鎖定搜索假定中文網(wǎng)頁(yè)數(shù)是D=10億,應(yīng)刪除詞“的”在所有的網(wǎng)頁(yè)中都出現(xiàn),即Dw=10億,那么它的IDF=log(10億/10億)=log(1)=0。假如專用詞“大數(shù)據(jù)”在兩百萬(wàn)個(gè)網(wǎng)頁(yè)中出現(xiàn),即Dw=200萬(wàn),則它的權(quán)重IDF=log(500)=6.2。又假定通用詞“應(yīng)用”,出現(xiàn)在五億個(gè)網(wǎng)頁(yè)中,它的權(quán)重IDF=log(2)則只有0.7。也就只說(shuō),在網(wǎng)頁(yè)中找到一個(gè)“大數(shù)據(jù)”的比配相當(dāng)于找到九個(gè)“應(yīng)用”的匹配。利用IDF,上述相關(guān)性計(jì)算個(gè)公式就由詞頻的簡(jiǎn)單求和變成了加權(quán)求和,即TF1*IDF1+

TF2*IDF2+...+TFN*IDFN。在上面的例子中,該網(wǎng)頁(yè)和“原子能的應(yīng)用”的相關(guān)性為0.0159,其中“大數(shù)據(jù)”貢獻(xiàn)了0.0124,而“應(yīng)用”只貢獻(xiàn)了0.0035。這個(gè)比例和我們的直覺(jué)比較一致假定中文網(wǎng)頁(yè)數(shù)是D=10億,應(yīng)刪除詞“的”在所有的網(wǎng)頁(yè)中都出算例1詞頻(TF)是一詞語(yǔ)出現(xiàn)的次數(shù)除以該文件的總詞語(yǔ)數(shù)。假如一篇文件的總詞語(yǔ)數(shù)是100個(gè),而詞語(yǔ)“大數(shù)據(jù)”出現(xiàn)了3次,那么“大數(shù)據(jù)”一詞在該文件中的詞頻就是3/100=0.03。一個(gè)計(jì)算逆文件頻率(IDF)的方法是測(cè)定有多少份文件出現(xiàn)過(guò)“大數(shù)據(jù)”一詞,然后除以文件集里包含的文件總數(shù)。所以,如果“大數(shù)據(jù)”一詞在1,000份文件出現(xiàn)過(guò),而文件總數(shù)是10,000,000份的話,其逆向文件頻率就是log(10,000,000/1,000)=4。最后的TF-IDF的分?jǐn)?shù)為0.03*4=0.12。算例1詞頻(TF)是一詞語(yǔ)出現(xiàn)的次數(shù)除以該文件的總詞語(yǔ)數(shù)算例2關(guān)鍵字k1,k2,k3與文檔的相關(guān)性可用TF1*IDF1+TF2*IDF2+TF3*IDF3來(lái)表示。比如文檔1所包含詞匯總量為1000,k1,k2,k3在文檔1中出現(xiàn)的次數(shù)是100,200,50。包含了k1,k2,k3的文檔總量分別是1000,10000,5000。文檔的總量為10000。TF1=100/1000=0.1;TF2=200/1000=0.2;TF3=50/1000=0.05;IDF1=log(10000/1000)=log(10)=2.3;IDF2=log(10000/100000)=log(1)=0;IDF3=log(10000/5000)=log(2)=0.69這樣關(guān)鍵字k1,k2,k3與文檔1的相關(guān)性=0.1*2.3+0.2*0+0.05*0.69=0.2645,其中k1比k3的比重在文檔1要大,k2的比重是0.算例2關(guān)鍵字k1,k2,k3與文檔的相關(guān)性可用TF1*IDF文檔相似性計(jì)算根據(jù)一個(gè)文檔集合d和一個(gè)項(xiàng)集合t,可以將每個(gè)文檔表示為在t維空間R中的一個(gè)文檔特征向量v。向量v中第j個(gè)數(shù)值就是相應(yīng)文檔中第j個(gè)項(xiàng)的量度。計(jì)算兩個(gè)文檔相似性可以使用上面的公式余弦計(jì)算法(cosinemeasure)文檔相似性計(jì)算根據(jù)一個(gè)文檔集合d和一個(gè)項(xiàng)集合t,可以將每個(gè)文計(jì)算步驟(1)使用TF-IDF算法,找出兩篇文章的關(guān)鍵詞;(2)每篇文章各取出若干個(gè)關(guān)鍵詞,合并成一個(gè)集合,計(jì)算每篇文章對(duì)于這個(gè)集合中的詞的詞頻;(3)生成兩篇文章各自的詞頻向量;(4)計(jì)算兩個(gè)向量的余弦相似度,值越大就表示越相似。計(jì)算步驟文檔相似性計(jì)算示例句子A:我喜歡看電視,不喜歡看電影。句子B:我不喜歡看電視,也不喜歡看電影。文檔相似性計(jì)算示例句子A:我喜歡看電視,不喜歡看電影。第一步,分詞句子A:我/喜歡/看/電視,不/喜歡/看/電影。句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。第二步,列出所有的詞我,喜歡,看,電視,電影,不,也。第三步,計(jì)算詞頻句子A:我1,喜歡2,看2,電視1,電影1,不1,也0。句子B:我1,喜歡2,看2,電視1,電影1,不2,也1。第四步,寫出詞頻向量句子A:[1,2,2,1,1,1,0]句子B:[1,2,2,1,1,2,1]第一步,分詞商務(wù)智能理論與應(yīng)用9-文本挖掘信息檢索信息檢索研究的是大量基于文本的文檔信息的組織和檢索,如聯(lián)機(jī)圖書館系統(tǒng)、聯(lián)機(jī)文檔管理系統(tǒng)和WEB搜索引擎。數(shù)據(jù)庫(kù)系統(tǒng)關(guān)注結(jié)構(gòu)化數(shù)據(jù)段查詢和事務(wù)處理。

信息檢索研究的典型問(wèn)題是根據(jù)用戶查詢(描述所需信息的關(guān)鍵詞),在文檔中定位相關(guān)文檔。信息檢索文本檢索的基本度量查準(zhǔn)率(Precision)是檢索到的文檔中的相關(guān)文檔占全部檢索到的文檔的百分比,它所衡量的是檢索系統(tǒng)的準(zhǔn)確性查全率(Recall)是被檢索出的文檔中的相關(guān)文檔占全部相關(guān)文檔的百分比,它所衡量的是檢索系統(tǒng)的全面性文本檢索的基本度量查準(zhǔn)率(Precision)是檢索到的文檔信息檢索的度量方式{relevant}:與某查詢相關(guān)的文檔的集合。{retrieved}:系統(tǒng)檢索到的文檔的集合。{relevant}∩{retrieved}:既相關(guān)又被檢索到的實(shí)際文檔的集合。查準(zhǔn)率(precision):既相關(guān)又被檢索到的實(shí)際文檔與檢索到的文檔的百分比。查全率(recall):既相關(guān)又被檢索到的實(shí)際文檔與查詢相關(guān)的文檔的百分比。信息檢索的度量方式{relevant}:與某查詢相關(guān)的文檔的模型質(zhì)量的評(píng)價(jià)實(shí)例{relevant}={A,B,C,D,E,F,G,H,I,J}=10{retrieved}={B,D,F,W,Y}=5{relevant}∩{retrieved}={B,D,F}=3查準(zhǔn)率:precision=3/5=60%查全率:recall=3/10=30%B,D,F相關(guān)并被檢索到的文檔所有文檔A,C,E,G,H,I,J相關(guān)的文檔

W,Y被檢索到的文檔模型質(zhì)量的評(píng)價(jià)實(shí)例{relevant}={A,B,C,D,文本挖掘舉例文本挖掘舉例文檔向量化文檔向量化查詢:相關(guān)度查詢:相關(guān)度文檔間相似度(余弦定理)文檔間相似度(余弦定理)3.文本的維度規(guī)約對(duì)于任何一個(gè)非平凡的文檔數(shù)據(jù)庫(kù),詞的數(shù)目T和文檔數(shù)目D通常都很大,如此高的維度將導(dǎo)致低效的計(jì)算,因?yàn)榻Y(jié)果頻度表大小為T*D。高維還會(huì)導(dǎo)致非常稀疏的向量,增加監(jiān)測(cè)和探查詞之間聯(lián)系的難度。維度歸約使用數(shù)據(jù)編碼或變換,以便得到原數(shù)據(jù)的歸約或“壓縮”表示。如果原數(shù)據(jù)可以由壓縮數(shù)據(jù)重新構(gòu)造而不丟失任何信息,則該數(shù)據(jù)歸約是無(wú)損的。如果我們只能重新構(gòu)造原數(shù)據(jù)的近似表示,則該數(shù)據(jù)歸約是有損的。3.文本的維度規(guī)約對(duì)于任何一個(gè)非平凡的文檔數(shù)據(jù)庫(kù),詞的數(shù)目T文本挖掘方法文本挖掘功能層次關(guān)鍵詞相似檢索詞語(yǔ)關(guān)聯(lián)分析自然語(yǔ)言處理文本聚類文本分類文本挖掘功能層次文本挖掘方法文本挖掘功能層次關(guān)鍵詞相似檢索詞語(yǔ)關(guān)聯(lián)分析自然(1)關(guān)鍵詞檢索關(guān)鍵詞建立倒排文件索引,與傳統(tǒng)的信息檢索使用的技術(shù)類似。(2)相似檢索找到相似內(nèi)容的文本。(3)詞語(yǔ)關(guān)聯(lián)分析聚焦在詞語(yǔ)(包括關(guān)鍵詞)之間的關(guān)聯(lián)信息分析上。(4)文本聚類和文本分類實(shí)現(xiàn)文本的聚類和分類。(5)自然語(yǔ)言處理揭示自然語(yǔ)言處理技術(shù)的語(yǔ)義,進(jìn)行文本語(yǔ)義挖掘。(1)關(guān)鍵詞檢索關(guān)聯(lián)分析挖掘在文本數(shù)據(jù)庫(kù)中,每一文本被視為一個(gè)事務(wù),文本中的關(guān)鍵詞組可視為事務(wù)中的一組事務(wù)項(xiàng)。即文本數(shù)據(jù)庫(kù)可表示為:{文本編號(hào),關(guān)鍵詞集}文本數(shù)據(jù)庫(kù)中關(guān)鍵詞關(guān)聯(lián)挖掘的問(wèn)題就變成事務(wù)數(shù)據(jù)庫(kù)中事務(wù)項(xiàng)的關(guān)聯(lián)挖掘。

關(guān)聯(lián)分析挖掘可以用于找出詞或關(guān)鍵詞間的關(guān)聯(lián)。關(guān)聯(lián)分析挖掘在文本數(shù)據(jù)庫(kù)中,每一文本關(guān)聯(lián)分析挖掘輸入語(yǔ)義信息,如事件、事實(shí)或信息提取發(fā)現(xiàn)的實(shí)體輸入是標(biāo)記的集合輸入是文檔中關(guān)鍵詞或詞的集合基于關(guān)鍵詞的方法標(biāo)記方法信息提取方法關(guān)聯(lián)分析挖掘基于關(guān)鍵詞的方法標(biāo)記方法信息提取方法關(guān)聯(lián)分析挖掘關(guān)聯(lián)分析過(guò)程:對(duì)文本數(shù)據(jù)進(jìn)行分析、詞根處理、去除停詞等預(yù)處理,再調(diào)用關(guān)聯(lián)挖掘算法基于關(guān)鍵詞的關(guān)聯(lián)技術(shù):收集頻繁出現(xiàn)的關(guān)鍵詞或詞匯,找出其關(guān)聯(lián)或相互關(guān)系關(guān)聯(lián)挖掘關(guān)聯(lián)挖掘有助于找出符合關(guān)聯(lián),即領(lǐng)域相關(guān)的術(shù)語(yǔ)或短語(yǔ)關(guān)聯(lián)分析挖掘關(guān)聯(lián)分析過(guò)程:基于關(guān)鍵詞的關(guān)聯(lián)技術(shù):收集頻繁出關(guān)聯(lián)分析挖掘基于關(guān)鍵字的關(guān)聯(lián)分析基于關(guān)鍵字關(guān)聯(lián)分析就是首先收集頻繁一起出現(xiàn)的項(xiàng)或者關(guān)鍵字的集合,然后發(fā)現(xiàn)其中所存在的關(guān)聯(lián)性關(guān)聯(lián)分析對(duì)文本數(shù)據(jù)庫(kù)進(jìn)行預(yù)處理,生成關(guān)鍵字向量,根據(jù)關(guān)鍵字查詢向量與文檔向量之間的相關(guān)度比較結(jié)果輸出文本結(jié)果,然后調(diào)用關(guān)聯(lián)挖掘算法關(guān)聯(lián)分析挖掘基于關(guān)鍵字的關(guān)聯(lián)分析基于關(guān)鍵字關(guān)聯(lián)分析就是首先收文檔分類分析文檔分類分析文檔分類分析自動(dòng)文檔分類是指利用計(jì)算機(jī)將一篇文章自動(dòng)地分派到一個(gè)或多個(gè)預(yù)定義的類別中文檔分類的關(guān)鍵問(wèn)題是獲得一個(gè)分類模式,利用此分類模式也可以用于其他文檔的分類有了一個(gè)模式之后,需要進(jìn)行人工標(biāo)記和訓(xùn)練,以確定這個(gè)模式的參數(shù),然后才能進(jìn)行自動(dòng)的文檔分類文檔分類分析自動(dòng)文檔分類是指利用計(jì)算機(jī)將一篇文章自動(dòng)地分派到文檔分類分析應(yīng)用領(lǐng)域門戶網(wǎng)站(網(wǎng)頁(yè))圖書館(電子資料)…自動(dòng)分類優(yōu)點(diǎn):減小人工分類的繁雜工作提高信息處理的效率

減小人工分類的主觀性文檔分類分析應(yīng)用領(lǐng)域文檔分類分析步驟定義分類體系將預(yù)先分類過(guò)的文檔作為訓(xùn)練集從訓(xùn)練集中得出分類模型(需要測(cè)試過(guò)程,不斷細(xì)化)用訓(xùn)練獲得出的分類模型對(duì)其它文檔加以分類文檔分類分析步驟文檔分類分析文本分類基本步驟文檔分類分析文本分類基本步驟文檔分類分析文本分類過(guò)程文檔分類分析文本分類過(guò)程文檔分類分析特征選擇

方法貝葉斯分類最近鄰分類相似文檔具有相似文檔向量,將每個(gè)文檔關(guān)聯(lián)到相應(yīng)的類標(biāo)號(hào)將文檔分類看做計(jì)算文檔在特定類中的統(tǒng)計(jì)分布文檔分類支持向量機(jī)使用數(shù)表示類,構(gòu)建從詞空間到類變量的直接映射函數(shù)(在高維空間中運(yùn)行良好,最小二乘線性回歸方法區(qū)分能力較強(qiáng))基于關(guān)聯(lián)的、頻繁出現(xiàn)的文本模式集對(duì)文檔分類基于關(guān)聯(lián)的

分類刪除文檔中與與類標(biāo)號(hào)統(tǒng)計(jì)不相關(guān)的非特征詞文檔分類分析特征選擇最近鄰分類相似文檔具有相似文檔向量,將文檔聚類分析文本聚類是根據(jù)文本數(shù)據(jù)的不同特征,將其劃分為不同數(shù)據(jù)類的過(guò)程其目的是要使同一類別的文本間的距離盡可能小,而不同類別的文本間的距離盡可能的大文檔聚類分析文本聚類是根據(jù)文本數(shù)據(jù)的不同特征,將其劃分為不同文檔聚類分析文檔自動(dòng)聚類的步驟(1)獲取結(jié)構(gòu)化的文本集(2)執(zhí)行聚類算法,獲得聚類譜系圖。聚類算法的目的是獲取能夠反映特征空間樣本點(diǎn)之間的“抱團(tuán)”性質(zhì)(3)選取合適的聚類IA值。在得到聚類譜系圖后,領(lǐng)域?qū)<覒{借經(jīng)驗(yàn),并結(jié)合具體的應(yīng)用場(chǎng)合確定閾值(4)執(zhí)行聚類算法,獲得聚類結(jié)果文檔聚類分析文檔自動(dòng)聚類的步驟文檔聚類分析混合模型聚類使用潛在語(yǔ)義標(biāo)引聚類(LSI)光譜聚類對(duì)原始數(shù)據(jù)進(jìn)行維度歸約,運(yùn)用傳統(tǒng)的聚類方法(如k均值,缺點(diǎn)是計(jì)算昂貴)對(duì)文本數(shù)據(jù)和先驗(yàn)知識(shí)估計(jì)模型參數(shù),基于參數(shù)推斷聚類最小化全局重構(gòu)誤差下,找到原文檔空間的最佳子空間近似文檔聚類

分析使用保持局部性標(biāo)引聚類(LPI)發(fā)現(xiàn)局部幾何結(jié)構(gòu),具有更強(qiáng)的區(qū)分能力文檔聚類分析混合模型聚類使用潛在語(yǔ)義光譜聚類對(duì)原始數(shù)據(jù)進(jìn)行維文檔聚類分析文檔自動(dòng)聚類的類型平面劃分法:對(duì)包含n個(gè)樣本的樣本集構(gòu)造樣本集的k個(gè)劃分,每個(gè)劃分表示一個(gè)聚簇層次聚類法:層次聚類法對(duì)給定的樣本集進(jìn)行層次分解。根據(jù)層次分解方向的不同可分為凝聚層次聚類和分裂層次聚類基于密度的方法:根據(jù)樣本點(diǎn)臨近區(qū)域的密度進(jìn)行聚類,使在給定區(qū)域內(nèi)至少包含一定數(shù)據(jù)的樣本點(diǎn)基于網(wǎng)格的方法:采用多分辨率的網(wǎng)格數(shù)據(jù)結(jié)構(gòu),將樣本空間量化為數(shù)量有限的網(wǎng)格單元,所有聚類操作都在網(wǎng)格上進(jìn)行基于模型的方法:為每個(gè)簇假定一個(gè)模型,然后通過(guò)尋找樣本對(duì)給定模型的最佳擬合進(jìn)行聚類文檔聚類分析文檔自動(dòng)聚類的類型文檔聚類分析平面劃分法將文檔集D={d1,…,di,…,dn}水平地分割為的若干類,具體過(guò)程:1.確定要生成的類的數(shù)目k;2.按照某種原則生成k個(gè)聚類中心作為聚類的種子S={s1,…,sj,…,sk};3.對(duì)D中的每一個(gè)文檔di,依次計(jì)算它與各個(gè)種子sj的相似度sim(di,sj

);4.選取具有最大的相似度的種子argmaxsim(di,sj

),將di歸入以sj為聚類中心的類Cj,從而得到D的一個(gè)聚類C={c1,…,ck};5.重復(fù)步驟2~4若干次,以得到較為穩(wěn)定的聚類結(jié)果。該方法速度快,但k要預(yù)先確定,種子選取難文檔聚類分析平面劃分法文檔聚類分析層次聚類法具體過(guò)程將文檔集D={d1,…,di,…,dn}中的每一個(gè)文檔di看作是一個(gè)具有單個(gè)成員的類Ci={di},這些類構(gòu)成了D的一個(gè)聚類C={c1,…,ci,…,cn};計(jì)算C中每對(duì)類(ci,cj

)之間的相似度sim(ci,cj

);選取具有最大相似度的類對(duì)argmaxsim(ci,cj

),并將ci和cj合并為一個(gè)新的類ck=ci∪cj

,從而構(gòu)成D的一個(gè)新的類C={c1,…,cn-1};重復(fù)上述步驟,直到C中只剩下一個(gè)類為止。……文檔聚類分析層次聚類法……THANKYOU!THANKYOU!大數(shù)據(jù)與數(shù)據(jù)挖掘-文本挖掘大數(shù)據(jù)與數(shù)據(jù)挖掘-文本挖掘文本挖掘的背景數(shù)據(jù)挖掘大部分研究主要針對(duì)結(jié)構(gòu)化數(shù)據(jù),如關(guān)系的、事務(wù)的和數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)?,F(xiàn)實(shí)中大部分?jǐn)?shù)據(jù)存儲(chǔ)在文本數(shù)據(jù)庫(kù)中,如新聞文章、研究論文、書籍、WEB頁(yè)面等。存放在文本數(shù)據(jù)庫(kù)中的數(shù)據(jù)是半結(jié)構(gòu)化數(shù)據(jù),文檔中可能包含結(jié)構(gòu)化字段,如標(biāo)題、作者、出版社、出版日期等,也包含大量非結(jié)構(gòu)化數(shù)據(jù),如摘要和內(nèi)容等。1、文本挖掘概述文本挖掘的背景數(shù)據(jù)挖掘大部分研究主要針對(duì)結(jié)構(gòu)化數(shù)據(jù),如關(guān)系的文本挖掘概念文本挖掘旨在通過(guò)識(shí)別和檢索令人感興趣的模式,進(jìn)而從數(shù)據(jù)源中抽取有用的信息。文本挖掘的數(shù)據(jù)源是文本集合,令人感興趣的模式不是從形式化的數(shù)據(jù)庫(kù)記錄里發(fā)現(xiàn),而是從非結(jié)構(gòu)化的數(shù)據(jù)中發(fā)現(xiàn)。文本挖掘概念文本挖掘旨在通過(guò)識(shí)別和檢索令人感興趣的模式,進(jìn)而文本挖掘的過(guò)程預(yù)處理文檔建模相似性計(jì)算信息檢索文本分類文本聚類模型評(píng)價(jià)文本挖掘的過(guò)程預(yù)處理預(yù)處理把中文的漢字序列切分成有意義的詞,就是中文分詞,也稱為切詞?!拔沂且粋€(gè)學(xué)生”分詞的結(jié)果是:我是一個(gè)學(xué)生。和平民主和平、民主;和、平民、主提高人民生活水平提高、高人、人民、民生、生活、活水、水平大學(xué)生活象白紙大學(xué)、生活、象、白紙大學(xué)生、活象、白紙預(yù)處理把中文的漢字序列切分成有意義的詞,就是中文分詞,也稱為最大匹配分詞法S1="計(jì)算語(yǔ)言學(xué)課程是三個(gè)課時(shí)"設(shè)定最大詞長(zhǎng)MaxLen=5S2=""最大匹配分詞法S1="計(jì)算語(yǔ)言學(xué)課程是三個(gè)課時(shí)"(1)S2=“”;S1不為空,從S1左邊取出候選子串W="計(jì)算語(yǔ)言學(xué)";(2)查詞表,“計(jì)算語(yǔ)言學(xué)”在詞表中,將W加入到S2中,S2=“計(jì)算語(yǔ)言學(xué)/”,并將W從S1中去掉,此時(shí)S1="課程是三個(gè)課時(shí)";(3)S1不為空,于是從S1左邊取出候選子串W="課程是三個(gè)";(4)查詞表,W不在詞表中,將W最右邊一個(gè)字去掉,得到W="課程是三";(5)查詞表,W不在詞表中,將W最右邊一個(gè)字去掉,得到W="課程是";(1)S2=“”;S1不為空,從S1左邊取出候選子串商務(wù)智能理論與應(yīng)用9-文本挖掘(11)查詞表,W不在詞表中,將W最右邊一個(gè)字去掉,得到W="是三"(12)查詞表,W不在詞表中,將W最右邊一個(gè)字去掉,得到W=“是”,這時(shí)W是單字,將W加入到S2中,S2=“計(jì)算語(yǔ)言學(xué)/課程/是/”,并將W從S1中去掉,此時(shí)S1="三個(gè)課時(shí)";(21)S2=“計(jì)算語(yǔ)言學(xué)/課程/是/三/個(gè)/課時(shí)/”,此時(shí)S1=""。(22)S1為空,輸出S2作為分詞結(jié)果,分詞過(guò)程結(jié)束。(11)查詞表,W不在詞表中,將W最右邊一個(gè)字去掉,得到W=停用詞指文檔中出現(xiàn)的連詞,介詞,冠詞等并無(wú)太大意義的詞。英文中常用的停用詞有the,a,it等中文中常見(jiàn)的有“是”,“的”,“地”等。停用詞消除可以減少term的個(gè)數(shù),降低存儲(chǔ)空間。停用詞的消除方法:(1)查表法:建立一個(gè)停用詞表,通過(guò)查表的方式去掉停用詞。(2)基于DF的方法:統(tǒng)計(jì)每個(gè)詞的DF,如果超過(guò)總文檔數(shù)目的某個(gè)百分比(如80%),則作為停用詞去掉。停用詞指文檔中出現(xiàn)的連詞,介詞,冠詞等并無(wú)太大意義的詞。文檔建模特征表示是指以一定的特征項(xiàng)如詞條或描述來(lái)代表文檔信息。特征表示模型有多種,常用的有布爾邏輯型、向量空間型等文檔建模特征表示是指以一定的特征項(xiàng)如詞條或描述來(lái)代表文檔信息向量空間模型中,將每個(gè)文本文檔看成是一組詞條(T1,T2,T3,…,Tn)構(gòu)成,對(duì)于每一詞條Ti,根據(jù)其在文檔中的重要程度賦予一定的權(quán)值,可以將其看成一個(gè)n維坐標(biāo)系,W1,W2,…,Wn為對(duì)應(yīng)的坐標(biāo)值,因此每一篇文檔都可以映射為由一組詞條矢量構(gòu)成的向量空間中的一點(diǎn),對(duì)于所有待挖掘的文檔都用詞條特征矢量(T1,W1;T2,W2;T3,W3;…;Tn,Wn)表示。向量空間模型將文檔表達(dá)為一個(gè)矢量,看作向量空間中的一個(gè)點(diǎn)。向量空間模型中,將每個(gè)文本文檔看成是一組詞條(T1,T2,T文檔的向量空間模型文檔的向量空間模型W權(quán)值計(jì)算方法TF-IDF

目前廣泛采用TF-IDF權(quán)值計(jì)算方法來(lái)計(jì)算權(quán)重,TF-IDF的主要思想是,如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力,適合用來(lái)分類。

TF詞頻(TermFrequency)指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的次數(shù)。

IDF逆文檔頻率(InverseDocumentFrequency)是全體文檔數(shù)與包含詞條文檔數(shù)的比值。如果包含詞條的文檔越少,IDF越大,則說(shuō)明詞條具有很好的類別區(qū)分能力。在完整的向量空間模型中,將TF和IDF組合在一起,形成TF-IDF度量:TF-IDF(d,t)=TF(d,t)*IDF(t)W權(quán)值計(jì)算方法TF-IDFTF度量在一份給定的文件里,詞頻(termfrequency,TF)指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的頻率。這個(gè)數(shù)字是對(duì)詞數(shù)(termcount)的歸一化,以防止它偏向長(zhǎng)的文件。(同一個(gè)詞語(yǔ)在長(zhǎng)文件里可能會(huì)比短文件有更高的詞數(shù),而不管該詞語(yǔ)重要與否。)對(duì)于在某一特定文件里的詞語(yǔ)

來(lái)說(shuō),它的重要性可表示為:

以上式子中

是該詞在文件中的出現(xiàn)次數(shù),而分母則是在文件中所有字詞的出現(xiàn)次數(shù)之和。TF度量在一份給定的文件里,詞頻(termfrequencIDF度量逆向文件頻率(inversedocumentfrequency,IDF)是一個(gè)詞語(yǔ)普遍重要性的度量。某一特定詞語(yǔ)的IDF,可以由總文件數(shù)目除以包含該詞語(yǔ)之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到:?|D|:語(yǔ)料庫(kù)中的文件總數(shù)?:包含詞語(yǔ)的文件數(shù)目(即的文件數(shù)目)如果該詞語(yǔ)不在語(yǔ)料庫(kù)中,就會(huì)導(dǎo)致被除數(shù)為零,因此一般情況下使用IDF度量逆向文件頻率(inversedocumentf關(guān)鍵詞與網(wǎng)頁(yè)的相關(guān)性計(jì)算在某個(gè)一共有一千詞的網(wǎng)頁(yè)中“大數(shù)據(jù)”、“的”和“應(yīng)用”分別出現(xiàn)了2次、35次和5次,那么它們的詞頻就分別是0.002、0.035和0.005。三個(gè)數(shù)相加,其和0.042就是相應(yīng)網(wǎng)頁(yè)和查詢“大數(shù)據(jù)的應(yīng)用”相關(guān)性的一個(gè)簡(jiǎn)單的度量。概括地講,如果一個(gè)查詢包含關(guān)鍵詞w1,w2,...,wN,它們?cè)谝黄囟ňW(wǎng)頁(yè)中的詞頻分別是:TF1,TF2,...,TFN。(TF:termfrequency)。那么,這個(gè)查詢和該網(wǎng)頁(yè)的相關(guān)性就是:TF1+TF2+...+TFN。關(guān)鍵詞與網(wǎng)頁(yè)的相關(guān)性計(jì)算在某個(gè)一共有一千詞的網(wǎng)頁(yè)中“大數(shù)據(jù)”詞“的”站了總詞頻的80%以上,它對(duì)確定網(wǎng)頁(yè)的主題幾乎沒(méi)有用。在度量相關(guān)性時(shí)不應(yīng)考慮它們的頻率。刪除后,上述網(wǎng)頁(yè)的相似度就變成了0.007,其中“大數(shù)據(jù)”貢獻(xiàn)了0.002,“應(yīng)用”貢獻(xiàn)了0.005?!皯?yīng)用”是個(gè)很通用的詞,而“大數(shù)據(jù)”是個(gè)很專業(yè)的詞,后者在相關(guān)性排名中比前者重要。因此我們需要給漢語(yǔ)中的每一個(gè)詞給一個(gè)權(quán)重,這個(gè)權(quán)重的設(shè)定必須滿足下面兩個(gè)條件:一個(gè)詞預(yù)測(cè)主題能力越強(qiáng),權(quán)重就越大,反之,權(quán)重就越小。我們?cè)诰W(wǎng)頁(yè)中看到“大數(shù)據(jù)”這個(gè)詞,或多或少地能了解網(wǎng)頁(yè)的主題。我們看到“應(yīng)用”一次,對(duì)主題基本上還是一無(wú)所知。因此,“原子能“的權(quán)重就應(yīng)該比應(yīng)用大。應(yīng)刪除詞的權(quán)重應(yīng)該是零。詞“的”站了總詞頻的80%以上,它對(duì)確定網(wǎng)頁(yè)的主題幾乎沒(méi)如果一個(gè)關(guān)鍵詞只在很少的網(wǎng)頁(yè)中出現(xiàn),我們通過(guò)它就容易鎖定搜索目標(biāo),它的權(quán)重也就應(yīng)該大。反之如果一個(gè)詞在大量網(wǎng)頁(yè)中出現(xiàn),我們看到它仍然不很清楚要找什么內(nèi)容,因此它應(yīng)該小。概括地講,假定一個(gè)關(guān)鍵詞w在Dw個(gè)網(wǎng)頁(yè)中出現(xiàn)過(guò),那么Dw越大,w的權(quán)重越小,反之亦然。在信息檢索中,使用最多的權(quán)重是“逆文本頻率指數(shù)”(Inversedocumentfrequency縮寫為IDF),它的公式為log(D/Dw)其中D是全部網(wǎng)頁(yè)數(shù)。如果一個(gè)關(guān)鍵詞只在很少的網(wǎng)頁(yè)中出現(xiàn),我們通過(guò)它就容易鎖定搜索假定中文網(wǎng)頁(yè)數(shù)是D=10億,應(yīng)刪除詞“的”在所有的網(wǎng)頁(yè)中都出現(xiàn),即Dw=10億,那么它的IDF=log(10億/10億)=log(1)=0。假如專用詞“大數(shù)據(jù)”在兩百萬(wàn)個(gè)網(wǎng)頁(yè)中出現(xiàn),即Dw=200萬(wàn),則它的權(quán)重IDF=log(500)=6.2。又假定通用詞“應(yīng)用”,出現(xiàn)在五億個(gè)網(wǎng)頁(yè)中,它的權(quán)重IDF=log(2)則只有0.7。也就只說(shuō),在網(wǎng)頁(yè)中找到一個(gè)“大數(shù)據(jù)”的比配相當(dāng)于找到九個(gè)“應(yīng)用”的匹配。利用IDF,上述相關(guān)性計(jì)算個(gè)公式就由詞頻的簡(jiǎn)單求和變成了加權(quán)求和,即TF1*IDF1+

TF2*IDF2+...+TFN*IDFN。在上面的例子中,該網(wǎng)頁(yè)和“原子能的應(yīng)用”的相關(guān)性為0.0159,其中“大數(shù)據(jù)”貢獻(xiàn)了0.0124,而“應(yīng)用”只貢獻(xiàn)了0.0035。這個(gè)比例和我們的直覺(jué)比較一致假定中文網(wǎng)頁(yè)數(shù)是D=10億,應(yīng)刪除詞“的”在所有的網(wǎng)頁(yè)中都出算例1詞頻(TF)是一詞語(yǔ)出現(xiàn)的次數(shù)除以該文件的總詞語(yǔ)數(shù)。假如一篇文件的總詞語(yǔ)數(shù)是100個(gè),而詞語(yǔ)“大數(shù)據(jù)”出現(xiàn)了3次,那么“大數(shù)據(jù)”一詞在該文件中的詞頻就是3/100=0.03。一個(gè)計(jì)算逆文件頻率(IDF)的方法是測(cè)定有多少份文件出現(xiàn)過(guò)“大數(shù)據(jù)”一詞,然后除以文件集里包含的文件總數(shù)。所以,如果“大數(shù)據(jù)”一詞在1,000份文件出現(xiàn)過(guò),而文件總數(shù)是10,000,000份的話,其逆向文件頻率就是log(10,000,000/1,000)=4。最后的TF-IDF的分?jǐn)?shù)為0.03*4=0.12。算例1詞頻(TF)是一詞語(yǔ)出現(xiàn)的次數(shù)除以該文件的總詞語(yǔ)數(shù)算例2關(guān)鍵字k1,k2,k3與文檔的相關(guān)性可用TF1*IDF1+TF2*IDF2+TF3*IDF3來(lái)表示。比如文檔1所包含詞匯總量為1000,k1,k2,k3在文檔1中出現(xiàn)的次數(shù)是100,200,50。包含了k1,k2,k3的文檔總量分別是1000,10000,5000。文檔的總量為10000。TF1=100/1000=0.1;TF2=200/1000=0.2;TF3=50/1000=0.05;IDF1=log(10000/1000)=log(10)=2.3;IDF2=log(10000/100000)=log(1)=0;IDF3=log(10000/5000)=log(2)=0.69這樣關(guān)鍵字k1,k2,k3與文檔1的相關(guān)性=0.1*2.3+0.2*0+0.05*0.69=0.2645,其中k1比k3的比重在文檔1要大,k2的比重是0.算例2關(guān)鍵字k1,k2,k3與文檔的相關(guān)性可用TF1*IDF文檔相似性計(jì)算根據(jù)一個(gè)文檔集合d和一個(gè)項(xiàng)集合t,可以將每個(gè)文檔表示為在t維空間R中的一個(gè)文檔特征向量v。向量v中第j個(gè)數(shù)值就是相應(yīng)文檔中第j個(gè)項(xiàng)的量度。計(jì)算兩個(gè)文檔相似性可以使用上面的公式余弦計(jì)算法(cosinemeasure)文檔相似性計(jì)算根據(jù)一個(gè)文檔集合d和一個(gè)項(xiàng)集合t,可以將每個(gè)文計(jì)算步驟(1)使用TF-IDF算法,找出兩篇文章的關(guān)鍵詞;(2)每篇文章各取出若干個(gè)關(guān)鍵詞,合并成一個(gè)集合,計(jì)算每篇文章對(duì)于這個(gè)集合中的詞的詞頻;(3)生成兩篇文章各自的詞頻向量;(4)計(jì)算兩個(gè)向量的余弦相似度,值越大就表示越相似。計(jì)算步驟文檔相似性計(jì)算示例句子A:我喜歡看電視,不喜歡看電影。句子B:我不喜歡看電視,也不喜歡看電影。文檔相似性計(jì)算示例句子A:我喜歡看電視,不喜歡看電影。第一步,分詞句子A:我/喜歡/看/電視,不/喜歡/看/電影。句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。第二步,列出所有的詞我,喜歡,看,電視,電影,不,也。第三步,計(jì)算詞頻句子A:我1,喜歡2,看2,電視1,電影1,不1,也0。句子B:我1,喜歡2,看2,電視1,電影1,不2,也1。第四步,寫出詞頻向量句子A:[1,2,2,1,1,1,0]句子B:[1,2,2,1,1,2,1]第一步,分詞商務(wù)智能理論與應(yīng)用9-文本挖掘信息檢索信息檢索研究的是大量基于文本的文檔信息的組織和檢索,如聯(lián)機(jī)圖書館系統(tǒng)、聯(lián)機(jī)文檔管理系統(tǒng)和WEB搜索引擎。數(shù)據(jù)庫(kù)系統(tǒng)關(guān)注結(jié)構(gòu)化數(shù)據(jù)段查詢和事務(wù)處理。

信息檢索研究的典型問(wèn)題是根據(jù)用戶查詢(描述所需信息的關(guān)鍵詞),在文檔中定位相關(guān)文檔。信息檢索文本檢索的基本度量查準(zhǔn)率(Precision)是檢索到的文檔中的相關(guān)文檔占全部檢索到的文檔的百分比,它所衡量的是檢索系統(tǒng)的準(zhǔn)確性查全率(Recall)是被檢索出的文檔中的相關(guān)文檔占全部相關(guān)文檔的百分比,它所衡量的是檢索系統(tǒng)的全面性文本檢索的基本度量查準(zhǔn)率(Precision)是檢索到的文檔信息檢索的度量方式{relevant}:與某查詢相關(guān)的文檔的集合。{retrieved}:系統(tǒng)檢索到的文檔的集合。{relevant}∩{retrieved}:既相關(guān)又被檢索到的實(shí)際文檔的集合。查準(zhǔn)率(precision):既相關(guān)又被檢索到的實(shí)際文檔與檢索到的文檔的百分比。查全率(recall):既相關(guān)又被檢索到的實(shí)際文檔與查詢相關(guān)的文檔的百分比。信息檢索的度量方式{relevant}:與某查詢相關(guān)的文檔的模型質(zhì)量的評(píng)價(jià)實(shí)例{relevant}={A,B,C,D,E,F,G,H,I,J}=10{retrieved}={B,D,F,W,Y}=5{relevant}∩{retrieved}={B,D,F}=3查準(zhǔn)率:precision=3/5=60%查全率:recall=3/10=30%B,D,F相關(guān)并被檢索到的文檔所有文檔A,C,E,G,H,I,J相關(guān)的文檔

W,Y被檢索到的文檔模型質(zhì)量的評(píng)價(jià)實(shí)例{relevant}={A,B,C,D,文本挖掘舉例文本挖掘舉例文檔向量化文檔向量化查詢:相關(guān)度查詢:相關(guān)度文檔間相似度(余弦定理)文檔間相似度(余弦定理)3.文本的維度規(guī)約對(duì)于任何一個(gè)非平凡的文檔數(shù)據(jù)庫(kù),詞的數(shù)目T和文檔數(shù)目D通常都很大,如此高的維度將導(dǎo)致低效的計(jì)算,因?yàn)榻Y(jié)果頻度表大小為T*D。高維還會(huì)導(dǎo)致非常稀疏的向量,增加監(jiān)測(cè)和探查詞之間聯(lián)系的難度。維度歸約使用數(shù)據(jù)編碼或變換,以便得到原數(shù)據(jù)的歸約或“壓縮”表示。如果原數(shù)據(jù)可以由壓縮數(shù)據(jù)重新構(gòu)造而不丟失任何信息,則該數(shù)據(jù)歸約是無(wú)損的。如果我們只能重新構(gòu)造原數(shù)據(jù)的近似表示,則該數(shù)據(jù)歸約是有損的。3.文本的維度規(guī)約對(duì)于任何一個(gè)非平凡的文檔數(shù)據(jù)庫(kù),詞的數(shù)目T文本挖掘方法文本挖掘功能層次關(guān)鍵詞相似檢索詞語(yǔ)關(guān)聯(lián)分析自然語(yǔ)言處理文本聚類文本分類文本挖掘功能層次文本挖掘方法文本挖掘功能層次關(guān)鍵詞相似檢索詞語(yǔ)關(guān)聯(lián)分析自然(1)關(guān)鍵詞檢索關(guān)鍵詞建立倒排文件索引,與傳統(tǒng)的信息檢索使用的技術(shù)類似。(2)相似檢索找到相似內(nèi)容的文本。(3)詞語(yǔ)關(guān)聯(lián)分析聚焦在詞語(yǔ)(包括關(guān)鍵詞)之間的關(guān)聯(lián)信息分析上。(4)文本聚類和文本分類實(shí)現(xiàn)文本的聚類和分類。(5)自然語(yǔ)言處理揭示自然語(yǔ)言處理技術(shù)的語(yǔ)義,進(jìn)行文本語(yǔ)義挖掘。(1)關(guān)鍵詞檢索關(guān)聯(lián)分析挖掘在文本數(shù)據(jù)庫(kù)中,每一文本被視為一個(gè)事務(wù),文本中的關(guān)鍵詞組可視為事務(wù)中的一組事務(wù)項(xiàng)。即文本數(shù)據(jù)庫(kù)可表示為:{文本編號(hào),關(guān)鍵詞集}文本數(shù)據(jù)庫(kù)中關(guān)鍵詞關(guān)聯(lián)挖掘的問(wèn)題就變成事務(wù)數(shù)據(jù)庫(kù)中事務(wù)項(xiàng)的關(guān)聯(lián)挖掘。

關(guān)聯(lián)分析挖掘可以用于找出詞或關(guān)鍵詞間的關(guān)聯(lián)。關(guān)聯(lián)分析挖掘在文本數(shù)據(jù)庫(kù)中,每一文本關(guān)聯(lián)分析挖掘輸入語(yǔ)義信息,如事件、事實(shí)或信息提取發(fā)現(xiàn)的實(shí)體輸入是標(biāo)記的集合輸入是文檔中關(guān)鍵詞或詞的集合基于關(guān)鍵詞的方法標(biāo)記方法信息提取方法關(guān)聯(lián)分析挖掘基于關(guān)鍵詞的方法標(biāo)記方法信息提取方法關(guān)聯(lián)分析挖掘關(guān)聯(lián)分析過(guò)程:對(duì)文本數(shù)據(jù)進(jìn)行分析、詞根處理、去除停詞等預(yù)處理,再調(diào)用關(guān)聯(lián)挖掘算法基于關(guān)鍵詞的關(guān)聯(lián)技術(shù):收集頻繁出現(xiàn)的關(guān)鍵詞或詞匯,找出其關(guān)聯(lián)或相互關(guān)系關(guān)聯(lián)挖掘關(guān)聯(lián)挖掘有助于找出符合關(guān)聯(lián),即領(lǐng)域相關(guān)的術(shù)語(yǔ)或短語(yǔ)關(guān)聯(lián)分析挖掘關(guān)聯(lián)分析過(guò)程:基于關(guān)鍵詞的關(guān)聯(lián)技術(shù):收集頻繁出關(guān)聯(lián)分析挖掘基于關(guān)鍵字的關(guān)聯(lián)分析基于關(guān)鍵字關(guān)聯(lián)分析就是首先收集頻繁一起出現(xiàn)的項(xiàng)或者關(guān)鍵字的集合,然后發(fā)現(xiàn)其中所存在的關(guān)聯(lián)性關(guān)聯(lián)分析對(duì)文本數(shù)據(jù)庫(kù)進(jìn)行預(yù)處理,生成關(guān)鍵字向量,根據(jù)關(guān)鍵字查詢向量與文檔向量之間的相關(guān)度比較結(jié)果輸出文本結(jié)果,然后調(diào)用關(guān)聯(lián)挖掘算法關(guān)聯(lián)分析挖掘基于關(guān)鍵字的關(guān)聯(lián)分析基于關(guān)鍵字關(guān)聯(lián)分析就是首先收文檔分類分析文檔分類分析文檔分類分析自動(dòng)文檔分類是指利用計(jì)算機(jī)將一篇文章自動(dòng)地分派到一個(gè)或多個(gè)預(yù)定義的類別中文檔分類的關(guān)鍵問(wèn)題是獲得一個(gè)分類模式,利用此分類模式也可以用于其他文檔的分類有了一個(gè)模式之后,需要進(jìn)行人工標(biāo)記和訓(xùn)練,以確定這個(gè)模式的參數(shù),然后才能進(jìn)行自動(dòng)的文檔分類文檔分類分析自動(dòng)文檔分類是指利用計(jì)算機(jī)將一篇文章自動(dòng)地分派到文檔分類分析應(yīng)用領(lǐng)域門戶網(wǎng)站(網(wǎng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論