文本挖掘方法概述課件

上傳人：w*** IP屬地：貴州上傳時(shí)間：2023-01-04 格式：PPT 頁數(shù)：50 大小：2.19MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩45頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

文本挖掘過程與方法簡介PPT模板下載：/moban/行業(yè)PPT模板：/hangye/節(jié)日PPT模板：/jieri/PPT素材下載：/sucai/PPT背景圖片：/beijing/PPT圖表下載：/tubiao/優(yōu)秀PPT下載：/xiazai/PPT教程：/powerpoint/Word教程：/word/Excel教程：/excel/資料下載：/ziliao/PPT課件下載：/kejian/范文下載：/fanwen/試卷下載：/shiti/教案下載：/jiaoan/

文本挖掘過程與方法簡介PPT模板下載：www.1ppt.co大數(shù)據(jù)分析技術(shù)大數(shù)據(jù)分析技術(shù)文檔物征提取/文本表示特征選擇挖掘方法獲取知識模式知識用戶評價(jià)

文本挖掘的一般方法文檔物征提取/文本表示特征選擇挖掘方法獲取知識模式知識用戶評數(shù)據(jù)準(zhǔn)備01分詞及詞性標(biāo)注0203文本相似度計(jì)算和主題模型04情感計(jì)算數(shù)據(jù)準(zhǔn)備01分詞及詞性標(biāo)注0203文本相似度計(jì)算和主題模型0數(shù)據(jù)準(zhǔn)備01分詞及詞性標(biāo)注0203文本相似度計(jì)算和主題模型04情感計(jì)算數(shù)據(jù)準(zhǔn)備01分詞及詞性標(biāo)注0203文本相似度計(jì)算和主題模型0數(shù)據(jù)獲取

網(wǎng)絡(luò)文本數(shù)據(jù)包括各大門戶網(wǎng)站的新聞、論壇的帖子、微博、博客等等。

爬取數(shù)據(jù)可以使用“火車頭”、“網(wǎng)絡(luò)神采”等工具。也可以使用java、python等的開源的爬蟲框架。自己編寫爬蟲的話，對于網(wǎng)頁解析可以用“正則表達(dá)式”或Beautifulsoup。數(shù)據(jù)獲取網(wǎng)絡(luò)文本數(shù)據(jù)包括各大門戶網(wǎng)站的新聞、論數(shù)據(jù)獲取——常用兩個類庫Selenium①一個用于Web應(yīng)用程序測試的工具。②直接運(yùn)行在瀏覽器中的一款測試工具，和真正的用戶打開瀏覽網(wǎng)頁一樣。③用selenium打開網(wǎng)頁后，使用beautifulsoup解析加載頁面的內(nèi)容，其主要的功能特點(diǎn)能讓我們非常精確地獲取網(wǎng)頁數(shù)據(jù)。BeautifulSoup

①提供一些簡單的、python式的函數(shù)用來處理導(dǎo)航、搜索、修改分析樹等功能。②它是一個工具箱，通過解析文檔為用戶提供需要抓取的數(shù)據(jù)，因?yàn)楹唵危圆恍枰嗌俅a就可以寫出一個完整的應(yīng)用程序。使用selenium模擬用戶點(diǎn)擊網(wǎng)頁，打開頁面后使用beautifulsoup將其網(wǎng)頁內(nèi)容解析，獲取我們想要的數(shù)據(jù)，將兩者結(jié)合，就能夠?qū)⒏鱾€機(jī)構(gòu)提供的數(shù)據(jù)從其網(wǎng)頁上抓取下來。數(shù)據(jù)獲取——常用兩個類庫Selenium①一個用于Web應(yīng)用數(shù)據(jù)存取對于數(shù)據(jù)量不是很大的話可以用json和csv格式來存儲，比較好處理，對于數(shù)據(jù)量很大的話就直接存入數(shù)據(jù)庫（如sqlserver）中。對于有些數(shù)據(jù)結(jié)構(gòu)，存入非關(guān)系型數(shù)據(jù)庫比較好，常見的非關(guān)系型數(shù)據(jù)有MongoDB等，具體可以參考/。數(shù)據(jù)存取對于數(shù)據(jù)量不是很大的話可以用json和c示例——爬取中國房地產(chǎn)信息網(wǎng)的數(shù)據(jù)

使用python的scrapy框架爬取了中國房地產(chǎn)信息網(wǎng)的政策動向中的土地政策、金融政策、財(cái)稅政策、保障政策和中介政策。并以csv格式存取。示例——爬取中國房地產(chǎn)信息網(wǎng)的數(shù)據(jù)使用pyth文本挖掘方法概述課件數(shù)據(jù)準(zhǔn)備01分詞及詞性標(biāo)注0203文本相似度計(jì)算和主題提取04情感計(jì)算數(shù)據(jù)準(zhǔn)備01分詞及詞性標(biāo)注0203文本相似度計(jì)算和主題提取0中文分詞及詞性標(biāo)注

如果以每條評論為單位來進(jìn)行產(chǎn)品特征評論語句來分類容易產(chǎn)生混淆分詞之前需要對文本進(jìn)行分句，可以用Python程序按照標(biāo)點(diǎn)（或空格）分句。

中文分詞(ChineseWordSegmentation)指的是將一個漢字序列切分成一個一個單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。中文分詞是文本挖掘的基礎(chǔ)，對于輸入的一段中文，成功的進(jìn)行中文分詞，可以達(dá)到電腦自動識別語句含義的效果。所謂詞性標(biāo)注就是根據(jù)句子的上下文信息給句中的每個詞確定一個最為合適的詞性標(biāo)記。中文分詞及詞性標(biāo)注如果以每條評論為單位來進(jìn)行產(chǎn)中文分詞工具

中文分詞工具主要有MSRSeg、

Hylanda

、HIT、ICTCLAS等。

其中ICTCLAS是中國科學(xué)院計(jì)算機(jī)研究所研制的。主要功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識別、新詞識別同時(shí)支持用戶詞典。是當(dāng)前世界上最好的漢語詞法分析器。

另外，Python的jieba擴(kuò)展包用于分詞也是非常好的工具。中文分詞工具中文分詞工具主要有MSRSeg、

去除停用詞在進(jìn)行了分詞和詞性標(biāo)注之后，得到的數(shù)據(jù)對我們來說還是冗余的，一些介詞、量詞、助詞、標(biāo)點(diǎn)符號等對文本研究無意義的詞，需要剔除，所以我們還需要對這些評論語料進(jìn)行停用詞過濾和標(biāo)點(diǎn)符號過濾。停用詞和標(biāo)點(diǎn)符號的過濾我們采用根據(jù)停用詞表取出停用詞，再使用python編寫過濾程序。去除停用詞在進(jìn)行了分詞和詞性標(biāo)注之后，得到的數(shù)分詞示例原始文本分詞后詞性標(biāo)注分詞示例原始文本分詞后詞性標(biāo)注數(shù)據(jù)準(zhǔn)備01分詞及詞性標(biāo)注0203文本相似度計(jì)算和主題模型04情感計(jì)算數(shù)據(jù)準(zhǔn)備01分詞及詞性標(biāo)注0203文本相似度計(jì)算和主題模型0文本相似性計(jì)算計(jì)算文本的相似度在工程中有著重要的應(yīng)用，比如文本去重，搜索引擎網(wǎng)頁判重，論文的反抄襲，ACM競賽中反作弊，個性化推薦、社交網(wǎng)絡(luò)、廣告預(yù)測等等。文本相似性計(jì)算計(jì)算文本的相似度在工程中有著重計(jì)算文本相似性的主要算法

計(jì)算文本相似度的算法有IF-IDF、基于向量空間的余弦算法、隱形語義標(biāo)引（LSI/LSA）、主題模型—LDA。計(jì)算文本相似性的主要算法計(jì)算文本相似度的算法用于實(shí)現(xiàn)LSI、LDA模型的python軟件包——gensimGensim是用來計(jì)算文檔相似性的python軟件包，使用非常簡單。用于實(shí)現(xiàn)LSI、LDA模型的python軟件包——gensiLDA模型的計(jì)算舉例針對從中國房地產(chǎn)信息網(wǎng)爬取的數(shù)據(jù)進(jìn)行主題提取，一共有8301篇文檔，提取10個主題，由于分詞后對于停用詞沒有去除，所以結(jié)果中有的詞不是很好，但進(jìn)行相似性分析（取第8篇文章與其余的進(jìn)行相似性分析，并按相似性排序）時(shí)還是比較準(zhǔn)的。LDA模型的計(jì)算舉例針對從中國房地產(chǎn)信息網(wǎng)爬取數(shù)據(jù)準(zhǔn)備01分詞及詞性標(biāo)注0203文本相似度計(jì)算和主題模型04情感計(jì)算數(shù)據(jù)準(zhǔn)備01分詞及詞性標(biāo)注0203文本相似度計(jì)算和主題模型0情感極性判斷

情感極性的判斷主要分為兩類：第一類是利用情感詞典的方法，第二類是采用機(jī)器學(xué)習(xí)的方法。

情感詞典方法是通過建立情感詞典也叫情感語料庫，進(jìn)行文本的情感計(jì)算。常用的情感語料庫有知網(wǎng)語料庫，大連理工大學(xué)的情感本體庫等機(jī)器學(xué)習(xí)方法主要是通過已經(jīng)標(biāo)注好的語料分為訓(xùn)練集和測試集，采用支持向量機(jī)（SVM）、最大熵、KNN等分類器使用訓(xùn)練預(yù)料進(jìn)行訓(xùn)練并用測試預(yù)料測試分類器的準(zhǔn)確度。機(jī)器學(xué)習(xí)包很多，比如python的NLTK+scikit-learn就很好。情感極性判斷情感極性的判斷主要分為兩類：第一

情感計(jì)算旨在賦予計(jì)算機(jī)觀察、理解和生成各種情感的能力，情感表達(dá)方式主要是文字、語音以及多模態(tài)數(shù)據(jù)。目前文本情感計(jì)算局限于褒貶二義的傾向性分析，方法以統(tǒng)計(jì)學(xué)習(xí)為主，缺乏情感語義資源的支撐和認(rèn)知語言學(xué)的指導(dǎo)。我們研究目的旨在以多情感的語義資源為基礎(chǔ)，以認(rèn)知語言學(xué)為指導(dǎo)，進(jìn)行文本的情感識別和情感遷移的研究。并將其應(yīng)用在意見挖掘、產(chǎn)品評論和輿情監(jiān)控等方面。情感分析情感計(jì)算旨在賦予計(jì)算機(jī)觀察、理解和生成各種情

利用情感分析技術(shù)和情感語義資源，①面向互聯(lián)網(wǎng)海量的在線評論，主要針對產(chǎn)品、音樂、電影和博客等，分析產(chǎn)品的屬性評價(jià)，生成產(chǎn)品的評價(jià)摘要；②利用主觀評價(jià)，結(jié)合用戶的行為，進(jìn)行信息推薦；③統(tǒng)計(jì)博客的支持率和反對率，進(jìn)而計(jì)算博主的個人聲譽(yù)度。④也可以結(jié)合話題跟蹤和檢測技術(shù)，發(fā)現(xiàn)感興趣的話題，建立話題的傳播模型，計(jì)算話題的網(wǎng)絡(luò)各個方面的傾向性，進(jìn)行輿情分析。應(yīng)用——觀點(diǎn)挖掘和輿情分析利用情感分析技術(shù)和情感語義資源，①面向互聯(lián)網(wǎng)謝謝！謝謝！文本挖掘過程與方法簡介PPT模板下載：/moban/行業(yè)PPT模板：/hangye/節(jié)日PPT模板：/jieri/PPT素材下載：/sucai/PPT背景圖片：/beijing/PPT圖表下載：/tubiao/優(yōu)秀PPT下載：/xiazai/PPT教程：/powerpoint/Word教程：/word/Excel教程：/excel/資料下載：/ziliao/PPT課件下載：/kejian/范文下載：/fanwen/試卷下載：/shiti/教案下載：/jiaoan/

網(wǎng)絡(luò)文本數(shù)據(jù)包括各大門戶網(wǎng)站的新聞、論壇的帖子、微博、博客等等。

①提供一些簡單的、python式的函數(shù)用來處理導(dǎo)航、搜索、修改分析樹等功能。②它是一個工具箱，通過解析文檔為用戶提供需要抓取的數(shù)據(jù)，因?yàn)楹唵?，所以不需要多少代碼就可以寫出一個完整的應(yīng)用程序。使用selenium模擬用戶點(diǎn)擊網(wǎng)頁，打開頁面后使用beautifulsoup將其網(wǎng)頁內(nèi)容解析，獲取我們想要的數(shù)據(jù)，將兩者結(jié)合，就能夠?qū)⒏鱾€機(jī)構(gòu)提供的數(shù)據(jù)從其網(wǎng)頁上抓取下來。數(shù)據(jù)獲取——常用兩個類庫Selenium①一個用于Web應(yīng)用數(shù)據(jù)存取對于數(shù)據(jù)量不是很大的話可以用json和csv格式來存儲，比較好處理，對于數(shù)據(jù)量很大的話就直接存入數(shù)據(jù)庫（如sqlserver）中。對于有些數(shù)據(jù)結(jié)構(gòu)，存入非關(guān)系型數(shù)據(jù)庫比較好，常見的非關(guān)系型數(shù)據(jù)有MongoDB等，具體可以參考/。數(shù)據(jù)存取對于數(shù)據(jù)量不是很大的話可以用json和c示例——爬取中國房地產(chǎn)信息網(wǎng)的數(shù)據(jù)

中文分詞工具主要有MSRSeg、

Hylanda

、HIT、ICTCLAS等。

另外，Python的jieba擴(kuò)展包用于分詞也是非常好的工具。中文分詞工具中文分詞工具主要有MSRSeg、

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

文本挖掘方法概述課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔