




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘課程實驗最終報告王丹 楊亮朱鵬飛文本分類和主題提取實驗內(nèi)容簡介:文本分為10 個類別, 每個類別有200 篇文章,每篇文章大概3000 字,屬于長文本分類,對于每個類別,提取其中的主題內(nèi)容。一、預處理階段首先需要對文本進行預處理,1) 去掉不相關(guān)的header, footer 以及其他注釋信息2)去除文本分行標志的 “rn,合并為一個段落3)將處理好的文件放到新的目錄下,目錄結(jié)構(gòu)和之前的結(jié)構(gòu)相同。二分詞對上一步進行預處理的文本進行分詞,分詞后放到新的目錄下,目錄結(jié)構(gòu)仍然保持和之前的目錄結(jié)構(gòu)一致。三對預處理的文本進行打包本次步驟主要是實現(xiàn)一個訓練用語料數(shù)據(jù)結(jié)構(gòu),為做計算tf-idf 向量
2、空間模型做準備1 首先定義訓練集的數(shù)據(jù)結(jié)構(gòu)定義訓練集對象:data_set使用 python 的 bunch 類提供一種key,value 的對象形式Target_name:所有分類集名稱列表Label: 每個語篇定義分類標簽列表Filenames:分詞后語篇路徑Contents:分詞后語篇內(nèi)容2 從分詞語料庫中將所需信息讀入訓練集的數(shù)據(jù)結(jié)構(gòu)中3 將訓練集持久化為一個數(shù)據(jù)對象文件4 讀出數(shù)據(jù)對象文件,驗證持久化的正確性。四對打包后的數(shù)據(jù)計算tf-idf 權(quán)重,并持久化詞包文件1 導入訓練集2 從文件導入停用詞表,并轉(zhuǎn)換為list3 創(chuàng)建詞袋數(shù)據(jù)結(jié)構(gòu),并配置停用詞表4 統(tǒng)計每個詞語的tf-idf
3、 權(quán)值。使用 Tdidfvectorizer 計算 tf-idf 權(quán)值。五對測試集進行分類1 確定測試語料:對測試語料進行預處理2 對測試語料進行分詞3 導入測試語料:隨機選取測試語料類別并記錄4 導入訓練詞袋模型含vocabulary5 計算測試語料的tf-idf 權(quán)值,讓兩個tfidfvectorizer 共享一個vocabulary6 應用分類算法7 預測和輸出分類結(jié)果8 計算分類精度KNN 算法分類KNN 算法原理:通過訓練好模型,當有新的文章來時,統(tǒng)計它周圍k 個類別的文章的類型,距離采用的是計算tf-idf 矩陣間的距離,由于每篇文章是平等的,由于每類文章的數(shù)量基本是一致的,所以不
4、存在有權(quán)重大小問題。中三總料件改處理J典功,Buildng pre-Fix dietFrom 七h色 default dictionary .Loading model From e ache c : usar-spH/angdanappdaralocal t emp jieba .cacheLoading model cost 0.300 seconds.Pre-Fix diet Kas beenbuilt succes-Ful Ly 中文活料分同成功完成(95工 42713)(5S 427Z3)鋤試語料文件名7412.txt買際獎別:education 葩測類刷:education測試治料
5、文件名7426.七父七實際類別:educa-tion y - 于典惻類別:education洲試洽料文件名744.xt實際類另U :educat ion 西河類別:education例試諳料文件名745-4 . txt實際類別:eduea-tion 予向批|患別:education洌試潔格文件名7468 TtX次際第另U : education 予網(wǎng)泗1落殖:educarion洌試語料文件名7482.txt實際那另J : education 予用炳奘是1: education初試語料文件定7496.txt實際非另U : education 予真海1類界1 : education洌試語料文件/7
6、51.txt女R示英另!” education v * - 予頁筏 1熒;界J : education測狀漕料文件自7524.txt實際燈對:education - 芋更則尖別:computer測試法科文號上7538 *txt實的、表另J ; education 陵喇類別: eduction刑試清科文件也7S52.txt實際類別; education v - - 芋其惻央別; ed uca t ion測試華科文件生7566 *tx-t實際類別: education 工虹軸J類別: education測試活料文件有7580 .七?ct實際希利: education ( - -雨惻武利: educ
7、a-t ion測試治科京件事759-4 .txt客際炎.別; education 兩測黃刷: educaion沙HR-精平F:工1牛事760S .txt實際爽別: education 于口涮告一刷: ed u g a ion冽祓語科文件名7622-txt實際.正另J : education 掰測類劃:education測試漕州文眸冉7636.txt實.、邦jJ : education w - 于奧斗則尖制J : education則或*科文件名765G.txt實p;美另J : education (- 芋更刷生城J : education測試卷科文件也7664 4七乂七實際央另 J : edu
8、cation 芋貝惻生別: en t ea i nrnen t刎試-需料文件也7S78.七乂七實際去另:J ;educat ion 4-芋員測類制;ed u c at ion測試清料文件名7692 -tx-t實際類別: education 予國刷柒副: ed u c a-t ion測試語料文件將7706 .七其七實際奏利; educaion 璃利奘利二 health測試請料京小當7 72曰.txt實際炎別;education 演涮次刷: ed u c a ion測祓誦福文何容773-4 .txt實際先別:education 掰惻次則:education測忒席*4戍J牛-占: 測錄語諄斗文件名:
9、 曲|叭七百mm4君; 測試語界斗女”牛老: ;則試:用“4文1牛名: $則試舊歲文件名: 瓠!I試語料文1牛名: 測試話卡女料也: /!H武1g單斗立伸包: 則試舌*斗中4牛名; 領(lǐng)4的言華斗F?件名: 詞”忒,/*4*4牛.名: 手則謂1吉辛斗文4牛名T 領(lǐng)!I試諳料文4牛在: 期!(詒H吉米斗丈件名: r則試諳寄4立4牛乜: 加試諸科曲?件*t 洌試話櫥文!牛名: aIW晤*斗災仲七: r則1式LS1料f 二甲F塾: 測詞;語料文件名: 領(lǐng),試七香料文3牛名; 押仃式后*4。件餐: 研試書審支付一再: 押狀式溫津斗京4牛鈣: 4試舌米斗中4牛名; 派I試i六羋斗/邛卜林: 物!I試請牛斗
10、文件 名: 工則試詰f斗斗NH牛名: 結(jié)果計笠I吉反:a .居之a(chǎn)7SJ.B .七 x七 7B32.七乂七 7B4& * tx 予日6日.七X七 ?0 了3.EM 七 78SS ,七X七 794之.七xt 70上百.七/七 vae . txt 73,4.七乂七 VSSS .七X七 7 9 7 N . txt 了9三百.七*七 與臼。曰-txt 曰。.七乂七 5428,七Xt 3I3QN .七乂七 60SG.tXt ae7e + -t x .七乂/ Bomg.tx aaa2 +七*七 B26.七x七 si-ae . tzx-t S3.54 * t xx saea. tx-t B J. S2 .七
11、 *七 W2L9& i txt ssie.七x七= : 實際蜒別: : 安舊,共創(chuàng): : 實際類別: : 實際蜒刷: :H府K刷: : 實際共現(xiàn): J 樂酥小副: :女(5手婁后“: 賓標共現(xiàn): S 實際聲利: : 實際喪孰; : 實際典制: : 實際/別S :H際/: : 美特當制: *實際差別: : 桀/f生%U : : 安町興初J : : 實際穌刷i = 實際*BU : 云麻美制; : 亞際共刷: I 沃際差制: 1 芋q際變斜U : 安際再刷: 二 次懷旌U : : 實際共制: : 實際杵別:曰Juc=小七工0 n aduu七on eclucation - due at ion edu
12、caCion 一du e 0七里qe education ad u c at ion educatin Qduuw-tQndu c fl-tz ion 白 cJu 亡 a t cjrr cid u c 國七工on sducaXxon 七!ducz is 1z ion 鼻due 日t ion 白 duu a-t Aon ducation eciucation mdue箱七支on d u c aCion Eciuf理七五QD 0d u c ei 1: xon adu c ant ion du c a%iond u c ax xon du c t ion gcJuu ijt cjn cd w c。七
13、五on -初興寓uA西國類別 -A予而領(lǐng)l關(guān)川” -A而測類別 A手h惻典別 -A和1刪夷劑一 -A子5K則類另可 予麗網(wǎng)線別 C - L ATE押!1 為用” -A中幣的H支兄U 千貝翎H冷堆另U ee河*班另力 -A予西沙類另U A子口!翎響類另“ -A f由孑則獨勢U 予反派*類:另寸 -A予E初/類男(J -A?西則類現(xiàn) -ate訓*翼兄, 下卬叫英河日 A于氏#則共月,: -:*于質(zhì)電調(diào)美導U ; -A蔣MW注兄U : 予麗網(wǎng)差別: -A干E吊咽*國| : -A予聲3叫一兄U ; A予再與PM旌5U : 步8初*孌另M t -A王貢網(wǎng)類兄”: du匚4七zLqg c omp u-e
14、or* ecducation du 七七 zt 口 ri aducaxon n七日 r*七里gef n* educaxion acJuz ion =D uu m 1土on cJ UC 3七土 Utn 白 duu a -t d-cmuuuu uDdclcldi i ii-T_on00uu ax on 戶 l - o nr3.du右事七二on 苴du亡 at iorr cd lj c: nt ion樸素貝葉斯分類:txt實際類別L txt實際類另九 txt實際類另小 tKt實際類別; txt實際類別|; txt實際類另ij, txt實際類別. txt實際類另九 txt實際類另九 txt實際類別J:
15、 txt實際類男小 txt實際典另( txt實際類另lb txt實陸類別I, txt禽B示類另人 txt實際類別: txt實際類別; txt實F示類另八 txt實際類別,educ aiiion education ente 廣七ai nm2n七 education educ ation educ action educ atrion educ ation educ ation educ ation personnel education education educ ation education personnel educ aion education automobile測試語料文件名.
16、7558 澗試語料文件名:7972 測試詰料文件名:7986 測試語料文件名;800 測試諳料文竹名:8014 測試語料文吊牛名,S02S 測試語料文件名,8042 ,則試i吾料文辛信=S056 測試潔料文件名:8070 測試語料文件名:8084 測試語料文件名 8998 觀I試i吾步斗文d牛名,S112 秘H式i音料文件名,8126 測試語料文作名,S140 測試語料戈?(牛名:S154 測試話科文件名:8168 測試語料文件名:S1S2 ,測試T吾雜交十名:8196 測試語料文件名,S210 結(jié)果計算精度:以759六主題提取1導入語料集2從文件導入停用詞表3從文件導入數(shù)據(jù)包edu cat
17、ion 預期! education就利H類另1I: education預領(lǐng)(|類另h education預領(lǐng)!I類另九 education 預領(lǐng)U: education 預播!I類另L educat ion預力!|類另h educat ion 預領(lǐng)(j類別I: education予頁刈類的I: education 預領(lǐng)(I類別I: education 預視I類另!I; education預冽類別, education預現(xiàn)|類另八 education預測類別, educat ion預制類別: education 預/!|美另八 education預領(lǐng)!|類別: education預、測類另!h
18、education同值則類另4統(tǒng)計每個類別中tf-idf排名靠前的幾個詞語,可以大概了解該類文本的主題。ft 10 種類另i autom。bileJ1 computer * education , * entertainment1,topic automobile汽車投標擁車證新車車子價格人數(shù)新加坡購買成價如果萬元認為本地可以駕駛公司跑車下趺人們topic computer病毒手機公司微軟電腦用戶軟件黑客中國游戲市場網(wǎng)絡服務可以3g技術(shù)推出視窗使用系統(tǒng)topic education考試學生考生記者專業(yè)畢業(yè)生高考招生人才一個企業(yè)北京公司工作學校錄取今年一些增加自己topic entertainment電影一個觀眾我們音樂演出他們導演自己專輯沒有這個中國就是這部記者覺得
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 拔尖創(chuàng)新人才課題申報書
- 貴州課題申報書怎么寫的
- 低年級微型課題申報書
- 高校思政類課題申報書
- 教師課題申報評審書
- 化工課題申報書范文
- 黨務課題申報書范文模板
- 醫(yī)學課題申報書的撰寫
- 校史課題研究申報書
- 智能項目課題申報書范文
- 2025年湖南水利水電職業(yè)技術(shù)學院單招職業(yè)技能測試題庫參考答案
- 中央2025年中國科協(xié)所屬單位招聘社會在職人員14人筆試歷年參考題庫附帶答案詳解-1
- 2024年湖北省聯(lián)合發(fā)展投資集團有限公司人員招聘考試題庫及答案解析
- 造價咨詢服務方案進度計劃安排及保證措施
- 2024年全國統(tǒng)一高考英語試卷(新課標Ⅰ卷)含答案
- 2024年認證行業(yè)法律法規(guī)及認證基礎知識 CCAA年度確認 試題與答案
- 2024年濰坊工程職業(yè)學院高職單招(英語/數(shù)學/語文)筆試歷年參考題庫含答案解析
- 處方模板完整
- 水利工程竣工決算表格
- 《夏洛特的網(wǎng)》導讀題
- 人防及地下停車場工程監(jiān)理大綱(完整版)
評論
0/150
提交評論