




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《自然語(yǔ)言處理技術(shù)》代碼42所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s12加載并預(yù)處理文本數(shù)據(jù)#以只讀模式打開文件,避免對(duì)原始文件造成破壞withopen("西游記.txt","r",encoding="utf-8")asfile:raw_text=file.read()print('原始文本(部分)為:\n',raw_text[0:200])#使用正則表達(dá)式去除特殊符號(hào)、數(shù)字和英文字符clean_text=re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*():;《)《》“”’‘[\]]","",raw_text)print('清洗后的文本(部分)為:\n',clean_text[0:200])#使用jieba庫(kù)進(jìn)行分詞seg_words=jieba.cut(clean_text)words_list=list(seg_words)print('清洗后的文本的分詞結(jié)果(部分)為:\n',words_list[0:200])運(yùn)行REF_Ref97535682\h代碼42,得到處理后西游記的文本內(nèi)容如下。原始文本(部分)為:西游記之正文第001回靈根育孕源流出心性修持大道生?詩(shī)曰:混沌未分天地亂,茫茫渺渺無人見。自從盤古破鴻蒙,開辟?gòu)钠澢鍧岜?。覆載群生仰至仁,發(fā)明萬物皆成善。欲知造化會(huì)元功,須看西游釋厄傳。蓋聞天地之?dāng)?shù),有十二萬九千六百歲為一元。將一元分為十二會(huì),乃子、丑、寅清洗后的文本(部分)為:西游記之正文第001回靈根育孕源流出心性修持大道生?詩(shī)曰混沌未分天地亂茫茫渺渺無人見自從盤古破鴻蒙開辟?gòu)钠澢鍧岜娓草d群生仰至仁發(fā)明萬物皆成善欲知造化會(huì)元功須看西游釋厄傳蓋聞天地之?dāng)?shù)有十二萬九千六百歲為一元將一元分為十二會(huì)乃子丑寅卯辰巳午未申酉戌亥之十二支也每會(huì)該一萬八百歲且就一日而論子時(shí)得陽(yáng)氣而丑則雞鳴寅不通光而卯則日出辰時(shí)食后而巳則挨排日午天中而未清洗后的文本的分詞結(jié)果(部分)為:['','西游記','之','正文','','第','001','回靈','根育孕','源流','出','心性','修持','大道','生','\ufeff','詩(shī)','曰','混沌','未','分','天地','亂','茫茫','渺渺','無人','見','自從','盤古','破','鴻蒙','開辟','從茲','清濁','辨','覆載','群生','仰至仁','發(fā)明','萬物','皆','成善','欲','知','造化','會(huì)元','功須','看','西游','釋厄','傳蓋聞','天地','之?dāng)?shù)','有','十二萬','九千','六','百歲','為','一元','將','一元','分為','十二','會(huì)','乃','子丑寅卯','辰巳','午未','申酉戌亥之','十二支','也','每會(huì)','該','一萬八','百歲','且','就','一日','而論','子時(shí)','得','陽(yáng)氣','而','丑','則','雞鳴','寅','不通','光而卯','則','日出','辰時(shí)','食后','而','巳','則','挨','排日午','天中','而','未','則','西','蹉','申時(shí)','晡','而','日落','酉','戌','黃昏','而人定','亥','譬于','大數(shù)','若','到戌會(huì)','之','終則','天地','昏蒙而','萬物','否矣','再','去','五千四百歲','交亥會(huì)','之','初','則','當(dāng)','黑暗','而','兩間','人物','俱','無','矣','故曰','混沌','又','五千四百歲','亥','會(huì)','將','終','貞下起元','近子','之會(huì)','而復(fù)','逐漸','開明','邵康節(jié)','曰','冬至','子','之','半天','心無','改移','一陽(yáng)','初動(dòng)處','萬物','未生','時(shí)','到','此','天始','有','根','再','五千四百歲','正當(dāng)','子會(huì)','輕清','上騰','有','日','有','月','有星','有辰','日月星辰','謂之','四象','故曰','天開','于子','又','經(jīng)','五千四百歲','子會(huì)','將','終近','丑','之會(huì)','而','逐漸','堅(jiān)實(shí)']創(chuàng)建詞典和語(yǔ)料庫(kù)創(chuàng)建詞典和語(yǔ)料庫(kù),將分詞結(jié)果轉(zhuǎn)換為詞袋表示和稀疏向量表示,如REF_Ref98942649\h代碼43所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s13創(chuàng)建詞典和語(yǔ)料庫(kù)#創(chuàng)建詞典,將分詞結(jié)果轉(zhuǎn)換為詞袋表示dictionary=corpora.Dictionary([words_list])print('文本詞典為:\n',dictionary)#使用詞典將分詞結(jié)果轉(zhuǎn)換為稀疏向量表示corpus=[dictionary.doc2bow(words_list)]print('稀疏向量表示(部分)為:\n',corpus[0:200])運(yùn)行REF_Ref133681793\h代碼43,得到文本詞典和稀疏向量表示大小如下。文本詞典為:Dictionary<51647uniquetokens:['-','--','','001','002']...>稀疏向量表示大小為:(1,51647,2)構(gòu)建LDA模型使用Gensim庫(kù)中models模塊的ldamodel方法構(gòu)建LDA模型,如REF_Ref98521257\h代碼44所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s14構(gòu)建LDA模型#輸入?yún)?shù)包括:#corpus:稀疏向量表示的語(yǔ)料庫(kù)#num_topics:設(shè)置的主題數(shù),這里設(shè)置為1,方便提取關(guān)鍵詞#id2word:詞典,用于將詞語(yǔ)的ID映射回詞語(yǔ)#random_state:設(shè)置隨機(jī)數(shù)種子,以便于結(jié)果的可復(fù)現(xiàn)性lda_model=models.ldamodel.LdaModel(corpus,num_topics=1,id2word=dictionary,random_state=1)提取關(guān)鍵詞獲取LDA模型中主題的詞分布,并提取前10個(gè)關(guān)鍵詞,如REF_Ref133789439\h代碼45所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s15提取關(guān)鍵詞#使用LDA模型的show_topic方法獲取主題的詞分布#輸入?yún)?shù)包括:#0:主題的索引,這里設(shè)置為0,因?yàn)槲覀冎挥幸粋€(gè)主題#topn:設(shè)置提取關(guān)鍵詞的數(shù)量,這里設(shè)置為10#輸出結(jié)果為一個(gè)包含元組的列表,每個(gè)元組包含兩個(gè)元素:詞語(yǔ)和權(quán)重keywords=lda_model.show_topic(0,topn=10)輸出結(jié)果將最終提取出的關(guān)鍵詞進(jìn)行打印輸出,如REF_Ref133792104\h代碼46所示。代碼STYLEREF1\s4SEQ代碼\*ARABIC\s16輸出結(jié)果#打印關(guān)鍵詞提取結(jié)果print("關(guān)鍵詞提取結(jié)果:")#使用for循環(huán)遍歷keywords列表中的每個(gè)元素(詞語(yǔ)及其權(quán)重)forword,weightinkeywords:#使用字符串格式化打印詞語(yǔ)及其權(quán)重print(f"{word}:{weight}")運(yùn)行REF_Ref133792104\h代碼46,得到關(guān)鍵詞提取結(jié)果如下。關(guān)鍵詞提取結(jié)果:道:0.019543081521987915了:0.017544087022542953我:0.014290173538029194他:0.012743944302201271的:0.012639133259654045你:0.012414325028657913那:0.010413520969450474是:0.00999467633664608行者:0.009722965769469738在:0.006730619817972183也:0.006671500392258167有:0.006059417501091957又:0.005846134386956692去:0.0057272473350167274與:0.005221605766564608這:0.005221505183726549來:0.0048344433307647705就:0.004040305037051439八戒:0.004019209649413824卻:0.0038956308271735907師父:0.00384800904430449不:0.003726370632648468著:0.003646114142611623見:0.0034457140136510134將:0.0034389530774205923把:0.0034228996373713017得:0.003406228730455041等:0.003340259427204728三藏:0.0031695354264229536說:0.0031211422756314278上:0.0028213271871209145都:0.0027143312618136406一個(gè):0.0025968088302761316個(gè):0.0023515408392995596好:0.0021905407775193453大圣:0.0021185262594372034到:0.0020989063195884228叫:0.002080524805933237只:0.0019329653587192297唐僧:0.0019128420390188694還:0.0019
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 銀行柜員服務(wù)培訓(xùn)
- 火災(zāi)動(dòng)力學(xué)FD03d-反應(yīng)動(dòng)力學(xué)
- 2025年高級(jí)口譯考試試卷及答案
- 2025年社會(huì)學(xué)研究生入學(xué)考試試題及答案
- 四川省成都市高新南區(qū)-七級(jí)上期期2025年英語(yǔ)七下期中檢測(cè)試題含答案
- 2025屆江西省上饒廣豐區(qū)六校聯(lián)考英語(yǔ)八年級(jí)第二學(xué)期期中質(zhì)量跟蹤監(jiān)視試題含答案
- 4.3《海-氣相互作用》課件 高中地理
- 2025年翻譯碩士研究生入學(xué)考試題及答案
- 2025年電力工程師職業(yè)資格考試試卷及答案
- 季度環(huán)保檢查表
- WS/T 227-2002臨床檢驗(yàn)操作規(guī)程編寫要求
- GB/T 18907-2002透射電子顯微鏡選區(qū)電子衍射分析方法
- GB 21454-2008多聯(lián)式空調(diào)(熱泵)機(jī)組能效限定值及能源效率等級(jí)
- 建設(shè)工程竣工驗(yàn)收消防設(shè)計(jì)質(zhì)量檢查報(bào)告(填寫范本)
- 錨桿錨固質(zhì)量無損檢測(cè)
- 數(shù)碼迷彩工藝
- 動(dòng)火許可證(模板)
- 論腦心同治理論與實(shí)踐解析課件
- 防汛應(yīng)急預(yù)案桌面演練
- 代領(lǐng)畢業(yè)證委托書模板(通用6篇)
- CJJ-T 34-2022 城鎮(zhèn)供熱管網(wǎng)設(shè)計(jì)標(biāo)準(zhǔn)
評(píng)論
0/150
提交評(píng)論