版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
博學(xué)谷——讓IT教學(xué)更簡(jiǎn)單,讓IT學(xué)習(xí)更有效PAGE12PAGE7《Python數(shù)據(jù)分析與應(yīng)用:從數(shù)據(jù)獲取到可視化(第2版)》教學(xué)設(shè)計(jì)課程名稱:授課年級(jí):授課學(xué)期:教師姓名:年月課題名稱第8章文本數(shù)據(jù)分析計(jì)劃課時(shí)5課時(shí)教學(xué)引入自然語(yǔ)言處理(NLP)是人工智能領(lǐng)域一個(gè)重要方向,在這一方向上文本數(shù)據(jù)占據(jù)著很大的市場(chǎng),由于文本中可能包含中文、英文等一些語(yǔ)言的內(nèi)容,所以Python針對(duì)不同語(yǔ)言的文本提供了相應(yīng)的庫(kù)進(jìn)行處理,常見的有用于處理英文文本的NLTK庫(kù),用于處理中文文本的jieba庫(kù)。接下來(lái),本章主要圍繞著NLTK和jieba庫(kù)介紹文本預(yù)處理的基本流程,以及文本數(shù)據(jù)分析的經(jīng)典應(yīng)用,包括文本情感分析、文本相似度和文本分類。教學(xué)目標(biāo)使學(xué)生了解NLTK與jieba庫(kù),能夠說(shuō)明NLTK與jieba庫(kù)的用途使學(xué)生掌握NLTK語(yǔ)料庫(kù)的安裝,能夠在計(jì)算機(jī)中成功安裝NLTK語(yǔ)料庫(kù)使學(xué)生熟悉文本預(yù)處理的流程,能夠歸納出文本預(yù)處理的基本流程使學(xué)生掌握分詞的方式,能夠通過(guò)NLTK與jieba庫(kù)對(duì)文本進(jìn)行分詞使學(xué)生掌握詞性標(biāo)注的方式,能夠通過(guò)pos_tag()函數(shù)對(duì)英文文本進(jìn)行分詞標(biāo)注使學(xué)生掌握詞形歸一化操作,能夠通過(guò)nltk.stem模塊實(shí)現(xiàn)詞形歸一化的操作使學(xué)生掌握刪除停用詞操作,能夠通過(guò)stopwords模塊實(shí)現(xiàn)刪除停用詞的操作使學(xué)生熟悉文本情感分析,能夠通過(guò)多種方式實(shí)現(xiàn)簡(jiǎn)單的文本情感分析使學(xué)生熟悉文本相似度,可以結(jié)合NLTK與余弦相似度實(shí)現(xiàn)簡(jiǎn)單的文本相似度分析使學(xué)生熟悉文本分類,可以結(jié)合NLTK與樸素貝葉斯算法實(shí)現(xiàn)簡(jiǎn)單的文本分類分析教學(xué)重點(diǎn)分詞詞性標(biāo)注詞形歸一化刪除停用詞教學(xué)難點(diǎn)文本情感分析文本相似度文本分類教學(xué)方式課堂教學(xué)以PPT講授為主,并結(jié)合多媒體進(jìn)行教學(xué)教學(xué)過(guò)程第一課時(shí)(認(rèn)識(shí)NLTK與jieba、安裝jieba和NLTK語(yǔ)料庫(kù)、文本預(yù)處理基本流程、分詞、詞性標(biāo)注)一、創(chuàng)設(shè)情景,導(dǎo)入新課教師通過(guò)給學(xué)生展示一些應(yīng)用文本分析的場(chǎng)景,例如場(chǎng)景是:錘子新發(fā)布的功能“BigBang”分詞功能、智能客服、網(wǎng)絡(luò)輿情監(jiān)控等,并根據(jù)這些場(chǎng)景,引出這些場(chǎng)景都是應(yīng)用的文本數(shù)據(jù)分析,從而實(shí)現(xiàn)導(dǎo)入新課的目的。二、新課講解知識(shí)點(diǎn)1-認(rèn)識(shí)NLTK與jieba教師通過(guò)PPT講解認(rèn)識(shí)NLTK與jieba。(1)NLTK是什么NLTK是一套基于Python的自然語(yǔ)言處理工具包,可以方便地完成自然語(yǔ)言處理的任務(wù),包括分詞、詞性標(biāo)注、命名實(shí)體識(shí)別(NER)及句法分析等。(2)NLTK的常用模塊(3)jieba庫(kù)的特點(diǎn)支持三種分詞模式。支持繁體分詞。支持自定義詞典。MIT授權(quán)協(xié)議。知識(shí)點(diǎn)2-安裝jieba和NLTK語(yǔ)料庫(kù)教師通過(guò)PPT結(jié)合實(shí)操的形式講解安裝jieba和NLTK語(yǔ)料庫(kù)。(1)安裝jieba庫(kù)的方式(2)通過(guò)Anaconda命令行工具演示如何安裝jieba庫(kù)(3)下載NLTK語(yǔ)料庫(kù)打開NLTK下載器安裝所有選項(xiàng)單獨(dú)安裝某個(gè)詞料庫(kù)或模型(4)通過(guò)代碼演示如何打開下載器和安裝部分語(yǔ)料庫(kù)(5)通過(guò)代碼驗(yàn)證語(yǔ)料庫(kù)是否安裝成功知識(shí)點(diǎn)3-文本預(yù)處理基本流程教師通過(guò)PPT講解文本預(yù)處理基本流程。(1)文本預(yù)處理的基本流程圖(2)分詞(3)詞形歸一化(4)刪除停用詞知識(shí)點(diǎn)4-分詞教師通過(guò)PPT結(jié)合實(shí)操的形式講解分詞。(1)什么是分詞分詞是指將由連續(xù)詞或字組成的語(yǔ)句,按照一定的規(guī)則劃分成獨(dú)立詞語(yǔ)的過(guò)程。(2)英文文本分詞的方式NLTK庫(kù)的word_tokenize()函數(shù)用于以空格或標(biāo)點(diǎn)符號(hào)為分隔符對(duì)英文文本進(jìn)行分詞,并返回分詞后的單詞列表。(3)通過(guò)代碼演示如何使用word_tokenize()函數(shù)實(shí)現(xiàn)英文文本分詞效果(4)中文文本分詞的方式j(luò)ieba模塊的cut()
函數(shù)用于實(shí)現(xiàn)中文文本分詞的效果(5)通過(guò)代碼演示如何使用cut()函數(shù)實(shí)現(xiàn)中文文本分詞的效果知識(shí)點(diǎn)5-詞性標(biāo)注教師通過(guò)PPT結(jié)合實(shí)操的形式講解詞性標(biāo)注。(1)詞性的分類(2)什么是詞性標(biāo)注詞性標(biāo)注是指為分詞結(jié)果中的每個(gè)單詞標(biāo)注一個(gè)正確的詞性。(3)NLTK庫(kù)的詞性標(biāo)注集(4)詞性標(biāo)注的方式先下載averaged_perceptron_tagger模塊,再通過(guò)該模塊的pos_tag()函數(shù)進(jìn)行標(biāo)注。(5)通過(guò)代碼演示對(duì)一段英文文本進(jìn)行詞性標(biāo)注三、歸納總結(jié)教師回顧本節(jié)課所講的內(nèi)容,并通過(guò)測(cè)試題的方式引導(dǎo)學(xué)生解答問(wèn)題并給予指導(dǎo)。四、布置作業(yè)教師通過(guò)高校教輔平臺(tái)()布置本節(jié)課作業(yè)以及下節(jié)課的預(yù)習(xí)作業(yè)。第二課時(shí)(詞形歸一化、刪除停用詞、文本情感分析)一、復(fù)習(xí)鞏固教師通過(guò)上節(jié)課作業(yè)的完成情況,對(duì)學(xué)生吸收不好的知識(shí)點(diǎn)進(jìn)行再次鞏固講解。二、通過(guò)直接引入的方式導(dǎo)入新課上節(jié)課我們主要學(xué)習(xí)了安裝jieba和NLTK語(yǔ)料庫(kù)、文本預(yù)處理基本流程、分詞、詞性標(biāo)注,本節(jié)課將學(xué)習(xí)詞形歸一化、刪除停用詞、文本情感分析。三、新課講解知識(shí)點(diǎn)1-詞形歸一化教師通過(guò)PPT結(jié)合實(shí)操的形式講解詞形歸一化。(1)為什么要進(jìn)行詞形歸一化有些單詞有多個(gè)變種,這會(huì)影響語(yǔ)料庫(kù)學(xué)習(xí)的準(zhǔn)確度,為了解決這個(gè)問(wèn)題,我們需要對(duì)一個(gè)詞的不同形態(tài)進(jìn)行規(guī)范化,以提高文本處理的效率。(2)詞形規(guī)一化的方式詞干提?。簞h除不影響詞性的詞綴,得到單詞詞干。詞形還原:捕捉基于詞根的規(guī)范單詞形式。(3)實(shí)現(xiàn)詞干提取的方式nltk.stem模塊的PorterStemmer類:波特詞干提取器。nltk.stem模塊的PorterStemmer類:蘭卡斯特詞干提取器。nltk.stem模塊的SnowballStemmer類:其它詞干提取器。(4)通過(guò)代碼演示如何使用上述三種方式實(shí)現(xiàn)詞干提取的操作(5)實(shí)現(xiàn)詞形還原的方式WordNetLemmatizer類的lemmatize()方法會(huì)比對(duì)wordnet語(yǔ)料庫(kù),并采用遞歸技術(shù)刪除詞綴,直至在詞匯網(wǎng)絡(luò)中找到匹配項(xiàng),最終返回輸入詞的基本形式。如果沒(méi)有找到匹配項(xiàng),則直接返回輸入詞,不做任何變化。(6)通過(guò)代碼演示如何使用上述方式實(shí)現(xiàn)詞形還原的操作知識(shí)點(diǎn)2-刪除停用詞教師通過(guò)PPT結(jié)合實(shí)操的形式講解刪除停用詞。(1)什么是停用詞停用詞是指在信息檢索中,為節(jié)省存儲(chǔ)空間和提高搜索效率,在處理自然語(yǔ)言文本之前或之后會(huì)自動(dòng)過(guò)濾掉某些沒(méi)有具體意義的字或詞。(2)刪除停用詞的實(shí)現(xiàn)方式(3)通過(guò)代碼演示如何使用NLTK庫(kù)實(shí)現(xiàn)刪除停用詞的功能知識(shí)點(diǎn)3-文本情感分析教師通過(guò)PPT結(jié)合實(shí)操的形式講解文本情感分析。(1)什么是文本情感分析(2)情感分析的分類情感極性分析情感程度分析主客觀分析(3)情感極性分析的方法基于情感詞典的情感分析基于機(jī)器學(xué)習(xí)的情感分析(4)基于情感詞典的情感分析的基本思路eq\o\ac(○,1)找出正向情感詞、負(fù)向情感詞、否定詞以及程度副詞。eq\o\ac(○,2)如果情感詞前面存在否定詞,則將情感詞的情感權(quán)值乘以-1;如果情感詞前面有程度副詞,就情感詞的情感權(quán)值乘以程度副詞的程度值。eq\o\ac(○,3)將所有組得分相加,結(jié)果大于0歸正向,小于0歸負(fù)向。(5)基于情感詞典情感分析的舉例(6)樸素貝葉斯算法的概念樸素貝葉斯是經(jīng)典的機(jī)有監(jiān)督的機(jī)器學(xué)習(xí)算法之一,它的思想是對(duì)于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)概率最大就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。(7)基于樸素貝葉斯算法實(shí)現(xiàn)情感分析的方式NaiveBayesClassifier類封裝了樸素貝葉斯分類算法的功能,該類中有一個(gè)類方法train(),用于根據(jù)訓(xùn)練集來(lái)訓(xùn)練模型。(8)通過(guò)代碼演示如何使用NaiveBayesClassifier類實(shí)現(xiàn)情感分析四、歸納總結(jié)教師回顧本節(jié)課所講的內(nèi)容,并通過(guò)測(cè)試題的方式引導(dǎo)學(xué)生解答問(wèn)題并給予指導(dǎo)。五、布置作業(yè)教師通過(guò)高校教輔平臺(tái)()布置本節(jié)課作業(yè)以及下節(jié)課的預(yù)習(xí)作業(yè)。第三課時(shí)(文本相似度、文本分類、案例:商品評(píng)論分析)一、復(fù)習(xí)鞏固教師通過(guò)上節(jié)課作業(yè)的完成情況,對(duì)學(xué)生吸收不好的知識(shí)點(diǎn)進(jìn)行再次鞏固講解。二、通過(guò)直接引入的方式導(dǎo)入新課上節(jié)課我們主要學(xué)習(xí)了詞形歸一化、刪除停用詞、文本情感分析,本節(jié)課將繼續(xù)學(xué)習(xí)文本相似度、文本分類,以及圍繞所學(xué)的知識(shí)完成一個(gè)案例。三、新課講解知識(shí)點(diǎn)1-文本相似度教師通過(guò)PPT結(jié)合實(shí)操的形式講解文本相似度。(1)文本相似度的應(yīng)用場(chǎng)景(2)文本相似度的方法基于關(guān)鍵字匹配的傳統(tǒng)方法。將文本映射到向量空間,再利用余弦相似度等方法進(jìn)行計(jì)算?;谏疃葘W(xué)習(xí)的方法。(3)文本映射到向量空間的實(shí)現(xiàn)思路eq\o\ac(○,1)找出兩篇文章的關(guān)鍵詞。eq\o\ac(○,2)從每篇文章中各取出若干個(gè)關(guān)鍵詞,把這些關(guān)鍵詞合并成一個(gè)集合,然后計(jì)算每篇文章中各個(gè)詞對(duì)于這個(gè)集合中的關(guān)鍵詞的詞頻。eq\o\ac(○,3)生成兩篇文章中各自的詞頻向量。eq\o\ac(○,4)計(jì)算兩個(gè)向量的余弦相似度,值越大則表示越相似。(4)通過(guò)代碼演示如何根據(jù)上述步驟實(shí)現(xiàn)文本相似度的操作知識(shí)點(diǎn)2-文本分類教師通過(guò)PPT結(jié)合實(shí)操的形式講解文本分類。(1)什么是文本分類(2)文本分類的實(shí)現(xiàn)思路eq\o\ac(○,1)數(shù)據(jù)集準(zhǔn)備eq\o\ac(○,2)特征抽取。eq\o\ac(○,3)模型訓(xùn)練。eq\o\ac(○,4)分類結(jié)果評(píng)價(jià)。(3)通過(guò)代碼演示根據(jù)上述思路使用NLTK庫(kù)實(shí)現(xiàn)文本分類的操作知識(shí)點(diǎn)3-案例:商品評(píng)論分析教師通過(guò)PPT結(jié)合實(shí)操的形式講解案例。(1)通過(guò)PPT介紹案例的需求(2)通過(guò)代碼演示如何讀取數(shù)據(jù)(3)通過(guò)代碼演示案例的實(shí)現(xiàn)步驟四、歸納總結(jié)教師回顧本節(jié)課所講的內(nèi)容,并通過(guò)測(cè)試題的方式引導(dǎo)學(xué)生解答問(wèn)題并給予指導(dǎo)。五、布置作業(yè)教師通過(guò)高校教輔平臺(tái)()布置本節(jié)課作業(yè)以及下節(jié)課的預(yù)習(xí)作業(yè)。第四、五課時(shí)(上機(jī)練習(xí))上機(jī)練習(xí)主要針對(duì)本章中需要重點(diǎn)掌握的知識(shí)點(diǎn),以及在程序中容易出錯(cuò)的內(nèi)容進(jìn)行練習(xí),通過(guò)上機(jī)練習(xí)可以考察同學(xué)對(duì)知識(shí)點(diǎn)的掌握情況,對(duì)代碼的熟練程度。上
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年人造鉆石行業(yè)前景及市場(chǎng)機(jī)遇探討
- 水庫(kù)除險(xiǎn)加固的工程設(shè)計(jì)與施工組織
- 2024年定制版:蔣峰與梁薇土地使用權(quán)轉(zhuǎn)讓合同及開發(fā)規(guī)劃協(xié)議
- 2024年xx發(fā)電機(jī)技術(shù)維護(hù)協(xié)議
- 游樂(lè)園租賃合同三篇
- 2024年品牌授權(quán)使用協(xié)議(服裝行業(yè))
- 2024醫(yī)療保健拓展訓(xùn)練合同
- 課堂教學(xué)改革行動(dòng)計(jì)劃
- 煤礦機(jī)電標(biāo)準(zhǔn)化評(píng)分表
- 2024雙方關(guān)于離婚后支付子女撫養(yǎng)費(fèi)用的長(zhǎng)期協(xié)議
- 競(jìng)聘團(tuán)委書記演講.doc
- 煤礦安全數(shù)字化智能巡檢系統(tǒng)
- 廣告宣傳費(fèi)用巧籌劃三個(gè)方案
- 模板支架及腳手架安全使用培訓(xùn)課件
- 企業(yè)財(cái)產(chǎn)保險(xiǎn)投保單
- 柿子品種介紹PPT課件
- 內(nèi)鏡清潔消毒登記表格模板
- 天然氣脫硫(課堂運(yùn)用)
- 幼兒園教師師德師風(fēng)考核表(共2頁(yè))
- 城鎮(zhèn)職工醫(yī)療保險(xiǎn)運(yùn)行中的問(wèn)題分析及措施
- 學(xué)校食堂五常法管理制度
評(píng)論
0/150
提交評(píng)論