




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
《Python自然語言處理入門與實戰(zhàn)》教學大綱課程名稱:Python自然語言處理入門與實戰(zhàn)課程類別:必修適用專業(yè):大數(shù)據(jù)技術類相關專業(yè)總學時:64學時(其中理論34學時,實驗30學時)總學分:4.0學分一、 課程的性質自然語言處理作為人工智能的一個重要分支,促進了社會傳播學的發(fā)展,并且在新聞傳播領域中的影響也越來越深刻。社會傳播學是一門研究人類交流形式的學問,新聞包含于傳播之中,而語言交流和文字交流是人類最重要的交流方式。分析語言的成分和結構,理解語義和深層意義,是社會傳播學與自然語言處理的共同任務。自然語言處理與社會傳播學的融合研究正在成為新的趨勢,中文自然語言處理能夠迅速且有效地處理新媒體特別是網絡和社交媒體中海量的內容與知識,能夠有效加速社會傳播學的研究進展。由于中文自然語言處理的研究起步較晚,加上中文語句本身結構更為松散,語法和語義更為靈活,因此無法直接套用英文自然語言處理中較成熟的理論和技術。與具有相對完善理論框架的社會傳播學進行結合能夠為中文自然語言處理的發(fā)展帶來新的機遇。為了推動我國大數(shù)據(jù),云計算,人工智能和新聞傳媒行業(yè)的發(fā)展,滿足日益增長的數(shù)據(jù)分析人才需求,特開設Python自然語言處理入門與實戰(zhàn)。二、 課程的任務通過本課程的學習,使學生學會使用Python進行數(shù)據(jù)爬取、分詞與詞性標注、命名實體識別、關鍵詞提取、文本向量化、文本相似度計算、文本分類與聚類,并詳細拆解學習情感分類、文本分類和智能推薦三個實際案例,將理論與實踐相結合,為將來從事數(shù)據(jù)分析挖掘研究、工作奠定基礎。
三、課程學時分配序號教學內容理論學時實驗學時其它1第1章導論212第2章文本數(shù)據(jù)爬取423第3章文本基礎處理844第4章文本進階處理845第5章天問一號事件中的網民評論情感分析456第6章新聞文本分類467第7章基于瀏覽記錄的個性化新聞推薦468第8早基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)新聞文本分類02總計3430四、教學內容及學時安排1.理論教學序號章節(jié)名稱主要內容教學目標學時1導論了解自然語言處理的概念了解自然語言處理的發(fā)展歷程了解自然語言處理的主要內容了解自然語言處理的常用工具了解Python數(shù)據(jù)分析的優(yōu)勢了解Python數(shù)據(jù)分析的常用類庫在Windows操作系統(tǒng)上安裝Anaconda創(chuàng)建自然語言處理虛擬環(huán)境了解自然語言處理的概念、發(fā)展歷程與主要內容了解自然語言處理的常用庫掌握Windows系統(tǒng)卜Anaconda安裝掌握自然語言處理虛擬環(huán)境的創(chuàng)建方法2
2文本數(shù)據(jù)爬取熟悉HTTP的常見請求方法熟悉HTTP的與過程熟悉常見的HTTP狀態(tài)碼熟悉常見的HTTP頭字段熟悉HTTP的Cookie機制爬取靜態(tài)網頁的數(shù)據(jù)了解靜態(tài)網頁和動態(tài)網頁的區(qū)別使用逆向分析和Selenium庫爬取動態(tài)網頁熟悉HTTP請求方法與過程熟悉常見的HTTP狀態(tài)碼、頭字段和Cookie掌握靜態(tài)網頁數(shù)據(jù)的爬取方法了解靜態(tài)網頁和動態(tài)網頁的區(qū)別。掌握逆向分析和使用Selenium庫爬取動態(tài)網頁的方法。43文本基礎處理了解語料庫的基本概念、用途、類型構建語料庫了解中文分詞的基本概念和常用方法4?使用中文分詞工具jieba庫進行分詞了解詞性標注和命名實體識別的基本概念使用jieba進行詞性標注7?使用jieba進行命名實體識別了解關鍵詞提取的基本概念提取文本中的關鍵詞了解語料庫的基本概念、用途、類型和構建原則了解中文分詞的基本概念和常用方法掌握中文分詞工具jieba庫的使用方法了解詞性標注和命名實體識別的基本概念熟悉jieba詞性標注的流程和命名實體識別的實現(xiàn)流程了解關鍵詞提取的基本概念掌握關鍵詞提取的方法。8
4文本進階處理了解文本向量化的基本概念。了解文本離散表示的常用方法熟悉文本向量化模型Word2Vec和Doc2Vec的基本原理掌握Word2Vec和Doc2Vec模型的訓練流程和網絡結構計算文本的相似度了解文本挖掘的基本概念熟悉常用的文本分類和聚類算法實現(xiàn)文本分類實現(xiàn)文本聚類了解文本向量化的基本概念了解文本離散表示的常用方法熟悉文本向量化模型Word2Vec和Doc2Vec的基本原理掌握Word2Vec和Doc2Vec模型的訓練流程和網絡結構,以及文本相似度的計算方法了解文本挖掘的基本概念熟悉常用的文本分類和聚類算法掌握實現(xiàn)文本分類和聚類的步驟85天問一號事件中的網民評論情感分析了解案例背景了解數(shù)據(jù)現(xiàn)狀了解案例的目標對數(shù)據(jù)進行可視化分析對文本進行中文分詞、去停用詞等處理對預處理后的文本進行向量化7?使用樸素貝葉斯分類算法構建分類模型8.對構建的分類模型進行模型評估了解天問一號事件bilibili網站用戶評論情感分析案例背景、數(shù)據(jù)和目標掌握數(shù)據(jù)探索的方法掌握文本預處理的方法掌握樸素貝葉斯分類算法的使用方法,構建分類模型和進行模型優(yōu)化的方法掌握分類模型評估方法4
6新聞文本分類了解案例的業(yè)務背景熟悉數(shù)據(jù)說明了解分析目標對數(shù)據(jù)進行基本的清洗進行可視化展示對文本進行基礎處理和向量化基于支持向量機分類算法構建分類模型對構建的分類模型進行模型評價了解新聞文本分類案例的業(yè)務背景、數(shù)據(jù)說明和分析目標掌握數(shù)據(jù)探索的方法掌握文本預處理的方法熟悉支持向量機分類算法,構建分類模型和模型優(yōu)化的方法掌握分類模型的評價方法47基于瀏覽記錄的個性化新聞推薦了解個性化新聞推薦案例的背景熟悉案例數(shù)了解分析目標。探索數(shù)據(jù)的基本情況并進行可視化展示對瀏覽數(shù)據(jù)進行基礎處理基于物品的協(xié)同過濾推薦算法構建推薦模型。對構建的推薦模型進行模型評估。了解個性化新聞推薦案例的背景、數(shù)據(jù)和分析目標。掌握常用數(shù)據(jù)探索方法掌握常用數(shù)據(jù)預處理的方法掌握基于物品的協(xié)同過濾推薦算法的使用方法。掌握協(xié)同過濾推薦算法的評價方法4學時合計302.實驗教學序號實驗項目名稱實驗要求學時1自然語言處理虛擬環(huán)境搭建在Windows系統(tǒng)上安裝Anaconda創(chuàng)建自然語言處理虛擬環(huán)境12文本數(shù)據(jù)爬取通過Requests庫實現(xiàn)HTTP請求爬取靜態(tài)網頁數(shù)據(jù)并解析連接數(shù)據(jù)庫并存儲解析后的數(shù)據(jù)逆向分析爬取動態(tài)網頁使用Selenium庫爬取動態(tài)網頁23文本基礎處理構建語料庫讀取語料庫并查看詞頻使用jieba進行中文分詞使用jieba進行詞性標注4
進行中文命名實體識別提取文本關鍵詞4文本進階處理Word2Vec詞向量訓練計算文本相似度對新聞文本進行分類對新聞文本進行聚類45天問一號事件中的網民評論情感分析對數(shù)據(jù)進行探索分析進行文本預處理劃分訓練集和測試集構建樸素貝葉斯模型對模型分類效果進行評估56新聞文本分類對數(shù)據(jù)進行清洗進行可視化展示對文本進行基礎處理、向量化構建支持向量機分類模型對構建后的模型進行模型評價67基于瀏覽記錄的個性化新聞推薦對數(shù)據(jù)進行探索分析對數(shù)據(jù)進行預處理劃分數(shù)據(jù)集為訓練集和測試集構建協(xié)同過濾智能推薦模型對模型的推薦效果進行評估68基于TipDM大數(shù)據(jù)挖掘建模平臺實現(xiàn)新聞文本分類配置數(shù)據(jù)源文本預處理模型構建與訓練模型評價2學時合計34五、考核方式突出學生解決實際問題的能力,加強過程性考核。課程考核的成績構成=平時作業(yè)(10%)+課堂參與(20%)+期末考核(70%),期末考試建議采用開卷形式,試題應包括基本概念、數(shù)據(jù)爬取、分詞與詞性標注、命名實體識別、關鍵詞提取、文本向量化、文本相似度計算、文本分類與聚類等部分,題型可采用判斷題、選擇、簡答、應用題等方式。六、教材與參考資料1.教材戴程,張良均.Python自然語言處理入門與實戰(zhàn)[M].北京:人民郵電出版社.2022.2.參考資料張良均.Python數(shù)據(jù)分析與挖掘實戰(zhàn)[M].北京:機械工業(yè)出版社.2015.張良均.Python與數(shù)據(jù)挖掘[M].北京:機械工業(yè)出版社.2016.⑶肖剛,張良均.Python中文自然語言處理基礎與實戰(zhàn)[M].北京:人民郵電出版社.2021.學院課程教學進度計劃表(20?20學年第二學期)課程名稱Python自然語言處理入門與實戰(zhàn)授課學時 64 主講(責任)教0 參與教學教師 授課班級/人數(shù) 專業(yè)(教研室) 填表時間 專業(yè)(教研室)主任 教務處編印
年月七、課程教學目的通過本課程的學習,使學生學會使用Python進行數(shù)據(jù)爬取、分詞與詞性標注、命名實體識別、關鍵詞提取、文本向量化、文本相似度計算、文本分類與聚類,并詳細拆解學習情感分類、文本分類和智能推薦三個實際案例,將理論與實踐相結合,為將來從事數(shù)據(jù)分析挖掘研究、工作奠定基礎。八、 教學方法及手段本課程將采用理論與實踐相結合的教學方法。在理論上,通過任務引入概念、原理和方法。在實踐上,充分地利用現(xiàn)有的硬件資源,發(fā)揮學生主觀能動性,指導學生爬取靜態(tài)和動態(tài)網友的數(shù)據(jù),對文本數(shù)據(jù)進行文本預處理,構建文本分類或聚類模型。同時結合三個綜合案例,引導學生將所學知識與企業(yè)需求相結合,將知識活學活用。要求學生自己動手分析實例,學習基本理論和方法,結合已有的知識,適當組織一些討論,充分調動學生的主觀能動性,以達到本課程的教學目的。九、 課程考核方法突出學生解決實際問題的能力,加強過程性考核。課程考核的成績構成=平時作業(yè)(10%)+課堂參與(20%)+期末考核(70%),期末考試建議采用開卷形式,試題應包括基本概念、數(shù)據(jù)爬取、分詞與詞性標注、命名實體識別、關鍵詞提取、文本向量化、文本相似度計算、文本分類與聚類等部分,題型可采用判斷題、選擇、簡答、應用題等方式。
《Python自然語言處理入門與實戰(zhàn)》教學日歷周次學時授課內容作業(yè)要求備注13第1章導論第1章課后習題25第2章文本數(shù)據(jù)爬?。?)第2章課后習題33第2章文本數(shù)據(jù)爬?。?)第3章文本基礎處理(1)第3章課后習題45第3章文本基礎處理(2)第3章課后習題53第3章文本基礎處理(3)第3章課后習題65第3章文本基礎處理(4)第4章文本進階處理(1)第3章課后習題73第4章文本進階處理(2)第4章課后習題85第4章文本進階處理(3)第4章課后習題93第4章文本進階處理(4)第5章天問一號事件中的網民評論情感分析(1)第4章課后習題105第5章天問一號事件中的網民評論情感分析(2)第5章課后習題113第5章天問一號事件中的網民評論情感分析(3)第6章新聞文本分類(1)第5章課后習題1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年機動車零部件及配件合作協(xié)議書
- 課題3 物質組成的表示(第3課時)(教學設計)九年級化學上冊同步高效課堂(人教版2024)
- 粵教版選修3高中信息技術 2.2ip地址的格式和分類教學設計
- 第11課《短文二篇》教學設計-2024-2025學年統(tǒng)編版語文八年級上冊
- 第一單元 地球和地圖(單元教學設計)2023-2024學年七年級地理上冊同步備課系列(人教版)
- 高中信息技術浙教版:4-2-4相關分析-教學設計
- 2025年精密水準儀經緯儀綜合檢驗儀項目合作計劃書
- 中國農產品貿易市場全面調研及行業(yè)投資潛力預測報告
- 2025-2030年中國不銹鋼普利卡金屬軟管行業(yè)深度研究分析報告
- 2025年金剛石觸媒材料項目發(fā)展計劃
- 頂管工程施工及驗收技術標準
- 護理團體標準解讀-成人氧氣吸入療法護理
- 【基于現(xiàn)金流的企業(yè)財務風險探究文獻綜述4100字】
- TD/T 1036-2013 土地復墾質量控制標準(正式版)
- 安全警示教育的會議記錄內容
- 夫妻異地辭職信
- 2024年度-銀行不良清收技巧培訓課件(學員版)
- 《書籍裝幀設計》 課件 項目3 書籍裝幀整體設計
- 燃燒爆炸理論及應用 課件 第1-3章 緒論、燃燒及其災害、物質的燃燒
- 【可行性報告】2023年糧油加工項目可行性研究分析報告
- 裝飾裝修施工新工藝
評論
0/150
提交評論