《非結構數(shù)據(jù)分析與建模》課程教學大綱_第1頁
《非結構數(shù)據(jù)分析與建?!氛n程教學大綱_第2頁
《非結構數(shù)據(jù)分析與建?!氛n程教學大綱_第3頁
《非結構數(shù)據(jù)分析與建模》課程教學大綱_第4頁
《非結構數(shù)據(jù)分析與建?!氛n程教學大綱_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

《非結構數(shù)據(jù)分析與建?!方虒W大綱課程編號:121193B課程類型:□通識教育必修課□通識教育選修課□學科基礎課□專業(yè)核心課?專業(yè)提升課□專業(yè)拓展課總學時:48講課學時:32實驗(上機)學時:16學分:3考試類型:□考試?考查適用對象:數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)□是?否適合作為其他專業(yè)學生的個性化選修課先修課程:數(shù)學分析、數(shù)理統(tǒng)計、大數(shù)據(jù)分析算法、概率論、隨機過程一、教學目標《非結構數(shù)據(jù)分析與建?!氛n程是我校數(shù)理統(tǒng)計專業(yè)大數(shù)據(jù)方向本科生的專業(yè)選修課,通過本課程的學習使學生能夠掌握文本、社交網(wǎng)絡等非結構數(shù)據(jù)的分析方法,加深學生對這些方法的原理和思想的理解,培養(yǎng)學生分析和挖掘非結構數(shù)據(jù)中的數(shù)據(jù)模式的能力。本課程的教學內(nèi)容主要包括文本挖掘和社會網(wǎng)絡分析。目標1:在理論層面,要求學生對各分析方法的理論具有深入的理解目標2:在技術層面,對于各主要分析方法,盡量要求學生能夠以某種編程語言手段實現(xiàn)程序的再現(xiàn)目標3:在應用層面,希望學生獲得書本范圍外與現(xiàn)實問題密切相關的更廣的知識和技術,深入淺出,廣而精目標4:培育有堅定理想信念、深厚愛國主義情懷、高尚道德情操,具有扎實統(tǒng)計專業(yè)學識,堅韌奮斗進取品格的社會主義新青年二、教學內(nèi)容及其與畢業(yè)要求的對應關系本課程主要學習常用的社交網(wǎng)絡以及研究的主要問題;社交網(wǎng)絡中的社區(qū)發(fā)現(xiàn);社交網(wǎng)絡中的個體社會影響力分析;社交網(wǎng)絡中的鏈接預測;社交網(wǎng)絡中的集體行為;文本預處理;文本自動分類技術;文本自動聚類技術;文本關聯(lián)分析技術等,每一部分都是本課程授課的主要內(nèi)容,對各種主要分析方法的過程與原理,都力求深入淺出;在理論層面,精講細講;在技術層面,根據(jù)學生已有的計算機技術水平,盡量實現(xiàn)學生能夠以某種編程語言再現(xiàn)程序;授課方式采用PPT課堂授課、學生討論及上機實驗相結合的形式;每部分的授課前段采用老師授課方式,后段采用學生討論的形式,并在適當?shù)慕虒W階段安排上機實驗,并要求學生以上機報告的形式完整給出實驗目標、過程、結果及分析。本課程有助于學生在專業(yè)知識、交叉學科基礎、計算機能力以及交叉學科綜合應用與創(chuàng)新能力方面的培養(yǎng)。三、各教學環(huán)節(jié)學時分配以表格方式表現(xiàn)各章節(jié)的學時分配,表格如下:教學課時分配序號章節(jié)內(nèi)容講課實驗其他合計1總體介紹10012常用的社交網(wǎng)絡以及研究的主要問題32053社交網(wǎng)絡中的社區(qū)發(fā)現(xiàn)43074社交網(wǎng)絡中的個體社會影響力分析43075社交網(wǎng)絡中的鏈接預測32056社交網(wǎng)絡中的集體行為32057文本挖掘簡介10018文本預處理41059文本自動分類技術310410文本自動聚類技術310411文本關聯(lián)分析技術3104合計3216048四、教學內(nèi)容第一章總體介紹第一節(jié)結構化與非結構化數(shù)據(jù)非結構化數(shù)據(jù)與結構化數(shù)據(jù)的區(qū)別第二節(jié)非結構化數(shù)據(jù)分析方法現(xiàn)有分析方法的思想及原理簡單介紹教學重點、難點:掌握結構與非結構的數(shù)據(jù)類型,重點掌握非結構數(shù)據(jù)的特點,并了解目前常見的非結構數(shù)據(jù)分析方法。課程思政切入點:非結構數(shù)據(jù)挖掘的發(fā)展歷程與前沿復習思考題:請給出現(xiàn)實生活中非結構數(shù)據(jù)的數(shù)據(jù)例子。第二章常用社交網(wǎng)絡簡介第一節(jié)當前主要的研究問題現(xiàn)實生活中常見社交網(wǎng)絡簡介;社交網(wǎng)絡中主要的研究方面第二節(jié)社交網(wǎng)絡描述方式及其基本統(tǒng)計特征節(jié)點、連邊、鄰接矩陣、度、路徑、點間距離、網(wǎng)絡直徑、聚類系數(shù)、連通分支等;無標度度分布、自相關性、網(wǎng)絡小直徑特性、高聚類特性、點中心性、隨機游走特性等第三節(jié)可視化工具和分析軟件教學重點、難點:了解社交網(wǎng)絡數(shù)據(jù),掌握其描述方式,掌握其基本統(tǒng)計特性,初步運用工具或軟件進行社交網(wǎng)絡可視化。復習思考題:給出生成無標度網(wǎng)絡的程序示例,并在生成的無標度網(wǎng)絡中考查其相應的統(tǒng)計特性。第三章社交網(wǎng)絡中的社區(qū)發(fā)現(xiàn)第一節(jié)網(wǎng)絡社區(qū)的概念第二節(jié)社區(qū)發(fā)現(xiàn)在社交網(wǎng)絡分析中的作用理論層面的重要作用及現(xiàn)實層面的重要作用第三節(jié)社區(qū)劃分的度量及幾種重要的發(fā)現(xiàn)算法常見度量方法介紹;社區(qū)發(fā)現(xiàn)算法簡介;GN分裂算法;邊聚類系數(shù)分裂算法第四節(jié)社交網(wǎng)絡中社區(qū)發(fā)現(xiàn)的發(fā)展趨勢及前景教學重點、難點:深刻理解社區(qū)結構的概念;掌握常用的社區(qū)劃分的有效度量方法;了解社區(qū)發(fā)現(xiàn)算法的基本思想;掌握一到兩種具體的社區(qū)發(fā)現(xiàn)算法,并能夠運用某種手段或工具實現(xiàn)算法重現(xiàn)。課程思政切入點:數(shù)據(jù)質(zhì)量的重要性,培養(yǎng)“求真務實”品德。復習思考題:給出一種社區(qū)發(fā)現(xiàn)算法的程序?qū)崿F(xiàn)。第四章社交網(wǎng)絡中的個體社會影響力分析第一節(jié)個體社會影響力研究的引入介紹理論層面和現(xiàn)實層面的重要性第二節(jié)常見個體影響力度量技術及后續(xù)演化基于度的常見個體社會影響力度量;基于路徑數(shù)的常見個體社會影響力度量;基于社團結構的個體社會影響力度量;HITS算法;PageRank算法;基于用戶行為的個體社會影響力度量;基于用戶信息的影響力度量第三節(jié)社交網(wǎng)絡個體影響力研究的一般流程影響強度的度量技術,個體影響力度量技術,影響力擴散的對比研究第四節(jié)基于網(wǎng)絡社團結構的個體傳播影響力分析教學重點、難點:深刻理解個體社會影響力在現(xiàn)實問題中的重要性;掌握各類個體社會影響力度量技術;熟練運用個體社會影響力研究的一般流程。課程思政切入點:結合實際案例,使學生立個體社會影響力的重要性,引導學生傳播正能量。復習思考題:給出一個規(guī)模不小于50的網(wǎng)絡中節(jié)點VC中心性排序。第五章社交網(wǎng)絡中的鏈接預測第一節(jié)問題描述及應用第二節(jié)Bayesian概率模型第三節(jié)概率關系模型PRMs教學重點、難點:理解社交網(wǎng)絡鏈接預測相關問題;掌握一到兩種預測模型的具體設計思想;能夠運用某種手段或工具實現(xiàn)某種預測模型的算法實現(xiàn)。復習思考題:給出一種鏈接預測模型的算法思想步驟。第六章社交網(wǎng)絡中的集體行為第一節(jié)社交網(wǎng)絡中的擴散過程第二節(jié)社會影響及影響的傳播第三節(jié)謠言及信息散布教學重點、難點:了解社交網(wǎng)絡中的各種集體行為;了解集體行為的研究思想。課程思政切入點:理解擴散過程,引導學生不信謠不傳謠,弘揚社會主義核心價值觀。復習思考題:思考社交網(wǎng)絡中集體行為與個體社會影響力之間有無關系。第七章文本挖掘簡介介紹文本挖掘概念,研究意義,主要應用,研究難點,一般流程和基本技術框架教學重點、難點:了解文本數(shù)據(jù)特點;了解文本挖掘相關概念、相關研究流程及一般技術框架。第八章文本預處理第一節(jié)數(shù)據(jù)獲取第二節(jié)分詞、詞性標注、短語識別…第三節(jié)文本表示教學重點、難點:掌握文本預處理的原理和一般流程。課程思政切入點:組織學生以小組為單位進行案例分析,培養(yǎng)學生的團隊精神。復習思考題:利用課上所學獲取現(xiàn)實網(wǎng)絡上的文本數(shù)據(jù)。第九章文本自動分類技術第一節(jié)特征選擇相對熵、信息增益等第二節(jié)分類算法決策樹、SVM、神經(jīng)網(wǎng)絡、貝葉斯、kNN等教學重點、難點:掌握文本自動分類的原理;能夠運用某種自動分類技術。復習思考題:針對某個合適的規(guī)模較小的文本數(shù)據(jù),詳細闡述某種自動分類技術的具體過程及最后結果。第十章文本自動聚類技術第一節(jié)特征選擇第二節(jié)聚類算法教學重點、難點:掌握文本自動聚類技術的原理;能夠運用某種聚類算法。課程思政切入點:對政府工作報告進行文本聚類分析,掌握方法原理的同時,有利于學生即使了解國家的大政方針,提高政治敏銳性。復習思考題:闡述分類技術與聚類技術之間的關聯(lián)。第十一章文本關聯(lián)分析技術第一節(jié)“共現(xiàn)”詞語挖掘第二節(jié)關聯(lián)規(guī)則挖掘第三節(jié)基于關聯(lián)規(guī)則的分類教學重點、難點:了解文本關聯(lián)分析的原理和技術。五、考核方式、成績評定本課程一般按閉卷、開卷或論文方式考核,卷面一般占70%,考勤與平時作業(yè)一般占30%。六、主要參考書及其他內(nèi)容[

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論