




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術與應用王朝霞 主編 施建強 楊慧娟 陳建彪 副主編DATA MINING曹 潔 寧亞輝 王偉嘉 袁曉東 張衛(wèi)明 編者(按姓氏首字母排序) 劉 鵬 張 燕 總主編數(shù)據(jù)挖掘第九章互聯(lián)網(wǎng)數(shù)據(jù)挖掘of412高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術與應用互聯(lián)網(wǎng)數(shù)據(jù)挖掘是對當前互聯(lián)網(wǎng)上蓬勃涌現(xiàn)出的各類型數(shù)據(jù)及其背后的價值的一種新的探索。而其數(shù)據(jù)的收集、分析解讀和相關展示,也需要應用經(jīng)典數(shù)據(jù)挖掘模型、算法、方法和工具,甚至與其他行業(yè)學科的數(shù)據(jù)挖掘分析經(jīng)驗進行關聯(lián)思考,從而更精準而高效地獲得問題突破的關鍵力量。這里我們回溯了pagerank的源起、聚合了模型選用的取
2、舍智慧,并塑造出以數(shù)據(jù)挖掘為手段提煉數(shù)據(jù)為人服務的終極意義。More應用領域:預測決策、商務智能(Business Intelligence)、數(shù)據(jù)倉庫(Data Warehouse)、數(shù)據(jù)透視(Data Perspective)9.1鏈接分析與互聯(lián)網(wǎng)排序第九章互聯(lián)網(wǎng)數(shù)據(jù)挖掘9.2互聯(lián)網(wǎng)信息抽取9.3日志挖掘與查詢分析習題of413高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術與應用9.1.1 PageRank起源互聯(lián)網(wǎng)信息檢索需求of4149.1 鏈接分析與互聯(lián)網(wǎng)排序第九章 鏈接分析與互聯(lián)網(wǎng)排序良莠不齊去粗高品質(zhì)取精9.1.1 PageRank起源排序算法,拉里佩奇論文節(jié)選of4159.1 鏈接
3、分析與互聯(lián)網(wǎng)排序第九章 鏈接分析與互聯(lián)網(wǎng)排序9.1.1 PageRank起源成立公司,服務自己,服務大家of4169.1 鏈接分析與互聯(lián)網(wǎng)排序第九章 鏈接分析與互聯(lián)網(wǎng)排序9.1.1 PageRank誰的信息、資訊、數(shù)據(jù)更權威?of4179.1 鏈接分析與互聯(lián)網(wǎng)排序第九章 鏈接分析與互聯(lián)網(wǎng)排序選擇9.1.1 PageRank鏈接數(shù)量與質(zhì)量of4189.1 鏈接分析與互聯(lián)網(wǎng)排序第九章 鏈接分析與互聯(lián)網(wǎng)排序9.1.1 PageRankPR值計算相關的數(shù)學of4199.1 鏈接分析與互聯(lián)網(wǎng)排序第九章 鏈接分析與互聯(lián)網(wǎng)排序圖論馬爾科夫鏈隨機漫步馬爾可夫鏈,因安德烈馬爾可夫(A.A.Markov,1856
4、1922)得名,是指數(shù)學中具有馬爾可夫性質(zhì)的離散事件隨機過程。該過程中,在給定當前知識或信息的情況下,過去(即當前以前的歷史狀態(tài))對于預測將來(即當前以后的未來狀態(tài))是無關的。矩陣運算隨機漫步矩陣乘法線性方程組求解R=MRRn=MRn-1=MnR09.1.1 PageRankPR值基于一個微型網(wǎng)絡of41109.1 鏈接分析與互聯(lián)網(wǎng)排序第九章 鏈接分析與互聯(lián)網(wǎng)排序ABC9.1.1 PageRank/網(wǎng)站上算法參考of41119.1 鏈接分析與互聯(lián)網(wǎng)排序第九章 鏈接分析與互聯(lián)網(wǎng)排序在時間和存儲空間資源稀缺環(huán)境下對PageRank計算,巨大的互聯(lián)網(wǎng),海量的網(wǎng)頁,產(chǎn)生大量的矩陣計算,如何給予其更高效
5、處理,我們能否做得更好?業(yè)務需求驅動。審視并挖掘數(shù)據(jù)“特征”予以應用。9.1.2 PageRank的快速計算of41129.1 鏈接分析與互聯(lián)網(wǎng)排序第九章 鏈接分析與互聯(lián)網(wǎng)排序非00面向主題的PangRank計算也是計算PR值時,追求精益求精,避免鏈接作弊而產(chǎn)生的改良方法。將用戶感興趣的主題網(wǎng)頁歸類并抽象為集合,調(diào)整PR值計算公式,會得到不一樣的PR值結果。9.1.3 面向主題的PageRankof41139.1 鏈接分析與互聯(lián)網(wǎng)排序第九章 鏈接分析與互聯(lián)網(wǎng)排序體育科技財經(jīng)可否對PageRank進行基于時間序列分析的預測計算?ARIMA模型,找規(guī)律9.1.4 時間序列分析of41149.1 鏈
6、接分析與互聯(lián)網(wǎng)排序第九章 鏈接分析與互聯(lián)網(wǎng)排序網(wǎng)頁排序經(jīng)濟學可否對PageRank進行基于時間序列分析的預測計算?價值動因樹復雜問題的處理方法9.1.4 時間序列分析of41159.1 鏈接分析與互聯(lián)網(wǎng)排序第九章 鏈接分析與互聯(lián)網(wǎng)排序排序面向主題主題當前PR新穎度時間9.1鏈接分析與互聯(lián)網(wǎng)排序第九章互聯(lián)網(wǎng)數(shù)據(jù)挖掘9.2互聯(lián)網(wǎng)信息抽取9.3日志挖掘與查詢分析習題of4116高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術與應用互聯(lián)網(wǎng)信息抽取毫無疑問要用到模型、算法和相關的技術。然而怎樣才能發(fā)現(xiàn)新知,創(chuàng)新,創(chuàng)意呢,且這也通常是數(shù)據(jù)挖掘的初衷?我們還需要改變思維和轉換視角。數(shù)據(jù)挖掘出眾的人,會把數(shù)據(jù)放到整
7、體中,窮盡所有可能:遠、近、高、低各不同;細節(jié)、結構都要看的視角;摒棄固定觀念轉投逆向思維、增加或減少因素權重數(shù)值等等,才能夠發(fā)現(xiàn)觀察對象的本質(zhì),從而達成目標,此也應是信息抽取的基礎哲學。9.2.1 概述of41179.2 互聯(lián)網(wǎng)信息抽取第九章 鏈接分析與互聯(lián)網(wǎng)排序模型構建同樣受限于視野,調(diào)參數(shù)可以較好的改善和平衡其不足。另一方面模型結構本身也是一種數(shù)據(jù)展示和分析。9.2.2 典型應用模型構建of41189.2 互聯(lián)網(wǎng)信息抽取第九章 鏈接分析與互聯(lián)網(wǎng)排序資產(chǎn)固定資產(chǎn)流動資產(chǎn)負債+所有者權益所有者權益負債“挖掘”與多維分析是什么關系?9.2.3 挖掘、存儲與網(wǎng)絡技術分析of41199.2 互聯(lián)網(wǎng)
8、信息抽取第九章 鏈接分析與互聯(lián)網(wǎng)排序數(shù)據(jù)歸根到底從哪里來的?9.2.4 數(shù)據(jù)采集管理of41209.2 互聯(lián)網(wǎng)信息抽取第九章 鏈接分析與互聯(lián)網(wǎng)排序儀器自然人挖掘出的“信息圖”。9.2.5 數(shù)據(jù)抽取方法與知識發(fā)現(xiàn)of41219.2 互聯(lián)網(wǎng)信息抽取第九章 鏈接分析與互聯(lián)網(wǎng)排序信息的4個層次。桑文鋒著數(shù)據(jù)驅動從方法到實踐9.2.5 數(shù)據(jù)抽取方法與知識發(fā)現(xiàn)of41229.2 互聯(lián)網(wǎng)信息抽取第九章 鏈接分析與互聯(lián)網(wǎng)排序智慧(應用信息)知識(組織信息)信息(鏈接元素)數(shù)據(jù)(離散元素)過去經(jīng)驗未來新事物吳恩達courseraAI課:為了達到最優(yōu)性能,需要大量的數(shù)據(jù)和大型神經(jīng)網(wǎng)絡。 9.2.6 行業(yè)案例研究o
9、f41239.2 互聯(lián)網(wǎng)信息抽取第九章 鏈接分析與互聯(lián)網(wǎng)排序performancedatabigdataTraditional MLSmall NNMedium NNLarge NN大數(shù)據(jù)提升物流服務質(zhì)量。9.2.6 行業(yè)案例研究of41249.2 互聯(lián)網(wǎng)信息抽取第九章 鏈接分析與互聯(lián)網(wǎng)排序9.1鏈接分析與互聯(lián)網(wǎng)排序第九章互聯(lián)網(wǎng)數(shù)據(jù)挖掘9.2互聯(lián)網(wǎng)信息抽取9.3日志挖掘與查詢分析習題of4125高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術與應用2012之后,智能手機廣泛應用,電子商務飛速發(fā)展,云計算技術落地催生更多SAAS服務,使得IT信息化建設漸次落地并興起數(shù)據(jù)化建設?;ヂ?lián)網(wǎng)上產(chǎn)生的巨量的數(shù)據(jù)
10、中日志數(shù)據(jù)不可忽略。然而數(shù)據(jù)意識有限,數(shù)據(jù)基礎薄弱讓我們對其中的重要信息往往不夠敏感。本節(jié)從人這一原點出發(fā),以人為本考慮數(shù)據(jù)透視,展現(xiàn)數(shù)據(jù)挖掘的更深內(nèi)涵。9.3.1 概述of41269.3 日志挖掘與查詢分析第九章 鏈接分析與互聯(lián)網(wǎng)排序日志工具、方法、平臺隨著技術與應用的更新在不斷升級。以下是日志統(tǒng)計平臺LSP1.0架構圖,百度大數(shù)據(jù)分析平臺,桑文鋒著數(shù)據(jù)驅動從方法到實踐9.3.2 挖掘分析常用方法與工具比較of41279.3 日志挖掘與查詢分析第九章 鏈接分析與互聯(lián)網(wǎng)排序SchedulerCWrapperWebUI前端服務器日志中轉FTPLogfileHDFShadoop以下是用戶數(shù)據(jù)倉庫模
11、型,百度大數(shù)據(jù)分析平臺,桑文鋒著數(shù)據(jù)驅動從方法到實踐9.3.2 挖掘分析常用方法與工具比較of41289.3 日志挖掘與查詢分析第九章 鏈接分析與互聯(lián)網(wǎng)排序Insight洞察DataMart數(shù)據(jù)集市User Data Warehouse用戶數(shù)據(jù)倉庫網(wǎng)頁搜索鳳巢網(wǎng)盟知道百科網(wǎng)頁搜索鳳巢網(wǎng)盟知道百科文本日志結構化數(shù)據(jù)以下是數(shù)據(jù)源管理,百度大數(shù)據(jù)分析平臺,桑文鋒著數(shù)據(jù)驅動從方法到實踐9.3.2 挖掘分析常用方法與工具比較of41299.3 日志挖掘與查詢分析第九章 鏈接分析與互聯(lián)網(wǎng)排序日志源結構化元數(shù)據(jù)審核傳輸實時化查詢引擎直接可分析源結構化數(shù)據(jù)工具比較的挖掘價值9.3.2 挖掘分析常用方法與工具比
12、較of41309.3 日志挖掘與查詢分析第九章 鏈接分析與互聯(lián)網(wǎng)排序監(jiān)督日志查詢分類、主題確定垃圾郵件發(fā)現(xiàn)SVM排序無上下文,意圖挖掘上下文,問題發(fā)現(xiàn)關聯(lián)規(guī)則,聚類推薦海量數(shù)據(jù)挖掘過程(收集、分解、合并、推理)可視化展現(xiàn)。9.3.3 海量數(shù)據(jù)挖掘過程展現(xiàn)與分析of41319.3 日志挖掘與查詢分析第九章 鏈接分析與互聯(lián)網(wǎng)排序學生用戶日志深度分析與應用9.3.4 行業(yè)應用舉例of41329.3 日志挖掘與查詢分析第九章 鏈接分析與互聯(lián)網(wǎng)排序1打包PageRank算法生成Jar包,在Spark集群或單機上運行。2 . 互聯(lián)網(wǎng)數(shù)據(jù)挖掘中對已有信息挖掘為什么既可以進行預測,也可以進行評估和控制?3 .
13、 怎樣理解大數(shù)據(jù)的預測洞察作用?4 . 什么是好問題(deep question),良好的提問技巧能使我們在尋找答案(數(shù)據(jù)挖掘)的道路上事半功倍,離答案更近一步,為什么?5 . 如何在有限稀缺資源約束下最大限度地挖掘到有價值的關聯(lián)數(shù)據(jù)?6 . 隨著數(shù)據(jù)挖掘、機器學習、人工智能和大數(shù)據(jù)的不斷發(fā)展,人類會變得越來越聰明,文理兼通不再會是一件很難落地的事情,為什么?7 . 為什么中國古語說“綱舉目張”,它與數(shù)據(jù)挖掘中的哪些技術方法模型相關?8 . 知識之間的聯(lián)系為什么比死的知識更重要?9 . 為什么中國古語還說“一圖勝千言”?10 . 讀完本章你對中國文化中強調(diào)的“關系”有沒有新的認識?11 . 中國古語所說“物以類聚,人以群分”是如何總結出的?12 . 在SEO搜索引擎優(yōu)化中,標簽有一個nofollow屬性,它有哪些具體設置方法,對PR值計算有怎樣的影響?習題:AIRack人工智能實驗平臺一站式的人工智能實驗平臺DeepRack深度學習一體機開箱即用的AI科研平臺BDRack大數(shù)據(jù)實驗平臺一站式的大數(shù)據(jù)實訓平臺云計算頭條微信號:chinacloudnj中國大數(shù)據(jù)微信號:cstorbigdata劉鵬看未來微信號:lpout
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 精準農(nóng)業(yè)技術應用項目合同
- 律師見證 委托協(xié)議
- 智能金融科技應用開發(fā)合同
- 中心社區(qū)房屋買賣代理合同
- 電子設備租賃服務合同
- 第3單元第9課《按圖索驥-制作熱點鏈接》-教學設計2023-2024學年清華大學版(2012)初中信息技術八年級下冊
- Unit3 Could you please clean the room Section A (3a) 教學設計 2024-2025學年人教版八年級英語上冊
- 第17課 第二次世界大戰(zhàn)與戰(zhàn)后國際秩序的形成 教學設計-2023-2024學年高一統(tǒng)編版2019必修中外歷史綱要下冊
- 第六單元課外古詩詞誦讀《如夢令(常記溪亭日暮)》教學設計-2024-2025學年統(tǒng)編版語文八年級上冊
- 認識倍數(shù) 教學設計-2024-2025學年冀教版數(shù)學四年級上冊
- 比亞迪漢DM-i說明書
- 晚熟的人(莫言諾獎后首部作品)
- GA/T 2002-2022多道心理測試通用技術規(guī)程
- 《玉磨彌蒙鐵路建設項目標準化管理考核實施辦法》的通知滇南安質(zhì)〔XXXX〕號
- 新人教鄂教版(2017)五年級下冊科學全冊教學課件
- 《產(chǎn)業(yè)基礎創(chuàng)新發(fā)展目錄(2021年版)》(8.5發(fā)布)
- YY/T 0729.4-2009組織粘合劑粘接性能試驗方法第4部分:傷口閉合強度
- GB/T 1040.3-2006塑料拉伸性能的測定第3部分:薄膜和薄片的試驗條件
- GB 4706.20-2004家用和類似用途電器的安全滾筒式干衣機的特殊要求
- 血管“斑塊”的風險課件
- mks spectra介紹殘余氣體分析儀
評論
0/150
提交評論