數(shù)據(jù)可視化基礎數(shù)據(jù)科學課件_第1頁
數(shù)據(jù)可視化基礎數(shù)據(jù)科學課件_第2頁
數(shù)據(jù)可視化基礎數(shù)據(jù)科學課件_第3頁
數(shù)據(jù)可視化基礎數(shù)據(jù)科學課件_第4頁
數(shù)據(jù)可視化基礎數(shù)據(jù)科學課件_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)可視化基礎

數(shù)據(jù)科學內(nèi)容提綱大數(shù)據(jù)時代數(shù)據(jù)科學簡介大數(shù)據(jù)的案例大數(shù)據(jù)用來定義那些大小超出常用軟件工具在可承受的運行時間內(nèi)進行數(shù)據(jù)捕獲、管理和處理的能力的數(shù)據(jù)集。大數(shù)據(jù)的定義與特性大數(shù)據(jù)的3V特性2009年,美國國家標準技術研究所(NIST)幫助發(fā)表了一

篇題為“控制數(shù)據(jù)的力量”的報告,對

大數(shù)據(jù)研發(fā)計劃的開展有許多影響。2011年,總統(tǒng)科技顧問委員會(PCAST)

提出增加美國在大數(shù)據(jù)研發(fā)方面投入的

建議,同時成立大數(shù)據(jù)高層指導小組。2012年3月29日奧巴馬政府公布了“大數(shù)據(jù)研發(fā)計劃”(BigDataResearchandDevelopmentInitiative)美國政府的大數(shù)據(jù)計劃國防部(DoD)自然語言處理(MachineReading)視覺智能(Mind’sEye)安全云(MissionOrientedResilientClouds)對加密數(shù)據(jù)的編程計算(PROCEED)對視頻和圖像的檢索和分析工具(VIRAT)CINDER計劃Insight計劃美國政府的大數(shù)據(jù)計劃國土安全部(DHS)可視化數(shù)據(jù)分析(CVADA)能源部

(DOE)ASCR計劃,提供數(shù)據(jù)管理,可視化和數(shù)據(jù)分析的社區(qū),包括數(shù)字化保存和社區(qū)訪問生物和環(huán)境研究計劃(BER)

系統(tǒng)生物學知識庫(Kbase)美國核數(shù)據(jù)計劃(USNDP)NASA全球地球觀測系統(tǒng)(GEOSS)行星數(shù)據(jù)系統(tǒng)(PDS)美國政府的大數(shù)據(jù)計劃衛(wèi)生和人類服務部(HHS)生物傳感2.0計劃癌癥成像存檔(TCIA)癌癥基因組圖譜(TCGA)傳染病代理研究模型(MIDAS)人口研究數(shù)據(jù)共享(DSDR)計算神經(jīng)科學的合作研究(CRCNS)食品藥品監(jiān)督管理局(FDA)虛擬實驗室環(huán)境(VLE)計劃國家安全局(NSA)情報共同體(IC)計劃美國政府的大數(shù)據(jù)計劃美國國家自然基金委(NSF)開發(fā)、整合一套一體化的數(shù)據(jù)工具和先進的基礎設施方案以支持科學和教育。美國國家衛(wèi)生研究院(NIH)TheStructuralGenomicsInitiative,通過發(fā)現(xiàn),分析和傳播蛋白質(zhì)的三維結構,RNA和其他生物大分子結構,展現(xiàn)生物的多樣性,以促進在生物學,農(nóng)業(yè)和醫(yī)藥的基本認識和應用。美國地質(zhì)調(diào)查局(USGS)利用龐大的數(shù)據(jù)集、先進的計算能力和協(xié)作工具,提高對一些地球問題的認識,如氣候變化,地震的復發(fā)率。美國政府的大數(shù)據(jù)計劃2011年由國防部高級研究計劃局(DARPA)提出。投資:3500萬美元。該項目旨在發(fā)現(xiàn)和防止內(nèi)部威脅。系統(tǒng)預期輸出對象是反間諜機構。同時可以用于解決大規(guī)模數(shù)據(jù)集的異常檢測和特征化,用于商業(yè)融資等其他領域。核心技術由喬治亞理工學院高性能計算團隊研發(fā)。多尺度異常檢測(ADAMS)解決目前情報,監(jiān)視和偵察系統(tǒng)的不足,進行自動化和人機集成推理,使得能夠提前對時間敏感的更大潛在威脅進行分析開發(fā)新的方法來檢測軍事計算機網(wǎng)絡與網(wǎng)絡間諜活動Insight計劃國防部高級研究計劃局(DARPA)今年提出開始XDATA計劃。將在四年里擬投資每年2500萬美元。開發(fā)用于分析大量的半結構化和非結構化數(shù)據(jù)的計算技術和軟件工具。提出的挑戰(zhàn):開發(fā)可擴展的算法處理分布式數(shù)據(jù)中不完整存儲的數(shù)據(jù)。研發(fā)有效的人機交互工具促進在各種各樣的任務中快速分析并反饋最重要的視覺信息。XDATA計劃高級科學計算研究辦公室(ASCR)提出。DAX是一個為推動百萬兆級計算所需的數(shù)據(jù)分析和可視化算法提供細粒度并發(fā)支持的工具包。基本單元是實現(xiàn)一個網(wǎng)格里元素行為的函數(shù)。每個函數(shù)只能訪問傳遞和調(diào)用的元素,避免了內(nèi)存沖突從而實現(xiàn)無限數(shù)量的線程并發(fā)。執(zhí)行器遍歷網(wǎng)格所有元素,調(diào)用一個或多個函數(shù)處理無差別功能的元素并收集每個元素的值。DAX計劃病人報告結果測量信息系統(tǒng)2002年5月,國家衛(wèi)生研究所召開多個會議為21世紀的醫(yī)學研究制定了發(fā)展路線并提出了NIH共同基金。為支持重要項目之一的慢性疾病病人臨床研究動態(tài)評估,由NIH共同基金提出了合作項目PROMIS。PROMIS是一個高度可靠,有效,靈活,準確,反應病人健康狀況的評估工具系統(tǒng)。核心資源是評估中心:提供工具和數(shù)據(jù)庫,以幫助研究人員收集,存儲,分析病人的健康狀況有關的數(shù)據(jù)。PROMIS計劃NASA提出的地球科學數(shù)據(jù)和信息系統(tǒng)研制計劃主要目標:處理、存儲與分發(fā)地球科學衛(wèi)星數(shù)據(jù)。提供用于方便管理地球科學數(shù)據(jù)的工具。促進地球科學數(shù)據(jù)的跨學科使用。通過國際之間地球觀測數(shù)據(jù)的共享和整合,推動地球系統(tǒng)科學,滿足氣候和環(huán)境變化的挑戰(zhàn)。有12個數(shù)據(jù)中心,14個科學研究處理系統(tǒng)以及26個合作伙伴為項目提供支持。EOSDIS計劃美國“大數(shù)據(jù)計劃”特點應用單位提出,應用單位主導有非常明確的應用需求,要求解決實際問題應用單位完全掌握大數(shù)據(jù)資源高校參與關鍵技術研究我國高校面臨的挑戰(zhàn)不掌握大數(shù)據(jù)來源很難得到真正的實際需求無能力建設試驗環(huán)境不能提供足夠的人力資源大數(shù)據(jù)計劃特點總結及高校面臨的挑戰(zhàn)提取、轉換、加載(ETL)商業(yè)智能分析數(shù)據(jù)產(chǎn)品數(shù)據(jù)準備-復雜化語法錯誤語義錯誤缺失值異常檢測再歸一化編碼降維整合數(shù)據(jù)準備-語法和語義錯誤利用:日志!維護一個記載錯誤記錄的文件盡可能多地捕捉出錯地方的狀態(tài)能夠幫助確定數(shù)據(jù)源的錯誤對于文本格式,人來檢查是可能的對于二進制格式,使用16進制編輯器進行語法或語義變化,或者檢查數(shù)據(jù)源是否有錯?涉及到其他記錄和數(shù)據(jù)源的限制是十分難查的數(shù)據(jù)準備-擴展性問題已有的數(shù)據(jù)和需要的數(shù)據(jù)均是動態(tài)的目標數(shù)據(jù)質(zhì)量是一個過程經(jīng)常會在分析數(shù)據(jù)是發(fā)現(xiàn)問題修復找到的錯誤會是極耗資源或不可能的容錯保留初始數(shù)據(jù)能夠?qū)⒐ぷ髁鞯碾A段回滾允許以前工作的重用數(shù)據(jù)準備-擴展性問題工作流元數(shù)據(jù)管理現(xiàn)在正在運行什么?自動源捕獲對工作流進行版本編號工作流進度估計必須向下流進程通信工作流單元重用在復合時:常用工作流庫在執(zhí)行時:消除工作流常見任務的冗余數(shù)據(jù)表現(xiàn)數(shù)據(jù)表現(xiàn)概覽圖表單變量雙變量其他圖表的選擇設計的考慮表格圖表顏色活板印刷數(shù)據(jù)表現(xiàn)-例子圖信息圖表格圖表信息窗介紹文檔視頻應用程序數(shù)據(jù)表現(xiàn)

圖數(shù)據(jù)表現(xiàn)

圖數(shù)據(jù)表現(xiàn)

圖數(shù)據(jù)表現(xiàn)

圖數(shù)據(jù)表現(xiàn)

信息圖數(shù)據(jù)表現(xiàn)

信息圖數(shù)據(jù)表現(xiàn)

信息圖數(shù)據(jù)表現(xiàn)

信息圖數(shù)據(jù)表現(xiàn)

表格數(shù)據(jù)表現(xiàn)

圖表數(shù)據(jù)表現(xiàn)

信息窗數(shù)據(jù)表現(xiàn)

信息窗數(shù)據(jù)表現(xiàn)

信息窗數(shù)據(jù)表現(xiàn)

圖像設計的考慮

表格和圖表減少圖表垃圾/表格垃圾;增加數(shù)據(jù)墨水比認知的限制:限制一次展示的物體數(shù)量顏色顏色模式對比、強調(diào)與公司一致6大格式塔原則:接近、相似、圈圍、封閉、連續(xù)、連接(proximity,similarity,enclosure,closure,continuity,connection)數(shù)據(jù)產(chǎn)品不要只關注“思想”你構建了數(shù)據(jù)集你構建了信息窗你構建了實驗平臺其他你可以構建的事搜索廣告定位垃圾檢測內(nèi)容推薦Facebook大數(shù)據(jù)案例潛在的朋友提綱推薦誰?靜態(tài),離線預測動態(tài),在線重排序性能/熱身你可能認識的人前1~2個推薦會直接顯示在Faceboook的主頁上查看所有鏈接會使用戶看到更多的推薦很多的好友都是直接在主頁而不是“查看所有”頁面被添加的‘Xing’某個用戶把某人永遠地從列表里刪除在未來的推薦中取消掉占了Facebook中朋友中的很大一部分內(nèi)容幫助用戶在FB上找到好友推薦已經(jīng)在很多應用中得到了證明Amazon、NetFlix等都有復雜的系統(tǒng)和他們一樣,我們可以通過作出優(yōu)秀的推薦來增加我們對用戶的價值有更多好友的用戶更頻繁地使用網(wǎng)站,從中也得到更多不像那些系統(tǒng)(協(xié)同過濾)我們必須要考慮社交背景好友統(tǒng)計大約每天有兩億的頁面互訪26%直接來自于PYMK的貢獻(點擊PYMK添加鏈接)另外14%是間接引起的新用戶(注冊帳號不超過兩周)每天要連接4千萬28%直接通過PYMK,總共為42%沒有“你可能認識的人”(PYMK)時很多人可能都無法被他人所發(fā)現(xiàn)被從PYMK上移除的新用戶在6周以后會少27%的好友如何推薦大部分的友誼來自于朋友的朋友(FriendofFriend,F-F)以前的工作表明FoF(2跳)的友誼比多余3跳的友誼要多五倍以上FB上92%的新朋友關系從實際的角度來看,做比F-F更深入的工作是不可能的了一般用戶平均有超過130個好友130×130=17KFoFs130^2=2.2MFoFoFs特殊的用戶會有大約5000個好友推薦朋友的朋友問題陳述:給定一個源用戶,找到最佳的朋友的朋友推薦給他挑戰(zhàn):一個典型的用戶會有成百上千的FoFs(平均為40K,有一部分人會達到800K!)哪些特性可以幫助我們從中進行選擇我們?nèi)绾谓Y合網(wǎng)絡和人口特性共同好友

系統(tǒng)概覽系統(tǒng)檢測所有的FoFs產(chǎn)生前100位候選人列表存儲評分并且使用簡便易得的數(shù)據(jù)來預測實時的CTRs候選人被重新排序并且在每次訪問時展示結果被反饋到系統(tǒng)并保留實時模型依賴于輸出分數(shù),并進行在線訓練來保證CTR預測的準確性進行靜態(tài)預測使用傳統(tǒng)機器學習對一個用戶u,考慮所有的FoFsw1,…,wk對每一對(u,wj)生成一系列特性共同好友,很久以前的共同好友,新的共同好友等也結合u和wj各自的特性年齡、性別、國家、總的朋友、在FB的時間等我們使用袋裝決策樹(許多決策樹的平均)訓練集來自于以前的PYMK只訓練“firstimpression”或主頁好友的好友特性兩類特性帶權的共同好友(MFs)實際的MFs、帶時間權重的MFs、有向的MFs、帶強度權的MFs、推遲的MFs個人特點年齡、國家、FB年齡、性別、朋友數(shù)由于用戶平均有40K個FoFs,這些必須在每臺機器上進行冗余備份而不是共享用于預測的最重要特性時間流逝的共同好友源用戶的國籍和FB年齡好友數(shù)目特性選擇首要特性1.時間權重,有向共同好友2.國家(u)某些國家的用戶相比于其他國家的用戶更傾向于使用某些特性3.從u到v的帶權重邊來自于信息訂閱的權重粗略地暗示了聯(lián)系的強度4和5是其他的共同好友權重,其他重要特性是U的度,V的度以及U的年齡巨大的代價用戶平均有40K個FoFs共有超過500M的用戶40K×500M=20T多臺擁有72G內(nèi)存的機器(40臺)每臺機器都存了社交圖的一部分在內(nèi)存中(對單臺機器來說太大了)即便如此,我們至少要在2天中才能算出新的推薦為了保證對新用戶進行最佳的推薦,我們會為他們進行更多的計算推薦生成社交圖被40臺機器所共享包括邊上的注釋:創(chuàng)建時間、方向,權重請求會直接送到有用戶好友列表的機器這臺機器分割好友列表并且向其他機器請求FoFs結果被匯總并排序前100位被返回推薦生成使用了4臺機器的簡單例子4號用戶請求PYMK4號用戶和5,6,7,13,26,31,121等用戶是好友向其他機器請求FoFs(本地的機器也一樣被請求)請求包括去權重(如時間)每個FoF的特征向量被聚集14:2,18,8117:2,53,12123:2,0,0提高效率和內(nèi)存利用率為每個用戶都運行40K個FOFs的決策樹評價是不可能的使用啟發(fā)式方法來縮小范圍通過共同好友特性建立logistic模型來選擇出前1K使用線性時間排N算法來找到截止(不是nlogn排序)僅在前1K上運行完全決策樹算法不想使用網(wǎng)絡來獲得年齡、性別等信息從前1000用戶中選擇出前100只有那些人才能被展示為了保證多樣性,會暫時不推薦已經(jīng)向用戶推薦了4次以上的好友每次都展示最好的推薦為了優(yōu)化推薦,我們在每次推薦以后都再次重排決策模型只能每兩天運行一次他們?yōu)槊總€用戶對(u,wi)輸出一個評分不能為每次推薦進行過多的運算,但是可以適量運算簡單特性在每次推薦的時候都存在(u,wi)的分數(shù),對(u,wi)的推薦次數(shù),U的朋友數(shù),wi的朋友數(shù)將可獲得的信息和評分相結合并通過Logistics模型來進行重排通過Logistics回歸進行重排簡單logistics回歸模型進行CTRs預測的表現(xiàn)良好對某個推薦給定特性F1、F2、F3預測CTR=logistics(C0+C1*F1+C2*F2+…)從兩方面來提高質(zhì)量不要不斷重復某個推薦,展示過往的最佳推薦如果用戶從來都不用PYMK,就停止推薦通過Logistics回歸進行重排簡單logistics回歸模型進行CTRs預測的表現(xiàn)良好對某個推薦給定特性F1、F2、F3預測CTR=logistics(C0+C1*F1+C2*F2+…)從兩方面來提高質(zhì)量不要不斷重復某個推薦,展示過往的最佳推薦如果用戶從來都不用PYMK,就停止推薦實現(xiàn)簡單,很多的軟件可以被用來學習參數(shù)使用用戶歷史數(shù)據(jù)來個個性化推薦能獲得巨大的效果提升機器學習挑戰(zhàn)對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論