聽課筆記 大數(shù)據(jù)概論_第1頁
聽課筆記 大數(shù)據(jù)概論_第2頁
聽課筆記 大數(shù)據(jù)概論_第3頁
聽課筆記 大數(shù)據(jù)概論_第4頁
聽課筆記 大數(shù)據(jù)概論_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

------------------------------------------------------------------------聽課筆記大數(shù)據(jù)概論大數(shù)據(jù)與社會科學(xué)概論劉濤雄大綱大數(shù)據(jù)概論大數(shù)據(jù)的主要技術(shù)手段數(shù)據(jù)分析技術(shù):機(jī)器學(xué)習(xí)概論“大數(shù)據(jù)社會科學(xué)”何為大數(shù)據(jù)?(BigData)特點(diǎn):大。超過常用軟件工具的收集、管理和處理數(shù)據(jù)的能力范圍的數(shù)據(jù)集。但是,也不是簡單地以規(guī)模論大,而是相對的復(fù)雜程度。如果以現(xiàn)在計(jì)算機(jī)的能力:針對簡單查詢(如關(guān)鍵詞查詢),數(shù)據(jù)量為TB或PB是即可稱為大數(shù)據(jù)。針對復(fù)雜查詢(如數(shù)據(jù)挖掘),數(shù)據(jù)量為GB至TB時(shí)即可稱為大數(shù)據(jù)。大數(shù)據(jù)特性:4VVolume:體量巨大Velocity:速度極快Variety:模態(tài)多樣Veracity:真?zhèn)坞y辨無所不在的數(shù)據(jù)生成源:全社會(發(fā)言、網(wǎng)狀結(jié)構(gòu))、網(wǎng)絡(luò)用戶(瀏覽行為、搜索行為)、管理者(發(fā)票、醫(yī)院記錄、交通檢測)、商業(yè)機(jī)構(gòu)(手機(jī)記錄、信用卡記錄、保險(xiǎn)記錄、商場購物記錄)、健康數(shù)據(jù)(電子醫(yī)療設(shè)備記錄、醫(yī)療檢測)、衛(wèi)星信息系統(tǒng)(物聯(lián)網(wǎng))我們都有哪些數(shù)據(jù)?文本信息中文分詞多媒體時(shí)間序列(高頻數(shù)據(jù))空間數(shù)據(jù)網(wǎng)頁數(shù)據(jù)社會網(wǎng)絡(luò)大數(shù)據(jù)與社會科學(xué)第一層次:基于數(shù)據(jù)的知識發(fā)現(xiàn)(KnowledgeDiscoverinDatabase,KDD)有理論假設(shè)的好處:可以節(jié)省信息量,縮小搜尋范圍。當(dāng)數(shù)據(jù)獲取和處理能力足夠強(qiáng),KDD也能體現(xiàn)其優(yōu)勢。例子:HedonometricsandTwitterHowObama’sDataCrunchershelpedhimwin活躍領(lǐng)域:數(shù)據(jù)挖掘(datamining)政治學(xué)、經(jīng)濟(jì)學(xué)、社會學(xué)、心理學(xué)、管理學(xué)如:priceindex預(yù)測(forcasting)和現(xiàn)測(nowcasting)如:對googletrends的利用社會計(jì)算(ComputationalSocialSciences)Computationabout(of)thepeople:如社會情感Computationforthepeople:如信任計(jì)算、風(fēng)險(xiǎn)計(jì)算Computationbythepeople:如主體參與、群體智能大數(shù)據(jù)的主要技術(shù)手段關(guān)鍵技術(shù)Hadoop:分布式管理平臺來自Google的設(shè)計(jì)思想:一個(gè)分布式文件系統(tǒng)和并行執(zhí)行環(huán)境(HDFS和MapReduce)方便用戶處理海量數(shù)據(jù)云計(jì)算機(jī)器學(xué)習(xí)計(jì)算機(jī)針對特定任務(wù)(Tasks)和效果評價(jià)指標(biāo)(PerformanceMeasurement),基于已有經(jīng)驗(yàn)(Experiences),自動地不斷改進(jìn)算法,并隨著E的擴(kuò)大不斷提高對T的執(zhí)行效果(P)T:任務(wù)P:效果評價(jià)E:經(jīng)驗(yàn)集(訓(xùn)練集)訓(xùn)練和預(yù)測最佳預(yù)測:Bias-Variance平衡一般來說,模型越復(fù)雜,變量越多,Bias2越低,但var(f(x))越大所以對于模型選擇,一個(gè)很重要的準(zhǔn)則是降維。大數(shù)據(jù)對社會科學(xué)的機(jī)遇與挑戰(zhàn)機(jī)遇數(shù)據(jù)來源極大拓展獲取信息速度大大加快計(jì)算能力極大增強(qiáng)核心:技術(shù)、數(shù)據(jù)+人挑戰(zhàn)數(shù)據(jù)太多維數(shù)災(zāi)難?數(shù)據(jù)太亂結(jié)構(gòu)化與非結(jié)構(gòu)化生成機(jī)制難掌握(DGP,DataGeneratingProcess)誰是總體?誰在創(chuàng)造數(shù)據(jù)?總體創(chuàng)造數(shù)據(jù)的動機(jī)和行為機(jī)制是什么?官方統(tǒng)計(jì)還有存在必要嗎?結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)社會科學(xué):因果與相關(guān)社會科學(xué)的核心:因果解釋自然科學(xué)與社會科學(xué):可控實(shí)驗(yàn)與自然實(shí)驗(yàn)困難:反向因果與共因變量統(tǒng)計(jì)學(xué):從相關(guān)到因果大數(shù)據(jù):相關(guān)易于因果,相關(guān)重于因果?大數(shù)據(jù)對研究還有意義嗎?大數(shù)據(jù)同樣會促進(jìn)“因果解釋”社會科學(xué)的研究范式:假設(shè)檢驗(yàn)(演繹法)大數(shù)據(jù):尋找相關(guān)(歸納法)信息增加與避免錯(cuò)誤因果政策:預(yù)測與因果我們是不是過于重視“因果”?關(guān)鍵:數(shù)據(jù)生成機(jī)制是否穩(wěn)定?兩類政策問題:“降雨術(shù)問題”與“雨傘”問題降雨術(shù):因果(干預(yù)問題)雨傘:預(yù)測(對策問題)但任何一個(gè)政策措施,其影響可能是十分復(fù)雜的,有能被解釋的部分也有不能被解釋的部分?;ヂ?lián)網(wǎng)金融簡介對中國的貢獻(xiàn)征信財(cái)富管理P2P大數(shù)據(jù)要和先進(jìn)的方法一起使用一、傳統(tǒng)金融業(yè)務(wù)傳統(tǒng)方式(支付、個(gè)人理財(cái))放在互聯(lián)網(wǎng)上支付二、互聯(lián)網(wǎng)和金融的化學(xué)反應(yīng)、支付體系互聯(lián)網(wǎng)征信P2P貸款眾籌網(wǎng)絡(luò)虛擬支付功能0.5%費(fèi)率資源分配投融資渠道不暢,超過30%中國人儲蓄率在20%以上征信的分類資產(chǎn)(個(gè)人企業(yè))是否誠信(個(gè)人)中國征信市場的現(xiàn)狀人民銀行的征信系統(tǒng)有8億數(shù)據(jù)(活躍的有3億)25%的人有征信數(shù)據(jù)美國有70%的人電商有個(gè)人消費(fèi)數(shù)據(jù)(大概有3億)征信與消費(fèi)的結(jié)合租車4W+1H5P5C+1S支付數(shù)據(jù)——財(cái)務(wù)關(guān)系消費(fèi)數(shù)據(jù)——消費(fèi)習(xí)慣金融數(shù)據(jù)——信用記錄社交數(shù)據(jù)——個(gè)人特征行為數(shù)據(jù)——P2P點(diǎn)對點(diǎn)線上獲取信息和資金流程:獲取借貸列表和信用審核信貸審核:實(shí)地審核線上項(xiàng)目審核系統(tǒng)確定借款利率固定利率按融資期限長短和信用等級確定利率確定擔(dān)保模式:共同體眾籌類型(按回報(bào)劃分)捐贈眾籌(共)產(chǎn)品眾籌(共)股權(quán)眾籌(權(quán)益)債權(quán)眾籌(權(quán)益)私的含義:小眾大額非公開宣傳持有人不能超過200人針對高端人群眾包把復(fù)雜的任務(wù)以自由自愿的形式外包給非特定的大眾網(wǎng)絡(luò)的做法模式利用空閑時(shí)間靠大眾力量之Rm(“A“)清除Ls()顯示出Vector一位cMatrix二位Arraym*n*q*p一種類型儲存ListVectorMatrix二位Array8月25日社會網(wǎng)絡(luò)分析鄭路1、概要網(wǎng)絡(luò)是指物體節(jié)點(diǎn)和物體之間的連線所組成的集合。節(jié)點(diǎn):行動者:個(gè)人、作為單元互動結(jié)構(gòu)的網(wǎng)絡(luò)網(wǎng)絡(luò)研究看成是一切互動形式的研究信息傳遞網(wǎng)站鏈接信息交換貿(mào)易信用與資金流動友誼信任網(wǎng)絡(luò)分析的隱含前提比起節(jié)點(diǎn)自身的屬性,節(jié)點(diǎn)之間的關(guān)系對行為的影響更甚。買東西的決定受周圍人際關(guān)系的影響朋友的朋友對你的心里趨向有影響某一節(jié)點(diǎn)的行為不僅與直接相聯(lián)的連帶有關(guān),也會受到整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)連結(jié)模式的影響。從關(guān)注:“個(gè)體特征”到關(guān)注“關(guān)系”現(xiàn)在營銷分析關(guān)注社交網(wǎng)絡(luò),微信的股價(jià)是600億,2015年賺了18億美元,小群體分析:社會思潮分析:美國選民的政治空間兩極化。網(wǎng)絡(luò)與政治觀點(diǎn)的關(guān)系?國際貿(mào)易與國際關(guān)系城市興起莫斯科為什么成為首都熱麗亞為什么成為政治、經(jīng)濟(jì)、文化中心與地理位置有關(guān),陸陸與水陸,水陸更重要新潮事物的擴(kuò)散傳染病的傳播黑色節(jié)點(diǎn)臨床確定人生物性與社會性的傳播?被動與主動社會沒有時(shí)空限制、生物傳播很少出現(xiàn)病原體變異,但是社會性會變異八卦謠言。也可以由于某一因素突然變得活躍傳播,北京折疊。社會網(wǎng)絡(luò)與健康——孤獨(dú)感Facebook2、網(wǎng)絡(luò)概念化與測量距離:連結(jié)兩個(gè)節(jié)點(diǎn)的最短路徑的長度。連帶強(qiáng)度:結(jié)構(gòu)洞:小世界現(xiàn)象:聯(lián)系在觀測的一個(gè)月,兩個(gè)用戶至少發(fā)生過一次對話。三度影響力原則我們被影響并影響著相距“三度”的人?你朋友的朋友的朋友如何影響你的感受、思考和行為……傳染:什么可以在連結(jié)中傳遞?(病菌、金錢、暴力、時(shí)尚、捐獻(xiàn)器官、感受快樂、發(fā)胖)是人以群分還是人際影響人們選擇與他們類似的人產(chǎn)生社會交往(或交朋友),還是會調(diào)適自己的行為,使自己和朋友們更像。人行道實(shí)驗(yàn)連帶強(qiáng)度:強(qiáng)關(guān)系:家庭成員與親密朋友弱關(guān)系:熟人和“泛泛之交”的朋友結(jié)構(gòu)洞:兩個(gè)網(wǎng)絡(luò)群體的節(jié)點(diǎn)間無直接關(guān)系或關(guān)系間斷的現(xiàn)象,從網(wǎng)絡(luò)整體來看,晉升、加薪的機(jī)會文本數(shù)據(jù)挖掘與分析一、社會科學(xué)中的文本分析文本不是主流文本資料難獲取花時(shí)間難推廣:文革與現(xiàn)在難管理:文本難以管理、儲存?難分析:coding文本分析繁榮的條件逐步具備:大規(guī)模文本數(shù)據(jù)采集儲存和管理能力增強(qiáng)文本分析方法蓬勃發(fā)展:可推廣、系統(tǒng)化和廉價(jià)化文本資料指數(shù)級增長通過文本表達(dá)的社會意義更廣泛文本分析師收集數(shù)據(jù)的方法論:研究者采集

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論