版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、哥倫比亞大學(xué)數(shù)據(jù)科學(xué)課程筆記2014-06-11 大數(shù)據(jù)文摘DataOataDi IA日坤Gusirwssperscn Creative EngineerR&searcherBig DataMathProgram mi ng Li _:商業(yè)板塊機(jī)器學(xué)習(xí)&大數(shù)抿領(lǐng)如數(shù)學(xué)編統(tǒng)卄學(xué)點(diǎn)擊標(biāo)題下大數(shù)據(jù)文摘可快捷關(guān)注翻譯哥大數(shù)據(jù)科學(xué)筆記系列是我們新的嘗試,我們?cè)敢鈱⒆钕冗M(jìn)、最鮮活的知識(shí)帶個(gè)大家, 如果您喜歡這篇文章,請(qǐng)給我們留言、幫我們宣傳,這是我們繼續(xù)翻譯的動(dòng)力,當(dāng)然,如果 您有任何意見建議,也請(qǐng)給我們留言,謝謝。大數(shù)據(jù)文摘翻譯:yaweixia,楊云帆;編校:甄艾莊(轉(zhuǎn)載請(qǐng)保留) 課程:哥倫比亞大學(xué)數(shù)
2、據(jù)科學(xué)課程講師: Rachel Schutt 教授整理聽課記錄如下第一周:什么是數(shù)據(jù)科學(xué)?課程大綱Rachel Schutt 教授以梳理課程大綱開始,下面是她主要的摘要:、 課程需要的基礎(chǔ)知識(shí)有:線性代數(shù),基礎(chǔ)統(tǒng)計(jì)學(xué),以及一些編程課程。、 課程目標(biāo):學(xué)習(xí)數(shù)據(jù)科學(xué)家都做些什么,并學(xué)會(huì)做其中的一些事兒。、 Rachel 主講幾個(gè)禮拜的課,然后會(huì)有客席講座。、 客座教授的簡歷跨度非常大,他們的背景也是如此。但他們都是數(shù)據(jù)科學(xué)家。、 我們將有豐富的閱讀材料 :做一名數(shù)據(jù)科學(xué)家的一種能力就是認(rèn)識(shí)到許多還未記錄下來 的東西。、 差不多每兩周一次家庭作業(yè),共6-10 次。、 畢業(yè)設(shè)計(jì)將會(huì)是一次內(nèi)部 Kagg
3、le 比賽。這是一次團(tuán)隊(duì)作業(yè)。、 此外還會(huì)有一次課堂期末考試。9、我們將會(huì)使用 R和python語言,主要是R。可以下載RStudio,主要是輔助R。10 、如果你只對(duì) hadoop 分布式計(jì)算和運(yùn)算大數(shù)據(jù)有興趣, 請(qǐng)你選擇 Bill Howe 的 Coursera 課程。我們會(huì)涉及到大數(shù)據(jù),但是只在課程的最后部分。數(shù)據(jù)科學(xué)的現(xiàn)狀 那么,什么是數(shù)據(jù)科學(xué)?數(shù)據(jù)科學(xué)是新的領(lǐng)域嗎?是真實(shí)的嗎?到底是什么?大家一直在討論這個(gè)話題, 但是 MichaelDriscoll 的答案非常好: 數(shù)據(jù)科學(xué),因?yàn)樗膶?shí)踐, 是一門紅牛飲料驅(qū)動(dòng)的黑客行為和濃縮咖啡激發(fā)靈感的統(tǒng)計(jì)學(xué)的融合 。但是數(shù)據(jù)科學(xué)不僅僅是一次黑客
4、行為,因?yàn)楫?dāng)黑客們寫成一行 Bash語言(Linux腳本程序)和 Pig 程序( MapReduce 使用的高級(jí)編程語言) 時(shí), 很少再會(huì)有黑客在乎非歐幾里得的距 離度量。數(shù)據(jù)科學(xué)也不僅僅是統(tǒng)計(jì)學(xué) ,因?yàn)楫?dāng)統(tǒng)計(jì)學(xué)家從理論上完成最佳模式的推理, 很少人會(huì)將 A delimited 文件再轉(zhuǎn)化到 R 語言,即時(shí)他們的工作需要這個(gè)。數(shù)據(jù)科學(xué)是數(shù)據(jù)的土木工程 。它的用處在于將工具與材料的實(shí)務(wù)知識(shí),與“什么是可能的” 理論理解相結(jié)合。Discroll 也參考了 Drew Conway2010 年的數(shù)據(jù)科學(xué)的維恩圖解 VennDiagram 讓我們也來看下 2009 年 Nathan Yau 在崛起的數(shù)據(jù)
5、科學(xué)家 ( Rise of theData Scientist, 2009) 中提到的 “數(shù)據(jù)極客的性感技巧 ”:1、統(tǒng)計(jì)學(xué)-你習(xí)慣性想到的傳統(tǒng)分析、對(duì)數(shù)據(jù)進(jìn)行不必要的改動(dòng) - 解析,抹去和格式化數(shù)據(jù)、視覺化 - 圖表,工具等別急,數(shù)據(jù)科學(xué)是一口袋騙局嗎?或只是其他領(lǐng)域, 如統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的合乎邏輯的延伸? 讓我們?cè)賮砜纯?ASA 主席 Nancy Geller 在 2011 年 Amstat 新聞期刊上發(fā)表的文章別丟 棄統(tǒng)計(jì)S字眼兒(Don t Shunthe S Word, 20,其中她為統(tǒng)計(jì)學(xué)在數(shù)據(jù)科學(xué)中的作用進(jìn) 行了辯護(hù)??梢钥隙ǖ氖?, 在數(shù)據(jù)科學(xué)領(lǐng)域, 沒有人能提供給你一份干凈的數(shù)據(jù)
6、庫, 也沒有人告訴你用 什么數(shù)據(jù)處理方法。此外, 數(shù)據(jù)科學(xué)的發(fā)展領(lǐng)域是在工業(yè)界,而非學(xué)術(shù)領(lǐng)域。2011 年, DJ Patil 描述了他是如何在 2008 年與 Jeff Hammerbacher 共同創(chuàng)造了“ 數(shù)據(jù) 科學(xué)家 ”這個(gè)詞。然而早在 2001 年, William Cleveland 就寫了一篇有關(guān) 數(shù)據(jù)科學(xué) 的學(xué)術(shù)論文。這么說來,數(shù)據(jù)科學(xué)的誕生早于數(shù)據(jù)科學(xué)家?這是個(gè)文字游戲嗎?這要究竟怎樣理解呢? 由此引發(fā)了下列問題, 該如何通過數(shù)據(jù)科學(xué)家的職責(zé)來定義數(shù)據(jù)科學(xué)?由誰來下定義? 這中 間有許多含糊其辭, 是否該由媒體來定義?還是由從業(yè)人員說了算, 抑或是自詡的數(shù)據(jù)科學(xué) 家們?究竟是
7、否已有一個(gè)權(quán)威了呢?讓我們還是給這些問題留一定余地吧。哥倫比亞大學(xué)決定借由布隆伯格 (彭博商業(yè)媒體主席,前紐約市長)的支援, 建立數(shù)據(jù)科學(xué) 與工程學(xué)院 ColumbiaInstitute for Data Sciences and Engineering。這次舉措還引發(fā)了一個(gè)問題,為什么信息發(fā)布現(xiàn)場(chǎng)還有一位化學(xué)家呢?上一次我查看紐約數(shù)據(jù)科學(xué)家招聘職位 時(shí)有 465 個(gè)職位空缺, 這是相當(dāng)大的數(shù)量。 所以即使數(shù)據(jù)科學(xué)還不能被稱之為真正的領(lǐng)域, 至少它提供真實(shí)的工作崗位。同時(shí)還須注意到,對(duì)數(shù)據(jù)科學(xué)家工作崗位的描述中都有對(duì)計(jì)算機(jī)科學(xué)、 統(tǒng)計(jì)學(xué)、傳播學(xué)、數(shù) 據(jù)可視化和一些其他專業(yè)領(lǐng)域精通的要求。 沒有
8、人是全能專家, 這正是 組建一支由不同背景 和各個(gè)領(lǐng)域?qū)I(yè)人才的團(tuán)隊(duì) 的重要性。作為一支團(tuán)隊(duì),就可以精通任何領(lǐng)域了。面是一些數(shù)據(jù)行業(yè)生態(tài)系統(tǒng)中的重要成員:O Reilly 與他的 Strata 會(huì)議DatakindMeetup GroupsUnion Square Ventures 等風(fēng)險(xiǎn)投資正往諸多數(shù)據(jù)科學(xué)創(chuàng)業(yè)公司投入資金Kaggle 定期舉辦數(shù)據(jù)科學(xué)大學(xué)哥倫比亞大學(xué)應(yīng)用數(shù)學(xué)教授 Chris Wiggins, 為技術(shù)專長本科生與紐約創(chuàng)業(yè)企業(yè)間建立了系統(tǒng)的暑期實(shí)習(xí)項(xiàng)目 HackNY注:維基百科直至2012年才創(chuàng)建了“數(shù)據(jù)科學(xué)”詞條。更說明了這是一個(gè)新的術(shù)語,也或 許是一門新的學(xué)科。如何開展一項(xiàng)
9、數(shù)據(jù)類的項(xiàng)目?假設(shè)你要為某個(gè)網(wǎng)站做一個(gè)網(wǎng)絡(luò)產(chǎn)品,需要跟蹤分析用戶的行為。 你可以順著以下這個(gè)思路來考慮這個(gè)問題:用戶與產(chǎn)品互動(dòng)產(chǎn)品的前臺(tái)和后臺(tái)用戶產(chǎn)生的操作:點(diǎn)擊等這些操作都會(huì)被記錄下來時(shí)間會(huì)被記錄;用戶使用產(chǎn)品的所有關(guān)鍵操作都會(huì)被記錄記錄的原始數(shù)據(jù)經(jīng)過改寫、整合、映射化簡等處理最后處理得到大量的優(yōu)質(zhì)數(shù)據(jù)這些數(shù)據(jù)是通過用戶鍵入、播放(諸如Pandora這樣的線上播放系統(tǒng))或者任何可能的方式被收集到的收集到的數(shù)據(jù)將被分析,建模等等最終的分析結(jié)果能給我們一個(gè)全新的視角來理解用戶行為新見解又會(huì)被反饋到產(chǎn)品上去要系統(tǒng)地改變用戶與產(chǎn)品的關(guān)系,我們決定先測(cè)試用戶與產(chǎn)品的互動(dòng)。這一點(diǎn)已經(jīng)將傳統(tǒng)的數(shù)據(jù)分析員和
10、數(shù)據(jù)科學(xué)家的工作區(qū)分開來了,數(shù)據(jù)分析員只負(fù)責(zé)分析客戶消費(fèi)的可能性,重新定位用戶群,但不會(huì)改變產(chǎn)品本身。數(shù)據(jù)科學(xué)家還需向總經(jīng)理或者產(chǎn)品總設(shè)計(jì)師匯報(bào)他們觀察到的客戶情況,比如客戶體驗(yàn)和客戶行為習(xí)慣,這就需要他們具有溝通匯報(bào),數(shù)據(jù)可視化和“講故事”的能力。數(shù)據(jù)科學(xué) 家的本職工作就是圍繞產(chǎn)品“講故事”。有時(shí)你必須從網(wǎng)頁上抓取輔助信息,因?yàn)橄嚓P(guān)信息可能會(huì)被遺漏記載,或者還有可能因?yàn)椴皇怯脩舯救水a(chǎn)生的沒有被記載。描述你自己Rachel 分發(fā)了評(píng)分參考卡讓他們對(duì)自己的技能等級(jí)(從相對(duì)級(jí)別而非絕對(duì)級(jí)別)從以下幾 個(gè)方面進(jìn)行描述: 軟件工程, 數(shù)學(xué), 數(shù)據(jù)統(tǒng)計(jì), 機(jī)器學(xué)習(xí), 專業(yè)知識(shí),語言交流與口頭匯報(bào)能力,以
11、及數(shù)據(jù)可視化。 然后我們將這些評(píng)分參 考卡收集起來看看大家眼中的自己是怎么樣的。 非常有趣的是, 雖然 他們當(dāng)中大多數(shù)人都是來自社會(huì)科學(xué)專業(yè)的,但是結(jié)果卻有相當(dāng)大的差異。同時(shí), 由于沒有一個(gè)人擅長所有事情, 所以當(dāng)數(shù)據(jù)科學(xué)小組內(nèi)不同的人擁有不同的技能 (前 面所描述的)的時(shí)候,這個(gè)小組往往能運(yùn)轉(zhuǎn)十分順利。這讓我開始考慮把它定義為一個(gè) “ 數(shù) 據(jù)科學(xué)小組 ” 是不是會(huì)更貼切,而非一個(gè)數(shù)據(jù)科學(xué)家。思考問題:我們能用數(shù)據(jù)技術(shù)來定義數(shù)據(jù)科學(xué)嗎? 我們分了若干小組來討論這個(gè)問題,下面是其中一些觀點(diǎn): 可以:比如谷歌搜索的數(shù)據(jù)技術(shù)以及其執(zhí)行的文本挖掘模型 但是等等,這個(gè)取決于就語言而言,你是一個(gè)使用者而非處方者。我們可以讓大眾 來定義數(shù)據(jù)科學(xué)嗎(這兒 “大眾 ”指的是谷歌搜索引擎找到的一切東西)?或者說我們 可以找一個(gè)比較有權(quán)威的參考嗎?比如牛津英語詞典。事實(shí)上牛津英語詞典或許目前根本還沒有相關(guān)條目,然后我們也沒有時(shí)間去等待它 收錄此條目。我們不妨接受這樣一種現(xiàn)象, 有一種既不被權(quán)威參考所認(rèn)同也不被 “大眾 ” 所接受的范圍。我們不妨再來看看那些操作領(lǐng)域的數(shù)據(jù)科學(xué)家?看看他們?cè)鯓用枋鏊麄兯龅氖?(或許對(duì)初學(xué)者來說是模糊的) ,然后看看那些被稱之為統(tǒng)計(jì)學(xué)家, 物理學(xué)家或者經(jīng)濟(jì)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 合租房屋合同樣本
- 設(shè)計(jì)委托協(xié)議書模板
- 培訓(xùn)服務(wù)期協(xié)議范本
- 院校與企業(yè)人才共育協(xié)議
- 出口合同:肉禽類代理
- 二手汽車轉(zhuǎn)讓協(xié)議合同
- 的自來水管理承包合同范文2024年
- 工程公司集體協(xié)議范本
- 2024年基因合同模板
- 2024年員工工作協(xié)議書
- 《傳感器原理及應(yīng)用》全套教學(xué)課件
- 文物與博物館學(xué)課件
- 短暫性腦缺血發(fā)作培訓(xùn)課件
- 新版統(tǒng)編版三年級(jí)上冊(cè)語文《大自然的聲音》課件(第二課時(shí))
- 首件驗(yàn)收?qǐng)?bào)驗(yàn)表
- 小學(xué)科學(xué)教育科學(xué)三年級(jí)上冊(cè)空氣《風(fēng)的成因》教案
- 四年級(jí)上冊(cè)數(shù)學(xué)課件 《平行與垂直》 人教版(共11張PPT)
- 出砂機(jī)理及防砂
- 奧托尼克斯計(jì)米器使用說明書
- GB∕T 15972.10-2021 光纖試驗(yàn)方法規(guī)范 第10部分:測(cè)量方法和試驗(yàn)程序 總則
- 第5課《食物中的營養(yǎng)》教學(xué)設(shè)計(jì)(教科版小學(xué)四年級(jí)上冊(cè)科學(xué)第一單元)
評(píng)論
0/150
提交評(píng)論