



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、首先,附上百度業(yè)務運營部_數(shù)據(jù)分析師(產品運營)崗位的招聘詳情: 業(yè)務運營部_數(shù)據(jù)分析師(產品運營)所屬部門: 百度 工作地點: 北京市 招聘人數(shù): 若干公 司: 百度 職位類別: 產品 發(fā)布時間: 2016-04-11工作職責:-對百度重點行業(yè)的行業(yè)現(xiàn)狀、核心企業(yè)、市場動態(tài)、發(fā)展趨勢、互聯(lián)網(wǎng)營銷推廣等做深入分析,形成數(shù)據(jù)研究報告 -解讀分析報告,并根據(jù)分
2、析結論,與運營一起商討運營策略 -運用數(shù)據(jù)分析手段,對百度的客戶行業(yè)和屬性形成自己的分類方式職責要求:-大三或者研一、研二在校生,數(shù)學、計算機或者統(tǒng)計學專業(yè),對行業(yè)市場有一定的了解-理解統(tǒng)計學和數(shù)據(jù)挖掘算法原理,了解數(shù)據(jù)倉庫思想,會寫SQL,熟悉spss、sas,R等數(shù)據(jù)挖掘軟件之一-熟練使用EXCEL,能夠處理大量的數(shù)據(jù)-了解決策樹、聚類、邏輯回歸,關聯(lián)分析、SVM,貝葉斯等數(shù)據(jù)挖掘算法-能夠保證每周至少四個工作日的實習時間 重點解析這個崗位中職責要求里的重點技術要求:-理解統(tǒng)計學和數(shù)據(jù)挖掘算法原理,了解數(shù)據(jù)倉庫思想,會寫SQL,熟悉spss、sas,R等數(shù)據(jù)挖掘軟件之一
3、-熟練使用EXCEL,能夠處理大量的數(shù)據(jù)-了解決策樹、聚類、邏輯回歸,關聯(lián)分析、SVM,貝葉斯等數(shù)據(jù)挖掘算法 提取其中的關鍵詞:統(tǒng)計學、數(shù)據(jù)挖掘算法、數(shù)據(jù)倉庫、SQL、SPSS、SAS、R、excel、決策樹、聚類、邏輯回歸、關聯(lián)分析、SVM、貝葉斯,然后大致的分類:一、 數(shù)據(jù)挖掘算法:(百科:)數(shù)據(jù)挖掘:是數(shù)據(jù)庫知識發(fā)現(xiàn)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。數(shù)據(jù)挖掘算法:是根據(jù)
4、數(shù)據(jù)創(chuàng)建數(shù)據(jù)挖掘模型的一組試探法和計算。為了創(chuàng)建模型,算法將首先分析您提供的數(shù)據(jù),并查找特定類型的模式和趨勢。算法使用此分析的結果來定義用于創(chuàng)建挖掘模型的最佳參數(shù)。然后,這些參數(shù)應用于整個數(shù)據(jù)集,以便提取可行模式和詳細統(tǒng)計信息。數(shù)據(jù)挖掘十大算法概念補充:決策樹算法:決策樹(Decision Tree)是在已知各種情況發(fā)生概率的基礎上,通過構成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風險,判斷其可行性的決策分析方法。所分析的數(shù)據(jù)樣本是集成為一個樹根,經(jīng)過層層分枝,最終形成若干個節(jié)點,每個節(jié)點代表一個結論。聚類:將觀察對象的群體按照相似性和相異性進行不同群組的劃分。聚類分析的算法有:劃
5、分的方法(K-means)、層次的方法(依次讓最相似的數(shù)據(jù)對象兩兩合并)、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法。1)C4.5(分類算法)C4.5是一個決策樹算法,它是決策樹核心算法ID3的改進算法。決策樹構造方法就是每次選擇一個好的特征以及分裂點作為當前節(jié)點的分類條件。ID3以信息熵和信息增益度為衡量的標準,從而實現(xiàn)對數(shù)據(jù)的歸納分類。ID3計算每個屬性的信息增益,并選取具有最高增益的屬性作為給定的測試屬性。C4.5克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足。在樹構造過程中進行剪枝,在構造決策樹的時候,對于那些掛著幾個元素的節(jié)點,干脆不考慮最好,不然很容易導致overfitt
6、ing。對非離散數(shù)據(jù)都能處理,這個其實就是一個個式,看對于連續(xù)型的值在哪里分裂好。也就是把連續(xù)性的數(shù)據(jù)轉化為離散的值進行處理。能夠對不完整數(shù)據(jù)進行處理,尋找一個代替數(shù)據(jù)來填充。C4.5算法優(yōu)點:產生的分類易于理解,準確率高; 缺點:a)構造樹過程中,需對數(shù)據(jù)集進行多次的順序掃描和排序,導致算法低效; b)只適合于能夠駐留于內存的數(shù)據(jù)集,當數(shù)據(jù)集大得無法再內存中容納時,程序無法運行。2)CART(Classification and Regression Tree,分類與回歸樹)(分類算法)CART也是一種決策樹算法,著眼于總體優(yōu)化。相對于那些實現(xiàn)一個節(jié)點下面有多個子樹的多元分類,CART只是分
7、類兩個子樹,這樣實現(xiàn)起來稍稍簡便些。所以說CART算法生成的決策樹是結構簡潔的二叉樹。3)KNN(K Nearest Neighbours,K最鄰近) (分類算法)從訓練樣本中找出K個與其最相近的樣本,是Top-K個訓練樣本出來,看這K個樣本中哪個類別的多些,則待判定的值(或:抽樣)就屬于這個類別。缺點:a)K值需要預先設定,不能自適應;b)當樣本不平衡時,如某個類的樣本容量很大,而其他類樣本量小時,可能導致輸入的新樣本的K個鄰居中大容量的樣本占多數(shù)。該算法適用于樣本容量較大的類域進行自動分類。4)Naive Bayes(樸素貝葉斯NB) (分類算法)是基于貝葉斯定理和特征條件獨立假設的分類方
8、法。它的基礎是概率問題。分類原理:通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即:該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類。5)Support Vector Machine(支持向量機SVM) (統(tǒng)計學習算法) SVM是基于分類邊界的方法。就是想找一個分類得最”好”的分類線/分類面(最近的一些兩類樣本到這個”線”的距離最遠),將空間中的點按其分類聚集在不同的區(qū)域。常用的工具包是LibSVM、SVMLight、MySVM。原理:將低維空間的點映射到高維空間,使它們成為線性可分,再使用線性劃分原理來判斷分類邊界。6)EM(期望最大化) (統(tǒng)計學習算法)基于模型的
9、聚類方法,在概率模型中尋找參數(shù)最大似然估計的算法,其中概率模型依賴于無法觀測的隱藏變量。例如:假設數(shù)據(jù)是由幾個高斯分布組成的,所以最后就是要求幾個高斯分布的參數(shù)。通過先假設幾個值,然后通過反復迭代,以期望得到最好的擬合。優(yōu)點:計算結果穩(wěn)定、準確;缺點:計算復雜、收斂慢,不適合大規(guī)模計算。7)Apriori(關聯(lián)分析)一種挖掘關聯(lián)規(guī)則的算法,用于挖掘其內含的、未知的卻又實際存在的數(shù)據(jù)關系。不知道為什么,一提高關聯(lián)規(guī)則我就想到購物籃數(shù)據(jù)。核心:基于兩階段頻集思想的遞推算法。兩個階段:a)尋找頻繁項集;(支持度) b)由頻繁項集找出關聯(lián)規(guī)則。(可信度)缺點:a)在每一步產生候選項集時,循環(huán)產生的組合
10、過多,沒有排除不應參與組合的元素; b)每次計算項集的支持度時,都對數(shù)據(jù)庫的全部記錄進行了一遍掃描比較,需要很大的I/O負載。8)PageRank(數(shù)據(jù)挖掘)是GOOGLE的頁面排序算法,基于從許多優(yōu)質的網(wǎng)頁鏈接過來的網(wǎng)頁,必定是優(yōu)質網(wǎng)頁的回歸關系,來判定網(wǎng)頁的重要性。例如:如果我指向你(網(wǎng)頁間的連接)則表示我承認你,則在計算你的重要性的時候可以加上我的一部分重要性(到底多少,要看我自己有多少和我共承認多少個人)。通過反復這樣來,可以求的一個穩(wěn)定的衡量各個人(網(wǎng)頁)重要性的值。不過這里必須要做些限制(一個人的開始默認重要性都是1),不然那些值會越來越大越來越大。優(yōu)點:完全獨立于查詢,只依賴于網(wǎng)
11、頁鏈接結構,可離線計算;缺點:a)忽略了網(wǎng)頁搜索的時效性; b)舊網(wǎng)頁的排序高、存在時間長,積累了大量的in-links,擁有新資訊的新網(wǎng)頁排名第,幾乎無in-links。9)K-Means(聚類)K-Means是一種最經(jīng)典也是使用最廣泛的聚類方法,時至今日扔然有很多基于其的改進模型提出。K-Means的思想很簡單,對于一個聚類任務,首先隨機選擇K個簇中心,然后反復計算下面的過程直到所有簇中心不改變(簇集合不改變)為止:步驟1:對于每個對象,計算其與每個簇中心的相似度,把其歸入與其最相似的那個簇中。步驟2:更新簇中心,新的簇中心通過計算所有屬于該簇的對象的平均值得到。k-means 算法的工作
12、過程說明如下:首先從n個數(shù)據(jù)對象任意選擇k 個對象作為初始聚類中心;而對于所剩下其它對象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數(shù)開始收斂為止。一般都采用均方差作為標準測度函數(shù). k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。10)AdaBoost(袋裝與分類)AdaBoost做分類的一般知道,它是一種boosting方法。這個不能說是一種算法,應該是一種方法,因為它可以建立在任何一種分類算法上,可以是決策樹,NB,SVM等。Adaboost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然后把這些
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年計算機WPS考試深度分析試題及答案
- 一級Photoshop考試復習方法大全試題及答案
- 深入學習VB考試內容的試題及答案
- 增強信心的2025年稅法考試試題及答案
- 現(xiàn)代漢語考試中的語法題試題及答案
- 2025年計算機一級MSPowerPoint互動性試題及答案
- Msoffice核心技能試題及答案
- 辦公軟件文檔創(chuàng)作的實戰(zhàn)技巧試題及答案
- 文學社群對創(chuàng)作的推動試題及答案
- 解密MS Office中的小技巧試題及答案
- 大學生勞動就業(yè)法律問題解讀(華東理工大學)智慧樹知到見面課、章節(jié)測試、期末考試答案
- 浙江省杭州市2024年中考英語真題(含答案)
- 《陸上風電場工程設計概算編制規(guī)定及費用標準》(NB-T 31011-2019)
- 天文學導論知到章節(jié)答案智慧樹2023年中國科學技術大學
- 網(wǎng)店運營與管理課件
- 餐飲店運營方案完整篇
- 知識產權保護對珠三角生產性服務業(yè)集聚的影響研究
- 古河鉆機HCR1200構造說明中文
- 電力管道試通記錄表
- 消化呼吸循環(huán)泌尿
- 年產15萬噸優(yōu)質鑄造生鐵、球墨鑄鐵試運行方案.
評論
0/150
提交評論