大數據常用算法清單_第1頁
大數據常用算法清單_第2頁
大數據常用算法清單_第3頁
大數據常用算法清單_第4頁
大數據常用算法清單_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

目錄TOC\o"1-5"\h\z\o"CurrentDocument"大數據經典算法 2\o"CurrentDocument"一、C4.5 2\o"CurrentDocument"二、 K-Means算法 2三、 支持向量機 2\o"CurrentDocument"四、 TheApriorialgorithm 2五、 最大期望(EM)算法 2\o"CurrentDocument"六、 PageRank 3\o"CurrentDocument"七、 AdaBoost 3\o"CurrentDocument"八、 kNN:k-nearestneighborclassificatio.n 3\o"CurrentDocument"九、 NaiveBayes 3十、CART:分類與回歸樹 3十一、mahout算法集 4大數據經典算法一、C4.5C4.5,是機器學習算法中的一個分類決策樹算法,二、 K-Means算法k-meansalgorithm算法是一個聚類算法,把n的對象根據他們的屬性分為k個分割(k<n)。它與處理混合正態(tài)分布的最大期望算法(本十大算法第五條)很相似,因為他們都試圖找到數據中自然聚類的中心。它假設對象屬性來自于空間向量,并且目標是使各個群組內部的均方誤差總和最小。三、 支持向量機支持向量機,它是一種監(jiān)督式學習的方法,它廣泛的應用于統(tǒng)計分類以及回歸分析中。支持向量機將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。四、 TheApriorialgorithmApriori算法是一種最有影響的挖掘布爾關聯(lián)規(guī)則頻繁項集的算法。五、最大期望(EM)算法在統(tǒng)計計算中,最大期望(EM,Expectation-Maximization)算法是在概率(probabilistic)模型中尋找參數最大似然估計的算法,其中概率模型依賴于無法觀測的隱藏變量( LatentDataClustering)領域。VariablDataClustering)領域。六、 PageRankPageRank是Google算法的重要內容。這個就是所謂的“鏈接流行度”——衡量多少人愿意將他們的網站和你的網站掛鉤。PageRank這個概念引自學術中一篇論文的被引述的頻度——即被別人引述的次數越多,一般判斷這篇論文的權威性就越高。七、 AdaBoostAdaboost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器 (弱分類器),然后把這些弱分類器集合起來,構成一個更強的最終分類器 (強分類器)。其算法本身是通過改變數據分布來實現(xiàn)的,它根據每次訓練集之中每個樣本的分類是否正確,八、 kNN:k-nearestneighborclassificationK最近鄰(k-NearestNeighbor,KNN)分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學習算法之一。該方法的思路是:如果一個樣本在特征空間中的 k個最相似(即特征空間中最鄰近)的樣本中的多數屬于某一個類別,則該樣本也屬于這個類別。九、 NaiveBayes在眾多的分類模型中,應用最為廣泛的兩種分類模型是決策樹模型 (DecisionTreeModel)和樸素貝葉斯模型(NaiveBayesianModel,NBC)。十、CART:分類與回歸樹CART,ClassificationandRegressionTrees在分類樹下面有兩個關鍵的思想:第一個是關于遞歸地劃分自變量空間的想法;第二個想法是用驗證數據進行剪枝。

mahout算法集算法類算法名中文名分類算法LogisticRegression邏輯回歸Bayesian貝葉斯SupportVectorMachines支持向量機PerceptronandWinnow感知器算法NeuralNetwork神經網絡RandomForests隨機森林RestrictedBoltzmannMachines有限波爾茲曼機聚類算法CanopyClusteringCanopy聚類K-MeansClusteringK均值算法FuzzyK-Means模糊K均值ExpectationMaximizationEM聚類(期望最大化聚類)MeanShiftClustering均值漂移聚類HierarchicalClustering層次聚類DirichletProcessClustering狄里克雷過程聚類LatentDirichletAllocationLDA聚類SpectralClusteringMinhashClusteringTopDownClustering譜聚類關聯(lián)規(guī)則挖掘ParallelFPGrowthAlgorithm并行FPGrowth算法回歸LocallyWeightedLinearRegression局部加權線性回歸降維/維約簡StochasticSingularValueDecomposition奇異值分解PrincipalComponentsAnalysis主成分分析IndependentComponentAnalysis獨立成分分析GaussianDiscriminativeAnalysis高斯判別分析進化算法并行化了Watchmaker框架推薦/協(xié)冋過濾Non-distributedrecommendersTaste(UserCF,ItemCF,SlopeOne)

DistributedRecommendersItemCF向量相似度計算RowS

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論