2023學(xué)年完整公開課版Mahout技術(shù)介紹_第1頁
2023學(xué)年完整公開課版Mahout技術(shù)介紹_第2頁
2023學(xué)年完整公開課版Mahout技術(shù)介紹_第3頁
2023學(xué)年完整公開課版Mahout技術(shù)介紹_第4頁
2023學(xué)年完整公開課版Mahout技術(shù)介紹_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

Mahout技術(shù)介紹1.了解Mahout的特性、歷史和目標(biāo)

2.著重理解Taste主要接口及其對協(xié)同過濾算法的影響

Mahout的特性、歷史和目標(biāo)1Taste主要接口及其對特定算法的影響2Mahout的特性、歷史和目標(biāo)機(jī)器學(xué)習(xí)可以應(yīng)用于各種目的,從游戲、欺詐檢測到股票市場分析。它用于構(gòu)建類似于Netflix和Amazon所提供的系統(tǒng),可根據(jù)用戶的購買歷史向他們推薦產(chǎn)品,或者用于構(gòu)建可查找特定時間內(nèi)的所有相似文章的系統(tǒng)。它還可以用于根據(jù)類別(體育、經(jīng)濟(jì)和戰(zhàn)爭等)對網(wǎng)頁自動進(jìn)行分類,或者用于標(biāo)記垃圾電子郵件??梢圆捎靡恍C(jī)器學(xué)習(xí)方法來解決問題。我將重點討論其中最常用的兩個—監(jiān)管和無監(jiān)管學(xué)習(xí)—因為它們是Mahout支持的主要功能。Mahout的特性、歷史和目標(biāo)監(jiān)管學(xué)習(xí)的任務(wù)是學(xué)習(xí)帶標(biāo)簽的訓(xùn)練數(shù)據(jù)的功能,以便預(yù)測任何有效輸入的值。監(jiān)管學(xué)習(xí)的常見例子包括將電子郵件消息分類為垃圾郵件,根據(jù)類別標(biāo)記網(wǎng)頁,以及識別手寫輸入。創(chuàng)建監(jiān)管學(xué)習(xí)程序需要使用許多算法,最常見的包括神經(jīng)網(wǎng)絡(luò)、SupportVectorMachines(SVMs)和NaiveBayes分類程序。無監(jiān)管學(xué)習(xí)的任務(wù)是發(fā)揮數(shù)據(jù)的意義,而不管數(shù)據(jù)的正確與否。它最常應(yīng)用于將類似的輸入集成到邏輯分組中。它還可以用于減少數(shù)據(jù)集中的維度數(shù)據(jù),以便只專注于最有用的屬性,或者用于探明趨勢。無監(jiān)管學(xué)習(xí)的常見方法包括k-Means、分層集群和自組織地圖。

Mahout的特性、歷史和目標(biāo)

Mahout已實現(xiàn)的三個具體的機(jī)器學(xué)習(xí)任務(wù)協(xié)作篩選集群分類Mahout的特性、歷史和目標(biāo)Mahout項目是由ApacheLucene(開源搜索)社區(qū)中對機(jī)器學(xué)習(xí)感興趣的一些成員發(fā)起的,他們希望建立一個可靠、文檔翔實、可伸縮的項目,在其中實現(xiàn)一些常見的用于集群和分類的機(jī)器學(xué)習(xí)算法。該社區(qū)最初基于文章“Map-ReduceforMachineLearningonMulticore”,但此后在發(fā)展中又并入了更多廣泛的機(jī)器學(xué)習(xí)方法。Mahout的特性、歷史和目標(biāo)ApacheMahout是ApacheSoftwareFoundation(ASF)開發(fā)的一個全新的開源項目,其主要目標(biāo)是創(chuàng)建一些可伸縮的機(jī)器學(xué)習(xí)算法,供開發(fā)人員在Apache在許可下免費使用。Mahout包含許多實現(xiàn),包括集群、分類、CP和進(jìn)化程序。此外,通過使用ApacheHadoop庫,Mahout可以有效地擴(kuò)展到云中。Mahout的特性、歷史和目標(biāo)Mahout的主要特性包括TasteCF。Taste是SeanOwen在SourceForge上發(fā)起的一個針對CF的開源項目,并在2008年被贈予Mahout。一些支持Map-Reduce的集群實現(xiàn)包括k-Means、模糊k-Means、Canopy、Dirichlet和Mean-Shift。DistributedNaiveBayes和ComplementaryNaiveBayes分類實現(xiàn)。針對進(jìn)化編程的分布式適用性功能。Matrix和矢量庫。上述算法的示例。Taste主要接口DataModel是用戶喜好信息的抽象接口,它的具體實現(xiàn)支持從任意類型的數(shù)據(jù)源抽取用戶喜好信息。Taste默認(rèn)提供JDBCDataModel和FileDataModel,分別支持從數(shù)據(jù)庫和文件中讀取用戶的喜好信息。UserSimilarity和ItemSimilarity。UserSimilarity用于定義兩個用戶間的相似度,它是基于協(xié)同過濾的推薦引擎的核心部分,ItemSimilarity類似的,計算Item之間的相似度。UserNeighborhood用于基于用戶相似度的推薦方法中,推薦的內(nèi)容是基于找到與當(dāng)前用戶喜好相似的鄰居用戶的方式產(chǎn)生的。UserNeighborhood定義了確定鄰居用戶的方法,具體實現(xiàn)一般是基于UserSimilarity計算得到的。Recommender是推薦引擎的抽象接口,Taste中的核心組件。程序中,為它提供一個DataModel,它可以計算出對不同用戶的推薦內(nèi)容。實際應(yīng)用中,主要使用它的實現(xiàn)類GenericUserBasedRecommender或者GenericItemBasedRecommender。RecommenderEvaluator:評分器。RecommenderIRStatsEvaluator:搜集推薦性能相關(guān)的指標(biāo),包括準(zhǔn)確率、召回率等等。Mahout協(xié)同過濾算法Mahout使用了Taste來提高協(xié)同過濾算法的實現(xiàn),它是一個基于Java實現(xiàn)的可擴(kuò)展的,高效的推薦引擎。Taste既實現(xiàn)了最基本的基于用戶的和基于內(nèi)容的推薦算法,同時也提供了擴(kuò)展接口,使用戶可以方便的定義和實現(xiàn)自己的推薦算法。同時,Taste不僅僅只適用于Java應(yīng)用程序,它可以作為內(nèi)部服務(wù)器的一個組件以HTTP和WebService的形式向外

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論