PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 5.3 使用pyspark.ml模塊的評估器和模型評價_第1頁
PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 5.3 使用pyspark.ml模塊的評估器和模型評價_第2頁
PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 5.3 使用pyspark.ml模塊的評估器和模型評價_第3頁
PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 5.3 使用pyspark.ml模塊的評估器和模型評價_第4頁
PySpark大數(shù)據(jù)技術(shù)與應(yīng)用 課件 5.3 使用pyspark.ml模塊的評估器和模型評價_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

使用pyspark.ml模塊的評估器和模型評價目錄使用pyspark構(gòu)建并評估分類模型1使用pyspark構(gòu)建并評估回歸模型2使用pyspark構(gòu)建并評估聚類模型3使用pyspark構(gòu)建并評估智能推薦模型4分類模型是通過在已有歷史數(shù)據(jù)(帶標簽)的基礎(chǔ)上進行學(xué)習(xí)和訓(xùn)練,構(gòu)造出一個分類模型(即通常所說的分類器(Classifier)),從而可以運用函數(shù)或模型對未知數(shù)據(jù)進行分類。構(gòu)造分類模型一般需要如下幾個步驟。選定樣本(包含正樣本和負樣本),將所有樣本分成訓(xùn)練樣本和測試樣本兩部分。使用訓(xùn)練樣本來構(gòu)造分類模型。在測試樣本上執(zhí)行分類模型,生成預(yù)測結(jié)果。分類模型的評估指標,如準確率、均方誤差等,評估分類模型的性能。分類模型分類問題與分類方法關(guān)系分類模型分類問題支持的分類問題的模型二分類邏輯回歸,決策樹,隨機森林,樸素貝葉斯,支持向量機多分類邏輯回歸,決策樹,隨機森林,樸素貝葉斯,支持向量機回歸分類邏輯回歸,決策樹,隨機森林,樸素貝葉斯使用隨機森林模型在HR人力資源數(shù)據(jù)集上訓(xùn)練得到分類模型,然后進行預(yù)測并評估該分類模型的性能。數(shù)據(jù)為候選人參加公司培訓(xùn)后尋找新工作記錄,含1個分類標簽,13個屬性,共19158條記錄(有缺失數(shù)據(jù))。隨機森林模型是一種集成學(xué)習(xí)模型,將若干“弱”模型整合為“強”模型,充分體現(xiàn)了“團結(jié)就是力量”的團隊精神,采用少數(shù)服從多數(shù)的原理對多個學(xué)習(xí)模型結(jié)果進行投票,獲得更加準確最終預(yù)測結(jié)果。HR人力資源數(shù)據(jù)集HR人力資源數(shù)據(jù)集HR人力資源數(shù)據(jù)集字段名稱說明enrollee_id候選人的唯一IDcity城市代碼city_development_index城市發(fā)展指數(shù)(按比例)gender候選人性別relevent_experience候選人的相關(guān)經(jīng)驗enrolled_university已注冊的大學(xué)課程類education_level候選人的教育水平major_discipline候選人的教育專業(yè)experience多年候選總經(jīng)驗company_size當(dāng)前雇主公司中的雇員人數(shù)company_type當(dāng)前雇主公司的類型lastnewjob上一份工作與當(dāng)前工作之間的年差training_hours培訓(xùn)時間target0表示培訓(xùn)后不去找工作;1表示培訓(xùn)后去找工作從文件讀取數(shù)據(jù)驗證數(shù)據(jù)集的規(guī)模及數(shù)據(jù)類型獲取數(shù)據(jù)集記錄數(shù)。獲取數(shù)據(jù)集字段數(shù)。查看數(shù)據(jù)集字段的數(shù)據(jù)類型。檢查與處理缺失數(shù)據(jù)檢查數(shù)據(jù)集中是否存在缺失值。缺失值處理(drop方法)。HR人力資源數(shù)據(jù)分析-獲取數(shù)據(jù)數(shù)據(jù)特征enrollee_id、city_development_index、training_hours特征為數(shù)值類型。其他特征均為字符型。特征轉(zhuǎn)換字符型型轉(zhuǎn)換為數(shù)字型。特征裝配將所有特征組合成特征向量。數(shù)據(jù)集劃分按照8:2的比例劃分訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。HR人力資源數(shù)據(jù)分析-轉(zhuǎn)換和處理數(shù)據(jù)隨機森林是一種集成學(xué)習(xí)方法,采用自助抽樣集成。決策樹作為基礎(chǔ)模型,使用bootstrap(自助法)將訓(xùn)練集分成m個新的訓(xùn)練集。在訓(xùn)練集的特征中隨機抽取一部分特征,構(gòu)造一顆決策樹,需要構(gòu)建多個決策樹。將m個模型的結(jié)果進行整合,整合方式:分類問題用多數(shù)投票法(majorityvoting),回歸用均值。在MLlib庫中可以使用pyspark.ml.classification包中RandomForestClassifier類構(gòu)建隨機森林模型。featureCol:特征向量,由VectorAssembler組合得到的向量。labelCol:用于描述分類標簽列。impurity='gini':對信息增益進行度量的方法,有entropy(信息熵)和gini(基尼系數(shù))。maxDepth:樹的最大深度。numTrees:構(gòu)建決策樹的個數(shù)。HR人力資源數(shù)據(jù)分析-訓(xùn)練分類模型在pyspark.ml.evaluation模塊中定義了各種函數(shù)用于模型的評估。召回率(R=TP/(TP+FN))準確率(ACC=(TP+TN)/ALL)精準率(P=TP/(TP+FP))F值(F=(a2+1)P*R/a2(P+R))F1:(a=1,F1=2*P*R/(P+R))對人力資源數(shù)據(jù)集采用多分類評價方法MulticlassClassificationEvaluator對進行模型進行評價。評價指標為準確率(accuracy)結(jié)果:0.739412HR人力資源數(shù)據(jù)分析-評價分類模型真實情況預(yù)測情況正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)目錄使用pyspark構(gòu)建并評估分類模型1使用pyspark構(gòu)建并評估回歸模型2使用pyspark構(gòu)建并評估聚類模型3使用pyspark構(gòu)建并評估智能推薦模型4回歸模型研究的是因變量(目標)和自變量(預(yù)測器)之間的關(guān)系,尋找變量之間的因果關(guān)系?;貧w模型與分類模型一樣,需要在已有數(shù)據(jù)的基礎(chǔ)上進行學(xué)習(xí)和訓(xùn)練,構(gòu)造出一個回歸模型。pyspark.ml模塊模塊中提供的6種回歸模型回歸模型回歸模型模型說明線性回歸線性回歸使用最佳擬合直線(回歸線)在因變量(Y)和一個或多個自變量(X)之間建立一種關(guān)系邏輯回歸邏輯回歸用來計算事件成功(Success)或失?。‵ailure)的概率多項式回歸在因變量(Y)和一個或多個自變量(X)之間建立一種關(guān)系中,如果自變量的指數(shù)大于1,該回歸稱之為多項式回歸(多項式回歸的最佳擬合線是曲線)嶺回歸以損失部分信息、降低精度為代價獲得回歸系數(shù)的回歸方法L2正則化套索回歸與嶺回歸類似,其懲罰函數(shù)回歸系數(shù)的絕對值(L1正則化)彈性網(wǎng)絡(luò)彈性回歸是嶺回歸和套索回歸的混合技術(shù),它同時使用L2和L1正則化使用邏輯回歸模型構(gòu)建預(yù)測模型,對競賽網(wǎng)站用戶數(shù)據(jù)類別進行預(yù)測。數(shù)據(jù)集記錄了用戶對網(wǎng)站中各個標簽的訪問次數(shù)。1個用戶ID1個用戶分類標簽30個被訪問標簽共76833條數(shù)據(jù)記錄某競賽網(wǎng)站用戶數(shù)據(jù)集字段名稱說明id用戶idstatus用戶類別,0或130個被訪問標簽字段競賽,泰迪杯,學(xué)習(xí),書籍,案例,優(yōu)秀作品,項目,python,競賽通知,項目懸賞,R,數(shù)據(jù)挖掘,新聞,網(wǎng)絡(luò)爬蟲、數(shù)據(jù)預(yù)處理,干貨,培訓(xùn),數(shù)據(jù)采集、大數(shù)據(jù)挖掘,數(shù)據(jù)服務(wù),招聘,Matlab,工具,教師,賽題征集,英雄榜,招投標,競賽相關(guān)單位,數(shù)睿思,教練員培訓(xùn),旅游業(yè),農(nóng)業(yè)從文件讀取數(shù)據(jù)。數(shù)據(jù)預(yù)處理,增加特征sumFeature。某競賽網(wǎng)站用戶數(shù)據(jù)分析-數(shù)據(jù)預(yù)處理特征裝配將所有特征組合成特征向量。數(shù)據(jù)集劃分按照8:2的比例劃分訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。某競賽網(wǎng)站用戶數(shù)據(jù)分析-特征處理邏輯回歸模型(LogisticRegression)是一種用于解決二分類(0or1)問題的機器學(xué)習(xí)方法。在線性回歸基礎(chǔ)上,增加邏輯函數(shù),將預(yù)測值限定在[0,1]間,用于估計某種事物的可能性。邏輯回歸的結(jié)果并非數(shù)學(xué)定義中的概率值,不可以直接當(dāng)作概率值來用。決策樹作為基礎(chǔ)模型,使用bootstrap(自助法)將訓(xùn)練集分成m個新的訓(xùn)練集。使用LogisticRegression類構(gòu)建邏輯回歸模型。構(gòu)建邏輯回歸模型需要的參數(shù)說明如下。featureCol:VectorAssembler組合得到特征向量。labelCol:用于描述分類標簽列。maxIter:最大迭代次數(shù)。某競賽網(wǎng)站用戶數(shù)據(jù)分析-訓(xùn)練分類模型使用訓(xùn)練得到的邏輯回歸模型對測試數(shù)據(jù)進行預(yù)測,評價指標準確率,ROC曲線(接受者操作曲線)。TPR=TP/(TP+FN),即召回率。FPR=FP/(FP+TN)描述的是所有負例中預(yù)測錯誤的比例。ROC曲線距離左上角越近,證明分類器效果越好。AUC值為ROC曲線所覆蓋的區(qū)域面積,AUC越大,分類器分類效果越好。模型評價結(jié)果accuracy值為98.9%AUC值為99.8%模型性能較好某競賽網(wǎng)站用戶數(shù)據(jù)分析-評價回歸模型目錄使用pyspark構(gòu)建并評估分類模型1使用pyspark構(gòu)建并評估回歸模型2使用pyspark構(gòu)建并評估聚類模型3使用pyspark構(gòu)建并評估智能推薦模型4聚類分析是將一組數(shù)據(jù)對象的集合,按照對象相似原則,將數(shù)據(jù)對象劃分到不同的簇中,在所形成的簇中,對象與同一個簇中的對象彼此相似,與其他簇中的對象相異。聚類是“近朱者赤,近墨者黑”這一思想的應(yīng)用,青年人應(yīng)和“正能量”的人在一起,不斷向其學(xué)習(xí),樂觀向上,不斷進步,讓自己成為一個充滿“正能量”的人。聚類模型聚類分析屬于無監(jiān)督學(xué)習(xí),無須先驗知識,將會自動尋找數(shù)據(jù)里面的結(jié)構(gòu)特征。聚類模型聚類模型模型說明劃分方法給定一個包含N個對象的合集,劃分方法構(gòu)建數(shù)據(jù)的K個分區(qū),其中每個分區(qū)代表一個簇。代表算法有:K-means聚類算法層次方法給定一個包含N個對象的合集,從下而上地將對象合并聚集,得到K個簇(凝聚層次聚類);或,從上而下地將N個對象進行分割,劃分得到K個簇(分裂層次聚類)基于密度的方法根據(jù)數(shù)據(jù)對象在數(shù)據(jù)空間中的稠密程度劃分對象集合的方法。代表算法有:DBSCAN算法基于網(wǎng)格的方法將數(shù)據(jù)空間劃分成為有限個單元(cell)的網(wǎng)格結(jié)構(gòu),以單個的單元為對象進行聚類。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法使用K-Mean模型構(gòu)建聚類模型,對鳶尾花數(shù)據(jù)進行聚類。數(shù)據(jù)集描述記錄了3類鳶尾花數(shù)據(jù),共150條數(shù)據(jù),每類鳶尾花50條數(shù)據(jù)。鳶尾花分類:Setosa,Versicolor,Verginica。記錄信息:1個ID字段,4個特征字段,1個分類標簽字段。鳶尾花數(shù)據(jù)字段名稱說明Species_No分類編號,取值:1,2,3Petal_width花瓣寬度Petal_length花瓣長度Sepal_width萼片寬度Sepal_length萼片長度Species_name分類名稱:setosa,versicolour,virginica無需預(yù)處理沒有缺失數(shù)據(jù),特征數(shù)據(jù)規(guī)范,數(shù)據(jù)類型識別。3個類別,每個類別50條記錄。鳶尾花數(shù)據(jù)分析-加載數(shù)據(jù)鳶尾花數(shù)據(jù)集包含4個特征,需要將4個特征組合成特征向量。訓(xùn)練聚類模型,尋找最優(yōu)K劃分(采用肘部方法確定)。選擇聚類個數(shù)

K=3。鳶尾花數(shù)據(jù)分析-數(shù)據(jù)轉(zhuǎn)換和處理評價聚類模型(取K值為3)結(jié)果顯示setosa類鳶尾花在一個類中,少部分Versicolor類和Verginica類被劃分到兩個類中。聚類結(jié)果較好。鳶尾花數(shù)據(jù)分析-評價模型目錄使用pyspark構(gòu)建并評估分類模型1使用pyspark構(gòu)建并評估回歸模型2使用pyspark構(gòu)建并評估聚類模型3使用pyspark構(gòu)建并評估智能推薦模型4智能推薦是信息過濾和信息系統(tǒng)中常用的技術(shù),利用興趣相投、擁有共同經(jīng)驗的群體的喜好來產(chǎn)生目標用戶的推薦列表。協(xié)同過濾技術(shù)是目前智能推薦系統(tǒng)中最成功和應(yīng)用最廣泛的技術(shù)?;谟脩舻膮f(xié)同過濾算法(User-basedCF),根據(jù)用戶的歷史選擇信息評測用戶間的相似性,并基于用戶之間的相似性進行推薦?;谖锲返膮f(xié)同過濾算法(Item-basedCF),通過用戶對不同物品的評分來評估物品間的相似性,并基于物品間的相似性進行推薦。協(xié)同過濾技術(shù)需要建立用戶對物品的評分矩陣,并通過矩陣計算相似性。ALS(AlternatingLeastSquares)交替最小二乘法,采用最小化誤差的平方和方法進行矩陣分解,獲取評分矩陣。智能推薦模型電影評論數(shù)據(jù)集,收集的互聯(lián)網(wǎng)電影數(shù)據(jù)庫中的大量電影評論數(shù)據(jù)。數(shù)據(jù)集包含2個文件movies.csv文件記錄了電影基本信息,包含3個數(shù)據(jù)字段,共9742條數(shù)據(jù)記錄。ratings.csv文件記錄了用戶對電影的評分,包含4個數(shù)據(jù)字段,共100836條數(shù)據(jù)記錄。電影評論數(shù)據(jù)集文件名字段名稱說明movies.csv文件movieId電影IDtitle電影名稱genres電影的分類ratings.csv文件userId用戶IDmovieId電影IDrating

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論