前人機(jī)器學(xué)習(xí)簡(jiǎn)介

上傳人：洞*** IP屬地：北京上傳時(shí)間：2023-05-16 格式：DOCX 頁數(shù)：29 大?。?63.13KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩24頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

，更人性化的技術(shù)，機(jī)器學(xué)習(xí)?！薄ü雀枋紫瘓?zhí)行官◆◆習(xí)算法的少走些路。我會(huì)在文章中舉例一些機(jī)器學(xué)習(xí)的問題，也可以在思RPython的執(zhí)行代碼。讀完這篇文章，讀者們至少可以行動(dòng)起屬于監(jiān)督式學(xué)習(xí)的算法有：回歸模型，決策樹，隨機(jī)森林，K鄰近算法，邏輯回歸錄不動(dòng)的結(jié)果并試著找出最好的一次嘗試來做決定。LinearLogistic(Decision樸素(Naive隨機(jī)森林(Random降低維度算法（DimensionalityReductionAlgorithms）10.GradientBoostAdaboost算法(Linear條最佳直線。這條最佳直線就是回歸線。這個(gè)回歸關(guān)系可以用Y=aX+b表示。在Y=aX+b這個(gè)里Y-a-X-b-歸（PolynomialRegression）或曲線回歸(CurvilinearRegression)。Python#Import#Importothernecessarylibrarieslikepandas,fromsklearnimport#LoadTrainandTest#Identifyfeatureandresponsevariable(s)andvaluesmustbenumericandnumpyarrays#Createlinearregressionlinear=#Trainthemodelusingthetrainingsetsandchecklinear.fit(x_train,linear.score(x_train,#Equationcoefficientandprint('Coefficient:\n',print('Intercept:\n',#Predictpredicted=R#LoadTrainandTest#Identifyfeatureandresponsevariable(s)andvaluesmustbenumericandnumpyarraysx_train<-y_train<-x_test<-x<-#Trainthemodelusingthetrainingsetsandchecklinear<-lm(y_train~.,data=#Predictpredicted=所以它預(yù)測(cè)的是一個(gè)概率值，自然，它的輸出值應(yīng)該在0到1之間。odds=p/1-p)probabilityofeventoccurrenceprobabilityofnoteventln(odds)=ln(p/(1-logit(p)=ln(p/(1-p))=b0+b1X1+b2X2+b3X3.在這里，p是我們感的出現(xiàn)的概率。它通過篩選出特定參數(shù)值使得觀察到Python#Importfromsklearn.linear_modelimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#Createlogisticregressionmodel=#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,model.score(X,#Equationcoefficientandprint('Coefficient:\n',print('Intercept:\n',#Predictpredicted=Rx<-#Trainthemodelusingthetrainingsetsandchecklogistic<-glm(y_train~.,data=#Predictpredicted=正則化人驚訝的是，它既可以運(yùn)用于類別變量（categoricalvariables）也可以作用于連續(xù)用來分組的具體指標(biāo)有很多，比如Gini，informationGain,Chi-square,entropy。Python#Import#Importothernecessarylibrarieslikepandas,fromsklearnimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#Createtreehereyoucanchangethealgorithmasginiorentropy(informationgain)bydefaultitisgini#model=tree.DecisionTreeRegressor()for#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,model.score(X,#Predictpredicted=Rx<-#growfit<-rpart(y_train~.,data=#Predictpredicted=這是一個(gè)分類算法。在這個(gè)算法中每一個(gè)數(shù)據(jù)作為一個(gè)點(diǎn)在一個(gè)n上作圖（n是特征數(shù)），每一個(gè)特征值就代表對(duì)應(yīng)坐標(biāo)值的大小。比如說我們有兩個(gè)特征：一個(gè)人的身高和發(fā)長(zhǎng)。我們可以將這兩個(gè)變量在一個(gè)二上作圖，圖上我們可以把這個(gè)算法想成n里的JezzBall游戲，不過有一些變動(dòng)Python#Importfromsklearnimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateSVMclassificationmodel=svm.svc()#thereisvariousoptionassociatedwithit,thisissimpleforclassification.Youcanreferlink,formo#redetail.#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,model.score(X,#Predictpredicted=Rx<-#Fittingfit<-svm(y_train~.,data=#Predictpredicted=樸素簡(jiǎn)言之，樸素假定某一特征的出現(xiàn)與其它特征無關(guān)。比如說，如果一個(gè)水果之間存在一定關(guān)系，在樸素算法中我們都認(rèn)為紅色，圓狀和直徑在判斷一個(gè)此時(shí)玩的概率為0.64.:我們可以用上述方法回答這個(gè)問題。P(Yes|Sunny)=P(Sunny|Yes)*P(Yes)這里，P(Sunny|Yes)3/90.33P(Sunny)5/140.36P(Yes)=9/140.64。那么，P(Yes|Sunny)=0.33*0.64/0.36=0.60>0.5,說明這個(gè)概率值更大。Python#Importfromsklearn.naive_bayesimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateSVMclassificationobjectmodel=GaussianNB()#thereisother#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,#Predictpredicted=Rx<-#Fittingfit<-naiveBayes(y_train~.,data=#Predictpredicted=KNN先記錄所有已知數(shù)據(jù)，再利用一個(gè)距離函數(shù)，找出已知數(shù)據(jù)中距離未知最近的K組數(shù)據(jù)，最后按照這K組數(shù)據(jù)里最常見的類別預(yù)測(cè)該。距離函數(shù)可以是歐式距離，曼哈頓距離，閔氏距離(MinkowskiDistance),和漢明Python#Importfromsklearn.neighborsimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateKNeighborsclassifierobjectKNeighborsClassifier(n_neighbors=6)#defaultvalueforn_neighborsis#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,#Predictpredicted=Rx<-#Fittingfit<-knn(y_train~.,data=#Predictpredicted=K均值算法（K-還記得你是怎樣從墨水漬中辨認(rèn)形狀的么？K均值算法的過程類似，你也要通過觀將每一個(gè)數(shù)據(jù)點(diǎn)與距離自己最近的質(zhì)心劃分在同一集群，即生成KPython#Importfromsklearn.clusterimport#Assumedyouhave,X(attributes)fortrainingdatasetandx_test(attributes)oftest_dataset#CreateKNeighborsclassifierobjectk_means=KMeans(n_clusters=3,#Trainthemodelusingthetrainingsetsandcheck#Predictpredicted=Rfit<-kmeans(X,3)#5cluster隨機(jī)森林是對(duì)決集合的特有名稱。隨機(jī)森林里我們有多個(gè)決（所以叫“森如果有M個(gè)特征變量，那么選取數(shù)mMmIntroductionto –ComparingaCARTmodelto (PartComparinga toaCARTmodel(PartTuningtheparametersofyour Python#Importfromsklearn.ensembleimport #Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#Create model= #Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,#Predictpredicted=R x<-#Fittingfit<- (Species~.,#Predictpredicted=降維算法（DimensionalityReduction僅有了的數(shù)據(jù)來源，也獲得了維度的數(shù)據(jù)信息。例如：電子商務(wù)公司有了顧客的細(xì)節(jié)信息，像個(gè)人信息，網(wǎng)絡(luò)瀏覽歷史，個(gè)人喜惡，記錄，反饋信息等，他們關(guān)注你的私人特征，比你天天去的超市里的店更強(qiáng)大精準(zhǔn)的模型，但它們有時(shí)候反倒也是建模中的一題。怎樣才能從10002000個(gè)變量里找到最重要的變量呢？這種情況下降維算法及其他算法，如決策進(jìn)一步的了解可以閱讀BeginnersGuideToLearnDimensionReductionPython#Importfromsklearn #Assumedyouhavetrainingandtestdatasetastrainand#CreatePCAobejectpca= ofk=min(n_sample,n_features)#ForFactor #Reducedthedimensionoftrainingdatasetusingtrain_reduced=#Reducedthedimensionoftesttest_reduced=Rpca p(train,cor= <- <-GradientBoosing預(yù)測(cè)準(zhǔn)確度。這些boostingKaggle，AVHackthon,Crowdytix等數(shù)據(jù)KnowaboutGradientandAdaBoostinPython#Importfromsklearn.ensembleimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateGradientBoosting

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

前人機(jī)器學(xué)習(xí)簡(jiǎn)介

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

前人機(jī)器學(xué)習(xí)簡(jiǎn)介

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔