版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
,更人性化的技術(shù),機(jī)器學(xué)習(xí)?!薄ü雀枋紫瘓?zhí)行官◆◆習(xí)算法的少走些路。我會(huì)在文章中舉例一些機(jī)器學(xué)習(xí)的問題,也可以在思RPython的執(zhí)行代碼。讀完這篇文章,讀者們至少可以行動(dòng)起屬于監(jiān)督式學(xué)習(xí)的算法有:回歸模型,決策樹,隨機(jī)森林,K鄰近算法,邏輯回歸錄不動(dòng)的結(jié)果并試著找出最好的一次嘗試來做決定。LinearLogistic(Decision樸素(Naive隨機(jī)森林(Random降低維度算法(DimensionalityReductionAlgorithms)10.GradientBoostAdaboost算法(Linear條最佳直線。這條最佳直線就是回歸線。這個(gè)回歸關(guān)系可以用Y=aX+b表示。在Y=aX+b這個(gè)里Y-a-X-b-歸(PolynomialRegression)或曲線回歸(CurvilinearRegression)。Python#Import#Importothernecessarylibrarieslikepandas,fromsklearnimport#LoadTrainandTest#Identifyfeatureandresponsevariable(s)andvaluesmustbenumericandnumpyarrays#Createlinearregressionlinear=#Trainthemodelusingthetrainingsetsandchecklinear.fit(x_train,linear.score(x_train,#Equationcoefficientandprint('Coefficient:\n',print('Intercept:\n',#Predictpredicted=R#LoadTrainandTest#Identifyfeatureandresponsevariable(s)andvaluesmustbenumericandnumpyarraysx_train<-y_train<-x_test<-x<-#Trainthemodelusingthetrainingsetsandchecklinear<-lm(y_train~.,data=#Predictpredicted=所以它預(yù)測(cè)的是一個(gè)概率值,自然,它的輸出值應(yīng)該在0到1之間。odds=p/1-p)probabilityofeventoccurrenceprobabilityofnoteventln(odds)=ln(p/(1-logit(p)=ln(p/(1-p))=b0+b1X1+b2X2+b3X3.在這里,p是我們感的出現(xiàn)的概率。它通過篩選出特定參數(shù)值使得觀察到Python#Importfromsklearn.linear_modelimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#Createlogisticregressionmodel=#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,model.score(X,#Equationcoefficientandprint('Coefficient:\n',print('Intercept:\n',#Predictpredicted=Rx<-#Trainthemodelusingthetrainingsetsandchecklogistic<-glm(y_train~.,data=#Predictpredicted=正則化人驚訝的是,它既可以運(yùn)用于類別變量(categoricalvariables)也可以作用于連續(xù)用來分組的具體指標(biāo)有很多,比如Gini,informationGain,Chi-square,entropy。Python#Import#Importothernecessarylibrarieslikepandas,fromsklearnimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#Createtreehereyoucanchangethealgorithmasginiorentropy(informationgain)bydefaultitisgini#model=tree.DecisionTreeRegressor()for#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,model.score(X,#Predictpredicted=Rx<-#growfit<-rpart(y_train~.,data=#Predictpredicted=這是一個(gè)分類算法。在這個(gè)算法中每一個(gè)數(shù)據(jù)作為一個(gè)點(diǎn)在一個(gè)n上作圖(n是特征數(shù)),每一個(gè)特征值就代表對(duì)應(yīng)坐標(biāo)值的大小。比如說我們有兩個(gè)特征:一個(gè)人的身高和發(fā)長(zhǎng)。我們可以將這兩個(gè)變量在一個(gè)二上作圖,圖上我們可以把這個(gè)算法想成n里的JezzBall游戲,不過有一些變動(dòng)Python#Importfromsklearnimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateSVMclassificationmodel=svm.svc()#thereisvariousoptionassociatedwithit,thisissimpleforclassification.Youcanreferlink,formo#redetail.#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,model.score(X,#Predictpredicted=Rx<-#Fittingfit<-svm(y_train~.,data=#Predictpredicted=樸素簡(jiǎn)言之,樸素假定某一特征的出現(xiàn)與其它特征無關(guān)。比如說,如果一個(gè)水果之間存在一定關(guān)系,在樸素算法中我們都認(rèn)為紅色,圓狀和直徑在判斷一個(gè)此時(shí)玩的概率為0.64.:我們可以用上述方法回答這個(gè)問題。P(Yes|Sunny)=P(Sunny|Yes)*P(Yes)這里,P(Sunny|Yes)3/90.33P(Sunny)5/140.36P(Yes)=9/140.64。那么,P(Yes|Sunny)=0.33*0.64/0.36=0.60>0.5,說明這個(gè)概率值更大。Python#Importfromsklearn.naive_bayesimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateSVMclassificationobjectmodel=GaussianNB()#thereisother#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,#Predictpredicted=Rx<-#Fittingfit<-naiveBayes(y_train~.,data=#Predictpredicted=KNN先記錄所有已知數(shù)據(jù),再利用一個(gè)距離函數(shù),找出已知數(shù)據(jù)中距離未知最近的K組數(shù)據(jù),最后按照這K組數(shù)據(jù)里最常見的類別預(yù)測(cè)該。距離函數(shù)可以是歐式距離,曼哈頓距離,閔氏距離(MinkowskiDistance),和漢明Python#Importfromsklearn.neighborsimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateKNeighborsclassifierobjectKNeighborsClassifier(n_neighbors=6)#defaultvalueforn_neighborsis#Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,#Predictpredicted=Rx<-#Fittingfit<-knn(y_train~.,data=#Predictpredicted=K均值算法(K-還記得你是怎樣從墨水漬中辨認(rèn)形狀的么?K均值算法的過程類似,你也要通過觀將每一個(gè)數(shù)據(jù)點(diǎn)與距離自己最近的質(zhì)心劃分在同一集群,即生成KPython#Importfromsklearn.clusterimport#Assumedyouhave,X(attributes)fortrainingdatasetandx_test(attributes)oftest_dataset#CreateKNeighborsclassifierobjectk_means=KMeans(n_clusters=3,#Trainthemodelusingthetrainingsetsandcheck#Predictpredicted=Rfit<-kmeans(X,3)#5cluster隨機(jī)森林是對(duì)決集合的特有名稱。隨機(jī)森林里我們有多個(gè)決(所以叫“森如果有M個(gè)特征變量,那么選取數(shù)mMmIntroductionto –ComparingaCARTmodelto (PartComparinga toaCARTmodel(PartTuningtheparametersofyour Python#Importfromsklearn.ensembleimport #Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#Create model= #Trainthemodelusingthetrainingsetsandcheckmodel.fit(X,#Predictpredicted=R x<-#Fittingfit<- (Species~.,#Predictpredicted=降維算法(DimensionalityReduction僅有了的數(shù)據(jù)來源,也獲得了維度的數(shù)據(jù)信息。例如:電子商務(wù)公司有了顧客的細(xì)節(jié)信息,像個(gè)人信息,網(wǎng)絡(luò)瀏覽歷史,個(gè)人喜惡,記錄,反饋信息等,他們關(guān)注你的私人特征,比你天天去的超市里的店更強(qiáng)大精準(zhǔn)的模型,但它們有時(shí)候反倒也是建模中的一題。怎樣才能從10002000個(gè)變量里找到最重要的變量呢?這種情況下降維算法及其他算法,如決策進(jìn)一步的了解可以閱讀BeginnersGuideToLearnDimensionReductionPython#Importfromsklearn #Assumedyouhavetrainingandtestdatasetastrainand#CreatePCAobejectpca= ofk=min(n_sample,n_features)#ForFactor #Reducedthedimensionoftrainingdatasetusingtrain_reduced=#Reducedthedimensionoftesttest_reduced=Rpca p(train,cor= <- <-GradientBoosing預(yù)測(cè)準(zhǔn)確度。這些boostingKaggle,AVHackthon,Crowdytix等數(shù)據(jù)KnowaboutGradientandAdaBoostinPython#Importfromsklearn.ensembleimport#Assumedyouhave,X(predictor)andY(target)fortrainingdatasetandx_test(predictor)oftest_dataset#CreateGradientBoosting
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 氧化鋁基負(fù)載型金屬催化劑鄰位氫中心構(gòu)筑及加氫性能研究
- 秸稈回收加工廠項(xiàng)目可行性研究報(bào)告
- 2025版物業(yè)管理區(qū)域綠化安全管理服務(wù)合同3篇
- 基于相似理論的船用耐壓設(shè)備縮比模型設(shè)計(jì)方法研究
- 2025版高校食堂營(yíng)養(yǎng)膳食承包合作協(xié)議2篇
- 異地辦公與遠(yuǎn)程工作管理
- 二零二五年度倉儲(chǔ)物流用地買賣合同樣本3篇
- 2025版選礦廠承包合同附設(shè)備更新改造計(jì)劃書3篇
- 營(yíng)銷行業(yè)助理職責(zé)概述
- 熱情溫暖的社區(qū)活動(dòng)中心三篇
- 《鋼筋焊接及驗(yàn)收規(guī)程》(JGJ18)
- 醫(yī)藥高等數(shù)學(xué)知到智慧樹章節(jié)測(cè)試課后答案2024年秋浙江中醫(yī)藥大學(xué)
- 2024年濰坊工程職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫完美版
- GB/T 44823-2024綠色礦山評(píng)價(jià)通則
- 《共情的力量》課件
- 2022年中國(guó)電信維護(hù)崗位認(rèn)證動(dòng)力專業(yè)考試題庫大全-上(單選、多選題)
- 醫(yī)藥高等數(shù)學(xué)智慧樹知到課后章節(jié)答案2023年下浙江中醫(yī)藥大學(xué)
- 城市道路智慧路燈項(xiàng)目 投標(biāo)方案(技術(shù)標(biāo))
- 水泥采購?fù)稑?biāo)方案(技術(shù)標(biāo))
- 初中英語-Unit2 My dream job(writing)教學(xué)設(shè)計(jì)學(xué)情分析教材分析課后反思
- 廣州市勞動(dòng)仲裁申請(qǐng)書
評(píng)論
0/150
提交評(píng)論