《數(shù)據(jù)挖掘與機器學(xué)習(xí)》 課件4.2 構(gòu)建電商平臺用戶購買預(yù)測_第1頁
《數(shù)據(jù)挖掘與機器學(xué)習(xí)》 課件4.2 構(gòu)建電商平臺用戶購買預(yù)測_第2頁
《數(shù)據(jù)挖掘與機器學(xué)習(xí)》 課件4.2 構(gòu)建電商平臺用戶購買預(yù)測_第3頁
《數(shù)據(jù)挖掘與機器學(xué)習(xí)》 課件4.2 構(gòu)建電商平臺用戶購買預(yù)測_第4頁
《數(shù)據(jù)挖掘與機器學(xué)習(xí)》 課件4.2 構(gòu)建電商平臺用戶購買預(yù)測_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

構(gòu)建電商平臺運輸行為預(yù)測電商平臺用戶購買預(yù)測——邏輯回歸任務(wù)描述電商平臺運輸預(yù)測是一項非常重要的任務(wù)。堅持一切為了人民,通過預(yù)測用戶的運輸行為,電商平臺可以更好地了解用戶需求。然而,運輸行為往往是一個難以捉摸的過程,不受規(guī)律和時間限制的影響,這給預(yù)測模型的建立帶來了很大的挑戰(zhàn)。本任務(wù)基于邏輯回歸模型,從歷史交互數(shù)據(jù)中學(xué)習(xí)運輸行為的一般特征,預(yù)測下一個月用戶可能會運輸哪些品牌。將重點關(guān)注電商平臺用戶的運輸行為,提高運輸預(yù)測的準(zhǔn)確率,優(yōu)化平臺的運營管理和商業(yè)決策,從而提高平臺的競爭力和收益。任務(wù)要求利用sklearn庫建立邏輯回歸模型。邏輯回歸模型邏輯回歸模型二分類問題是一種基本的分類問題,它涉及將數(shù)據(jù)樣本分為兩個不同的類別或標(biāo)簽中的一個。例如,將垃圾郵件與正常郵件分類、將腫瘤分為惡性和良性等都是二分類問題。在二分類問題中,通常將一個類別標(biāo)記為“正例”(positive)和另一個標(biāo)記為“反例”(negative)。分類模型的目標(biāo)是學(xué)習(xí)如何將輸入特征與相應(yīng)的標(biāo)簽相關(guān)聯(lián),以便在新的未知數(shù)據(jù)上進行分類預(yù)測。邏輯回歸模型常用的二分類算法包括邏輯回歸、決策樹、隨機森林等。這些算法在不同的數(shù)據(jù)集和應(yīng)用場景中表現(xiàn)不同,因此,選擇合適的算法以及進行適當(dāng)?shù)奶卣鞴こ淌沁M行二分類任務(wù)的重要部分。邏輯回歸模型在任務(wù)3.1的學(xué)習(xí)中已經(jīng)介紹了線性回歸的一般形式,給出了自變量x與因變量y成線性關(guān)系時所建立的函數(shù)關(guān)系。但是,現(xiàn)實場景中更多的情況y不是與x成線性關(guān)系,而是與x的某個函數(shù)成線性關(guān)系,此時需要引入廣義線性回歸模型。需要注意的是,邏輯回歸雖然稱作“回歸”,但實際上是一種分類算法。該算法期望所有預(yù)測值都介于0~1之間。具體的分類方法為設(shè)定一個分類閾值,將預(yù)測結(jié)果y大于分類閾值的樣本歸為正類,反之歸為反類。邏輯回歸模型邏輯回歸雖然稱作“回歸”,但實際上是一種分類算法。該算法期望所有預(yù)測值都介于0~1之間。具體的分類方法為設(shè)定一個分類閾值,將預(yù)測結(jié)果y大于分類閾值的樣本歸為正類,反之歸為反類。決策邊界邏輯回歸模型假設(shè)函數(shù)如下式所示。

表示分類閾值參數(shù)集。

上式的圖像如圖所示,保證了所有函數(shù)值都介于[0,1]之間。Logstic函數(shù)如下式所示。邏輯回歸模型合并左邊兩式轉(zhuǎn)為標(biāo)準(zhǔn)邏輯回歸形式如左式所示。

邏輯回歸模型建模步驟根據(jù)分析目的設(shè)置因變量和自變量,并進行屬性篩選列出線性回歸方程,估計回歸系數(shù)模型檢驗?zāi)P皖A(yù)測邏輯回歸模型LogisticRegression類使用scikit-learn庫中l(wèi)inear_model模塊的LogisticRegression類可以建立邏輯回歸模型,其語法格式如下。classsklearn.linear_model.LogisticRegression(penalty='l2',dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_weight=None,random_state=None,solver='liblinear',max_iter=100,multi_class='ovr',verbose=0,warm_start=False,n_jobs=1)邏輯回歸模型LogisticRegression類常用參數(shù)及其說明penalty接收str。表示正則化選擇參數(shù),可選l1或l2。默認(rèn)為l2solver接收str。表示優(yōu)化算法選擇參數(shù),可選參數(shù)為newton-cg、lbfg、liblinear、sag,當(dāng)penalty='l2'時,4種都可選;當(dāng)penalty='l1'時,只能選liblinear。默認(rèn)為liblinearmulti_class接收str。表示分類方式選擇參數(shù),可選ovr和multinomial。默認(rèn)為ovr參數(shù)名稱說明classsklearn.linear_model.LogisticRegression(penalty='l2',dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_weight=None,random_state=None,solver='liblinear',max_iter=100,multi_class='ovr',verbose=0,warm_start=False,n_jobs=1)邏輯回歸模型LogisticRegression類常用參數(shù)及其說明class_weight接收balanced以及字典。表示類型權(quán)重參數(shù),如對于因變量取值為0或1的二元模型,可以定義class_weight={0:0.9,1:0.1},這樣類型0的權(quán)重為90%,而類型1的權(quán)重為10%。默認(rèn)為Nonecopy_X接收bool。表示是否復(fù)制數(shù)據(jù)表進行運算。默認(rèn)為Truen_jobs接收int。表示計算時使用的核數(shù)。默認(rèn)為1參數(shù)名稱說明classsklearn.linear_model.LogisticRegression(penalty='l2',dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_weight=None,random_state=None,solver='liblinear',max_iter=100,multi_class='ovr',verbose=0,warm_start=False,n_jobs=1)邏輯回歸模型人才是第一資源,碩士研究生招生考試競爭非常激烈,尤其是在一些熱門專業(yè)中,招生人數(shù)往往遠(yuǎn)遠(yuǎn)少于報考人數(shù)。因此,考生需要充分準(zhǔn)備,提高自己的綜合素質(zhì)和應(yīng)試能力,加快建設(shè)教育強國。研究生入學(xué)考試分為初試和復(fù)試兩個環(huán)節(jié)。下表為某高校某專業(yè)2022年考生的考研分?jǐn)?shù)數(shù)據(jù)集,其中初試成績已按比例處理為百分制。初試成績復(fù)試成績錄取結(jié)果34.6278.02094.8345.69135.8472.900………55.3464.93142.0878.840邏輯回歸模型繪制數(shù)據(jù)集的散點圖構(gòu)建邏輯回歸模型預(yù)測考生錄取情況繪制決策邊界使用LogisticRegression構(gòu)建考生錄取情況預(yù)測模型主要分為以下四個步驟。構(gòu)建邏輯回歸模型繪制運輸預(yù)測結(jié)果柱形圖構(gòu)建邏輯回歸模型讀取數(shù)據(jù)提取特征變量和目標(biāo)變量拆分訓(xùn)練集和測試集構(gòu)建模型使用LogisticRegression構(gòu)建電商平臺運輸行為預(yù)測主要分為以下五個步驟。對電商平臺運輸行為進行預(yù)測讀取數(shù)據(jù)使用pandas庫中read_csv函數(shù)讀取處理后的電子商務(wù)運輸數(shù)據(jù)。提取特征變量和目標(biāo)變量從原始數(shù)據(jù)集中提取出特征變量(即用于預(yù)測的變量)和目標(biāo)變量(即要預(yù)測的變量)??蛻鬒D公司廠庫裝運方式客戶服務(wù)電話數(shù)量客戶評價產(chǎn)品成本運輸數(shù)量產(chǎn)品重要性折扣重量準(zhǔn)時到達性別_女性別_男總成本/千元特征變量目標(biāo)變量拆分訓(xùn)練集和測試集將數(shù)據(jù)集拆分為訓(xùn)練集和測試集。使用訓(xùn)練集對模型進行訓(xùn)練,使用測試集對構(gòu)建的模型進行測試,其中測試集占整個數(shù)據(jù)集的20%。使用train_test_split類拆分為訓(xùn)練集和測試集構(gòu)建邏輯回歸模型使用LogisticRegression

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論