![Clementine 第二講_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-7/4/010b6306-6815-4d3b-a185-228f49c166af/010b6306-6815-4d3b-a185-228f49c166af1.gif)
![Clementine 第二講_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-7/4/010b6306-6815-4d3b-a185-228f49c166af/010b6306-6815-4d3b-a185-228f49c166af2.gif)
![Clementine 第二講_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-7/4/010b6306-6815-4d3b-a185-228f49c166af/010b6306-6815-4d3b-a185-228f49c166af3.gif)
![Clementine 第二講_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-7/4/010b6306-6815-4d3b-a185-228f49c166af/010b6306-6815-4d3b-a185-228f49c166af4.gif)
![Clementine 第二講_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-7/4/010b6306-6815-4d3b-a185-228f49c166af/010b6306-6815-4d3b-a185-228f49c166af5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、ClementineClementine的數(shù)據(jù)讀入和集成的數(shù)據(jù)讀入和集成主要內(nèi)容n變量類型變量類型nClementineClementine數(shù)據(jù)的讀入操作數(shù)據(jù)的讀入操作nClementineClementine數(shù)據(jù)的集成操作數(shù)據(jù)的集成操作變量類型n從數(shù)據(jù)挖掘角度看變量類型:數(shù)值型變量、分類型變從數(shù)據(jù)挖掘角度看變量類型:數(shù)值型變量、分類型變量(定類型、定序型),量(定類型、定序型),ClementineClementine中的變量類型:中的變量類型:n連續(xù)數(shù)值型(連續(xù)數(shù)值型(RangeRange)n二分類型(二分類型(FlagFlag)n多分類型(多分類型(SetSet)n定序型(定序型(Ord
2、ered SetsOrdered Sets)n無類型(無類型(TypelessTypeless)n離散型(離散型(DiscreteDiscrete)n缺省型(缺省型(DefaultDefault)ClementineClementine變量狀態(tài):變量狀態(tài):非實(shí)例化:變量的存儲非實(shí)例化:變量的存儲類型和取值均未知時(shí)類型和取值均未知時(shí)半實(shí)例化:僅知道變量半實(shí)例化:僅知道變量的存儲類型,但取值范的存儲類型,但取值范圍未知圍未知實(shí)例化:變量的存儲類實(shí)例化:變量的存儲類型和取值均已確定型和取值均已確定變量類型n從計(jì)算機(jī)存儲角度看變量類型從計(jì)算機(jī)存儲角度看變量類型n整數(shù)型(整數(shù)型(IntergerInte
3、rger):存儲整型數(shù)):存儲整型數(shù)n實(shí)數(shù)型(實(shí)數(shù)型(RealReal):存儲小數(shù)):存儲小數(shù)n字符串型(字符串型(StringString):存儲字符串型數(shù)據(jù)):存儲字符串型數(shù)據(jù)n時(shí)間型(時(shí)間型(TimeTime):存儲持續(xù)時(shí)間數(shù)據(jù)):存儲持續(xù)時(shí)間數(shù)據(jù)n日期型(日期型(DateDate):存儲日期數(shù)據(jù)):存儲日期數(shù)據(jù)n時(shí)間戳型(時(shí)間戳型(Time StampTime Stamp):存儲時(shí)間點(diǎn)數(shù)據(jù)):存儲時(shí)間點(diǎn)數(shù)據(jù)n不同角度的變量類型之間是相關(guān)聯(lián)的不同角度的變量類型之間是相關(guān)聯(lián)的讀入數(shù)據(jù)nClementineClementine支持的數(shù)據(jù)格式支持的數(shù)據(jù)格式n自由格式文本自由格式文本nExcel
4、Excel電子表格電子表格n數(shù)據(jù)庫文件數(shù)據(jù)庫文件nSPSSSPSS格式格式n以讀自由格式文本為例(以讀自由格式文本為例(Drgu.txtDrgu.txt)()(Var.FileVar.File節(jié)點(diǎn)節(jié)點(diǎn)) )nFileFile選項(xiàng)卡:指定所讀入數(shù)據(jù)的基本格式選項(xiàng)卡:指定所讀入數(shù)據(jù)的基本格式nDataData選項(xiàng)卡:指定所讀變量的存儲類型和輸入格式選項(xiàng)卡:指定所讀變量的存儲類型和輸入格式nFilterFilter選項(xiàng)卡:指定不讀哪些變量或重命名變量名選項(xiàng)卡:指定不讀哪些變量或重命名變量名nTypesTypes選項(xiàng)卡:指定變量的計(jì)量類型,對變量的缺失選項(xiàng)卡:指定變量的計(jì)量類型,對變量的缺失值和取值合
5、理性等進(jìn)行檢查值和取值合理性等進(jìn)行檢查數(shù)據(jù)集成n數(shù)據(jù)集成包括:數(shù)據(jù)集成包括:n第一,兩份或多份數(shù)據(jù)的縱向合并第一,兩份或多份數(shù)據(jù)的縱向合并n第二,兩份或多份數(shù)據(jù)的橫向合并第二,兩份或多份數(shù)據(jù)的橫向合并n數(shù)據(jù)的縱向合并數(shù)據(jù)的縱向合并( ( Append Append 節(jié)點(diǎn)節(jié)點(diǎn)) ):Student.xlsStudent.xls數(shù)據(jù)集成n數(shù)據(jù)的橫向合并數(shù)據(jù)的橫向合并(Merge(Merge節(jié)點(diǎn)節(jié)點(diǎn)) )n以客戶瀏覽網(wǎng)頁數(shù)據(jù)(以客戶瀏覽網(wǎng)頁數(shù)據(jù)(WebData.mdbWebData.mdb)為例)為例數(shù)據(jù)集成n數(shù)據(jù)的橫向合并的聯(lián)接方式:內(nèi)連接(數(shù)據(jù)的橫向合并的聯(lián)接方式:內(nèi)連接(inner joini
6、nner join)、)、全外連接(全外連接(full outer joinfull outer join)、局部外連接)、局部外連接(partial outer joinpartial outer join)和反連接()和反連接(anti-joinanti-join)ClementineClementine的數(shù)據(jù)理解的數(shù)據(jù)理解主要內(nèi)容n變量說明變量說明n數(shù)據(jù)質(zhì)量評估和調(diào)整數(shù)據(jù)質(zhì)量評估和調(diào)整n數(shù)據(jù)的有序?yàn)g覽數(shù)據(jù)的有序?yàn)g覽n多維度匯總多維度匯總變量說明n變量說明是確保高質(zhì)量數(shù)據(jù)的有效途徑變量說明是確保高質(zhì)量數(shù)據(jù)的有效途徑n變量說明包括:變量說明包括:n第一,對數(shù)據(jù)流中變量取值的有效性進(jìn)行第一,對
7、數(shù)據(jù)流中變量取值的有效性進(jìn)行限定、檢查和調(diào)整限定、檢查和調(diào)整n第二,對各個(gè)變量在未來數(shù)據(jù)建模中的角第二,對各個(gè)變量在未來數(shù)據(jù)建模中的角色進(jìn)行說明色進(jìn)行說明變量說明(Type節(jié)點(diǎn))n以以Students.xlsStudents.xls為例,數(shù)據(jù)存在的問題:為例,數(shù)據(jù)存在的問題:n家庭人均年收入變量,有部分樣本取值家庭人均年收入變量,有部分樣本取值$null$null$,表示空缺;有一個(gè)樣本取值為,表示空缺;有一個(gè)樣本取值為999999999999。n是否無償獻(xiàn)血變量值,填寫不規(guī)范。規(guī)范是否無償獻(xiàn)血變量值,填寫不規(guī)范。規(guī)范值應(yīng)為值應(yīng)為YesYes和和NoNo,但有些樣本卻取,但有些樣本卻取1 1(
8、表示(表示YesYes)和)和0 0(表示(表示NoNo)n重新實(shí)例化重新實(shí)例化n有效變量值和無效值調(diào)整有效變量值和無效值調(diào)整n有效變量值是變量正常取值范圍內(nèi)的值有效變量值是變量正常取值范圍內(nèi)的值n無效值,通常指缺失值。無效值,通常指缺失值。ClementineClementine中的中的缺失值通常包括兩類:缺失值通常包括兩類:n一類是系統(tǒng)缺值,用一類是系統(tǒng)缺值,用$null$null$表示,還包表示,還包括空串和空格等。括空串和空格等。n另一類是用戶缺失值另一類是用戶缺失值變量說明(Type節(jié)點(diǎn))nMissingMissing列:列:nOn(On(* *) ):表示允許相應(yīng)變量取用戶缺失值和
9、系統(tǒng)缺失:表示允許相應(yīng)變量取用戶缺失值和系統(tǒng)缺失值,且不進(jìn)行調(diào)整值,且不進(jìn)行調(diào)整nOffOff:表示不允許相應(yīng)變量取用戶缺失值:表示不允許相應(yīng)變量取用戶缺失值nSpecifySpecify:說明變量的有效取值范圍等,并指定數(shù)據(jù):說明變量的有效取值范圍等,并指定數(shù)據(jù)調(diào)整方法調(diào)整方法nCoerceCoerce:表示調(diào)整為指定值:表示調(diào)整為指定值nFlagFlag型變量調(diào)整為型變量調(diào)整為FalseFalse類對應(yīng)的值類對應(yīng)的值nSetSet型變量調(diào)整為第一個(gè)變量值型變量調(diào)整為第一個(gè)變量值n數(shù)值型變量,大于上限調(diào)整為上限值,小于下限調(diào)數(shù)值型變量,大于上限調(diào)整為上限值,小于下限調(diào)整為下限值,其余值調(diào)整為
10、(最大值整為下限值,其余值調(diào)整為(最大值+ +最小值)最小值)/2/2變量說明(Type節(jié)點(diǎn))變量說明(Type節(jié)點(diǎn))n變量角色變量角色nInIn:作為輸入變量:作為輸入變量nOutOut:作為輸出變量:作為輸出變量nBothBoth:即作為輸入角色,也作為輸出角色:即作為輸入角色,也作為輸出角色nPartitionPartition:樣本集分割角色,是數(shù)據(jù)挖掘:樣本集分割角色,是數(shù)據(jù)挖掘中的特有角色中的特有角色nNoneNone:不參與分析:不參與分析數(shù)據(jù)質(zhì)量的評估和調(diào)整(Data Audit節(jié)點(diǎn))n以以Telephone.savTelephone.sav為例為例nQualityQualit
11、y選項(xiàng)卡選項(xiàng)卡Missing valueMissing value框框nCount of records with valid valuesCount of records with valid values,計(jì)算各變量的有效樣本量;計(jì)算各變量的有效樣本量;nbreakdown counts of records with breakdown counts of records with invalid valuesinvalid values,計(jì)算各變量取,計(jì)算各變量取各種各種無效無效值的樣本個(gè)數(shù)值的樣本個(gè)數(shù)nQualityQuality選項(xiàng)卡選項(xiàng)卡Outliers & Extrem
12、e valuesOutliers & Extreme values框框n指定離群點(diǎn)和極端值的診斷標(biāo)準(zhǔn)指定離群點(diǎn)和極端值的診斷標(biāo)準(zhǔn)數(shù)據(jù)質(zhì)量的評估和調(diào)整(Data Audit節(jié)點(diǎn))n變量值的調(diào)整變量值的調(diào)整n離群點(diǎn)和極端值的調(diào)整離群點(diǎn)和極端值的調(diào)整(Action(Action列列) )nCoerceCoerce:調(diào)整為距其最近的正常值:調(diào)整為距其最近的正常值n缺失值的調(diào)整缺失值的調(diào)整(Impute Missing(Impute Missing列列) )n找出高質(zhì)量的變量找出高質(zhì)量的變量nGenerateGenerate下的下的Filter NodeFilter Node項(xiàng)項(xiàng)n篩掉無效樣本(
13、指定變量上取無效值的樣本)篩掉無效樣本(指定變量上取無效值的樣本)nGenerateGenerate下的下的Select NodeSelect Node項(xiàng)項(xiàng)數(shù)據(jù)理解的其他n數(shù)據(jù)的有序?yàn)g覽(數(shù)據(jù)的有序?yàn)g覽(SortSort節(jié)點(diǎn))節(jié)點(diǎn))n以以Telephone.savTelephone.sav為例,目標(biāo):為例,目標(biāo):n第一,按基本費(fèi)用的降序排序數(shù)據(jù);第一,按基本費(fèi)用的降序排序數(shù)據(jù);n第二,根據(jù)客戶最終是否流失,將數(shù)據(jù)第二,根據(jù)客戶最終是否流失,將數(shù)據(jù)按基本費(fèi)用的降序排序按基本費(fèi)用的降序排序數(shù)據(jù)理解的其他n數(shù)據(jù)的分類匯總數(shù)據(jù)的分類匯總(Aggregate(Aggregate節(jié)點(diǎn)節(jié)點(diǎn)) )n以以Tel
14、ephone.savTelephone.sav為例,目標(biāo):為例,目標(biāo):n第一,分別計(jì)算未流失客戶和流失客戶第一,分別計(jì)算未流失客戶和流失客戶的基本費(fèi)用的平均值和標(biāo)準(zhǔn)差的基本費(fèi)用的平均值和標(biāo)準(zhǔn)差n第二,分別針對未流失客戶和流失客戶第二,分別針對未流失客戶和流失客戶群,計(jì)算選用不同類套餐類型的客戶,群,計(jì)算選用不同類套餐類型的客戶,其基本費(fèi)用的平均值和標(biāo)準(zhǔn)差其基本費(fèi)用的平均值和標(biāo)準(zhǔn)差ClementineClementine的數(shù)據(jù)準(zhǔn)備的數(shù)據(jù)準(zhǔn)備主要內(nèi)容n變量轉(zhuǎn)換變量轉(zhuǎn)換n變量派生變量派生n數(shù)據(jù)精簡數(shù)據(jù)精簡n數(shù)據(jù)篩選數(shù)據(jù)篩選變量轉(zhuǎn)換n變量轉(zhuǎn)換是對變量的原有取值進(jìn)行轉(zhuǎn)換處理,變量轉(zhuǎn)換是對變量的原有取值進(jìn)
15、行轉(zhuǎn)換處理,覆蓋變量的原來取值覆蓋變量的原來取值n CLEMCLEM表達(dá)式:表達(dá)式:( (Clementine Language for Clementine Language for Expression Manipulation)Expression Manipulation)專門用于表述運(yùn)算專門用于表述運(yùn)算操作,描述算術(shù)表達(dá)式和條件表達(dá)式操作,描述算術(shù)表達(dá)式和條件表達(dá)式nCLEMCLEM的算術(shù)表達(dá)式是用于算術(shù)運(yùn)算的式子,的算術(shù)表達(dá)式是用于算術(shù)運(yùn)算的式子,由常量、變量、算術(shù)運(yùn)算符和函數(shù)等組成由常量、變量、算術(shù)運(yùn)算符和函數(shù)等組成n普通函數(shù)和專業(yè)函數(shù)(普通函數(shù)和專業(yè)函數(shù)( )nCLEMCLEM
16、的條件表達(dá)式是用于表述條件是否滿的條件表達(dá)式是用于表述條件是否滿足的式子,由常量、變量、條件運(yùn)算符和足的式子,由常量、變量、條件運(yùn)算符和函數(shù)等組成,且條件表達(dá)式的計(jì)算結(jié)果只函數(shù)等組成,且條件表達(dá)式的計(jì)算結(jié)果只有真和假兩個(gè)取值有真和假兩個(gè)取值變量轉(zhuǎn)換n變量的重新計(jì)算變量的重新計(jì)算(Filler(Filler節(jié)點(diǎn)節(jié)點(diǎn)) )n以以Students.xlsStudents.xls為例,目標(biāo):對在校綜合為例,目標(biāo):對在校綜合評價(jià)指數(shù)進(jìn)行標(biāo)準(zhǔn)化處理,使其能夠直觀評價(jià)指數(shù)進(jìn)行標(biāo)準(zhǔn)化處理,使其能夠直觀反映學(xué)生在校綜合的水平。反映學(xué)生在校綜合的水平。n變量類別值的重新調(diào)整變量類別值的重新調(diào)整(Reclassif
17、y(Reclassify節(jié)點(diǎn)節(jié)點(diǎn)) )n以以Students.xlsStudents.xls為例,目標(biāo):是否無償獻(xiàn)為例,目標(biāo):是否無償獻(xiàn)血取值不規(guī)范,將取值血取值不規(guī)范,將取值1 1和和0 0應(yīng)分別調(diào)整為應(yīng)分別調(diào)整為YesYes和和No No 變量派生n生成新變量(生成新變量(DeriveDerive節(jié)點(diǎn))節(jié)點(diǎn))n以以ReportCard.xlsReportCard.xls為例,目標(biāo):為例,目標(biāo):n第一,計(jì)算每個(gè)學(xué)生的總成績第一,計(jì)算每個(gè)學(xué)生的總成績n第二,對每個(gè)學(xué)生的每門成績進(jìn)行兩級第二,對每個(gè)學(xué)生的每門成績進(jìn)行兩級評定計(jì)算,大于等于評定計(jì)算,大于等于6060分,則評定為合分,則評定為合格,
18、否則評定為不合格格,否則評定為不合格n第三,對每個(gè)學(xué)生的每門成績按第三,對每個(gè)學(xué)生的每門成績按A A、B B、C C、D D、E E進(jìn)行多級評定計(jì)算進(jìn)行多級評定計(jì)算n第四,根據(jù)思想品德課程的得分對每個(gè)第四,根據(jù)思想品德課程的得分對每個(gè)學(xué)生的總成績進(jìn)行調(diào)整學(xué)生的總成績進(jìn)行調(diào)整變量派生n生成服從正態(tài)分布的新變量生成服從正態(tài)分布的新變量(Transform(Transform節(jié)點(diǎn)節(jié)點(diǎn)) )n以以Telephone.savTelephone.sav為例,目標(biāo):分析客戶的為例,目標(biāo):分析客戶的收入、開通月數(shù)以及各種費(fèi)用,應(yīng)做怎樣收入、開通月數(shù)以及各種費(fèi)用,應(yīng)做怎樣的轉(zhuǎn)換處理才接近正態(tài)分布的轉(zhuǎn)換處理才接近
19、正態(tài)分布n派生啞變量派生啞變量(SetToFlag(SetToFlag節(jié)點(diǎn)節(jié)點(diǎn)) )n以以Telephone.savTelephone.sav為例,目標(biāo):將服務(wù)套餐為例,目標(biāo):將服務(wù)套餐類型轉(zhuǎn)換成啞變量的形式類型轉(zhuǎn)換成啞變量的形式數(shù)據(jù)精簡n數(shù)據(jù)精簡包括以下方面:數(shù)據(jù)精簡包括以下方面:n第一,從壓縮樣本入手,通過減少樣本量第一,從壓縮樣本入手,通過減少樣本量,提高建模效率。主要有借助概率抽樣隨,提高建模效率。主要有借助概率抽樣隨機(jī)抽取樣本,或選取特定樣本。(本章)機(jī)抽取樣本,或選取特定樣本。(本章)n第二,從壓縮變量取值入手,通過減少變第二,從壓縮變量取值入手,通過減少變量取值個(gè)數(shù),提高建模效率
20、。主要指變量量取值個(gè)數(shù),提高建模效率。主要指變量值的分箱處理;值的分箱處理;n第三,從壓縮變量個(gè)數(shù)入手,通過減少變第三,從壓縮變量個(gè)數(shù)入手,通過減少變量維度,提高建模效率。主要借助統(tǒng)計(jì)方量維度,提高建模效率。主要借助統(tǒng)計(jì)方法降維,或依據(jù)相關(guān)性進(jìn)行特征選擇法降維,或依據(jù)相關(guān)性進(jìn)行特征選擇數(shù)據(jù)精簡n隨機(jī)抽樣(隨機(jī)抽樣(SampleSample節(jié)點(diǎn))節(jié)點(diǎn))n以以Telephone.savTelephone.sav為例,目標(biāo):為例,目標(biāo):n第一,隨機(jī)抽取第一,隨機(jī)抽取70%70%的客戶數(shù)據(jù);的客戶數(shù)據(jù);n第二,對流失和未流失客戶,分別抽取第二,對流失和未流失客戶,分別抽取70%70%的樣本的樣本n根據(jù)
21、條件選取樣本(根據(jù)條件選取樣本(SelectSelect節(jié)點(diǎn))節(jié)點(diǎn))n以以ReportCard.xlsReportCard.xls為例,目標(biāo):篩選出總為例,目標(biāo):篩選出總成績大于成績大于500500分的所有男生(性別為分的所有男生(性別為1 1)樣)樣本本數(shù)據(jù)篩選:樣本的平衡處理n數(shù)據(jù)篩選,是指為服務(wù)于后續(xù)建模所進(jìn)行的樣數(shù)據(jù)篩選,是指為服務(wù)于后續(xù)建模所進(jìn)行的樣本平衡處理和樣本集劃分本平衡處理和樣本集劃分n樣本平衡處理的意義:一般用于非平衡數(shù)據(jù)集樣本平衡處理的意義:一般用于非平衡數(shù)據(jù)集(imbalanced data set)的建模準(zhǔn)備。的建模準(zhǔn)備。n非平衡數(shù)據(jù)集,是指數(shù)據(jù)集中某一類或者非平衡數(shù)
22、據(jù)集,是指數(shù)據(jù)集中某一類或者某些類的樣本數(shù)量遠(yuǎn)遠(yuǎn)大于其它類的樣本某些類的樣本數(shù)量遠(yuǎn)遠(yuǎn)大于其它類的樣本數(shù)。通常樣本數(shù)量多的一類或幾類樣本成數(shù)。通常樣本數(shù)量多的一類或幾類樣本成為多數(shù)類,也稱正類。樣本數(shù)量較少的類為多數(shù)類,也稱正類。樣本數(shù)量較少的類稱為少數(shù)類或稀有類,也稱負(fù)類。稱為少數(shù)類或稀有類,也稱負(fù)類。數(shù)據(jù)篩選:樣本的平衡處理n非平衡樣本建模存在的問題非平衡樣本建模存在的問題n傳統(tǒng)的分類方法傾向于對多數(shù)類有較高的傳統(tǒng)的分類方法傾向于對多數(shù)類有較高的識別率,對少數(shù)類的識別率較低,有時(shí)的識別率,對少數(shù)類的識別率較低,有時(shí)的模型是沒有實(shí)用性的模型是沒有實(shí)用性的82%82%總的正確率意義總的正確率意義
23、不大!不大!TPTP和和TNTN的占比都較的占比都較高才好!高才好!數(shù)據(jù)篩選:樣本的平衡處理n非平衡樣本的處理:再抽樣(非平衡樣本的處理:再抽樣(Re-sampleingRe-sampleing)n過抽樣過抽樣( (Over-sampling):Over-sampling):增加負(fù)類樣本數(shù)增加負(fù)類樣本數(shù)量改變樣本的分布量改變樣本的分布n欠抽樣欠抽樣(Under-sampling):(Under-sampling):減少正類樣本數(shù)減少正類樣本數(shù)量改變數(shù)據(jù)的分布量改變數(shù)據(jù)的分布n樣本的平衡處理樣本的平衡處理(Balance(Balance節(jié)點(diǎn)節(jié)點(diǎn)) ),隨機(jī)過抽樣,隨機(jī)過抽樣和隨機(jī)欠抽樣和隨機(jī)欠抽
24、樣n以以Drug.txtDrug.txt為例,目標(biāo):對不同藥物隨機(jī)為例,目標(biāo):對不同藥物隨機(jī)再抽樣再抽樣數(shù)據(jù)篩選:樣本子集的劃分n樣本子集劃分的意義:便于得到相對準(zhǔn)確的模樣本子集劃分的意義:便于得到相對準(zhǔn)確的模型誤差估計(jì)型誤差估計(jì)n做法:做法:n將全部樣本隨機(jī)劃分成兩個(gè)或三個(gè)子集將全部樣本隨機(jī)劃分成兩個(gè)或三個(gè)子集n訓(xùn)練(訓(xùn)練(TrainingTraining)樣本集:用于建立和)樣本集:用于建立和訓(xùn)練模型訓(xùn)練模型n測試(測試(TestingTesting)樣本集:用于模型的誤)樣本集:用于模型的誤差估計(jì)差估計(jì)數(shù)據(jù)篩選:樣本子集的劃分n樣本子集的常見劃分方法:樣本子集的常見劃分方法:n旁置(旁置
25、(HoldOutHoldOut)法和反復(fù)旁置法)法和反復(fù)旁置法n交叉驗(yàn)證交叉驗(yàn)證( (Cross Validation) )法法n留一留一( (Leave-one-out)Leave-one-out)交叉驗(yàn)證法交叉驗(yàn)證法nN N折交叉驗(yàn)證法折交叉驗(yàn)證法( (N Cross-Validation) )n重抽樣自舉法(重抽樣自舉法(BootStrapBootStrap)ClementineClementine的基本分析的基本分析主要內(nèi)容n數(shù)值型變量的基本分析數(shù)值型變量的基本分析n兩分類型變量相關(guān)性的研究兩分類型變量相關(guān)性的研究n兩個(gè)總體的均值比較兩個(gè)總體的均值比較nRFMRFM分析分析計(jì)算基本描述
26、統(tǒng)計(jì)量nStatisticsStatistics節(jié)點(diǎn)節(jié)點(diǎn)n以以Telephone.savTelephone.sav為例,目標(biāo):為例,目標(biāo):n計(jì)算基本服務(wù)累計(jì)開通月數(shù)、上月基本費(fèi)計(jì)算基本服務(wù)累計(jì)開通月數(shù)、上月基本費(fèi)用的基本描述統(tǒng)計(jì)量用的基本描述統(tǒng)計(jì)量n分析上述變量與年齡、家庭月收入(百元分析上述變量與年齡、家庭月收入(百元)、家庭人口之間,以及開通月數(shù)與基本)、家庭人口之間,以及開通月數(shù)與基本費(fèi)用之間的相關(guān)性費(fèi)用之間的相關(guān)性n篩選出相關(guān)程度較高的變量篩選出相關(guān)程度較高的變量繪制散點(diǎn)圖nPlotPlot節(jié)點(diǎn)節(jié)點(diǎn)n以以Telephone.savTelephone.sav為例,目標(biāo):為例,目標(biāo):n展示
27、流失和保留客戶,上月基本費(fèi)用和開展示流失和保留客戶,上月基本費(fèi)用和開通月數(shù)情況通月數(shù)情況nJitterJitter選項(xiàng):數(shù)據(jù)中存在大量重復(fù)值時(shí),變量選項(xiàng):數(shù)據(jù)中存在大量重復(fù)值時(shí),變量值修正為臨近實(shí)際值的隨機(jī)值值修正為臨近實(shí)際值的隨機(jī)值nWhen number of records greater thanWhen number of records greater than:樣本:樣本量大于指定值時(shí)的處理策略量大于指定值時(shí)的處理策略nClementineClementine的圖數(shù)交互、圖數(shù)共享、圖形編輯的圖數(shù)交互、圖數(shù)共享、圖形編輯繪制線圖n以以 ExportApple.savExportApple.sav為例,目標(biāo):為例,目標(biāo):n一般線圖(一般線圖(PlotPlot節(jié)點(diǎn))節(jié)點(diǎn))n鮮蘋果出口量的時(shí)序線圖、鮮蘋果出口量的年鮮蘋果出口量的時(shí)序線圖、鮮蘋果出口量的年度對比度對比n多線圖(多線圖( Time Plo
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 加工項(xiàng)目分包合同范本
- 市區(qū)精裝修房長期出租合同范本
- 冷庫建設(shè)合同范本合集
- 2025年度二零二五新型智能公產(chǎn)房買賣合同示范文本
- 城市綜合辦公樓單層長期出租合同范本
- 公交運(yùn)輸合同范例
- 個(gè)人租給公司房屋租賃合同范本
- 會所庭院出租合同范本
- 債權(quán)讓與合同范例
- 加盟購車合作合同范本
- VDA6.3 2023過程審核教材
- 高職應(yīng)用語文教程(第二版)教案 3管晏列傳
- 高中物理《光電效應(yīng)》
- 烹飪實(shí)訓(xùn)室安全隱患分析報(bào)告
- 《金屬加工的基礎(chǔ)》課件
- 運(yùn)輸行業(yè)春節(jié)安全生產(chǎn)培訓(xùn) 文明駕駛保平安
- 體驗(yàn)式沙盤-收獲季節(jié)
- 找人辦事協(xié)議
- 老年護(hù)理陪護(hù)培訓(xùn)課件
- 醬香型白酒工廠設(shè)計(jì)
- 第3章 環(huán)境感知技術(shù)
評論
0/150
提交評論