實驗3 數(shù)據(jù)預(yù)處理_第1頁
實驗3 數(shù)據(jù)預(yù)處理_第2頁
實驗3 數(shù)據(jù)預(yù)處理_第3頁
實驗3 數(shù)據(jù)預(yù)處理_第4頁
實驗3 數(shù)據(jù)預(yù)處理_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

實驗3數(shù)據(jù)預(yù)處理信息管理學(xué)院2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組1去除無用屬性通常對于數(shù)據(jù)挖掘任務(wù)來說,像ID這樣的信息是無用的,可以將之刪除。選中屬性,點擊“Remove”。將新的數(shù)據(jù)集保存,并重新打開。2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組2數(shù)據(jù)預(yù)處理preprocess——過濾器在WEKA中數(shù)據(jù)預(yù)處理工具稱作過濾器,也稱為篩選器(filters)。所有的過濾器都是將輸入數(shù)據(jù)集進行某種程度的轉(zhuǎn)換,轉(zhuǎn)換為適合數(shù)據(jù)挖掘的形式。選擇某個過濾器之后,過濾器的名字及默認參數(shù)會出現(xiàn)在Choose按鈕旁的輸入框內(nèi),通過單擊該框可以在通用對象編輯器中設(shè)置其屬性。過濾器以及參數(shù)都會以命令行的方式顯現(xiàn)在輸入框,仔細觀察和研究這些過濾器和參數(shù)設(shè)置,是學(xué)習(xí)如何直接使用Weka命令的好方法。Weka將無監(jiān)督和有監(jiān)督兩種過濾方法分開處理,每種類型又細分為屬性過濾器和實例過濾器。使用有監(jiān)督的過濾器時,如果將訓(xùn)練得到的良好間隔施加到測試集中,可能會使結(jié)果出現(xiàn)偏倚,必須非常小心,以確保評估結(jié)果的公平性。然而,由于無須經(jīng)過訓(xùn)練,無監(jiān)督過濾器就不會出現(xiàn)這個問題。預(yù)處理使用較多的是無監(jiān)督的過濾器。在Filter標簽之下有一個Choose(選擇)按鈕,點擊該按鈕可以選擇一個過濾器,如下圖所示。按鈕的右側(cè)是過濾器輸入框,用于設(shè)置所選擇的過濾器的參數(shù)。一旦選定過濾器后,其名稱和參數(shù)都會顯示在過濾器輸入框內(nèi)。在框內(nèi)單擊鼠標左鍵會彈出一個通用對象編輯器對話框一旦選擇并配置一個過濾器后,就可以將其應(yīng)用到數(shù)據(jù)集。點擊位于預(yù)處理面板中Filter子面板右端的Apply按鈕,預(yù)處理面板會顯示轉(zhuǎn)換后的數(shù)據(jù)信息。如果對結(jié)果不滿意,可以點擊Undo按鈕撤消轉(zhuǎn)換,還可以點擊“Edit...”按鈕在數(shù)據(jù)集編輯器里手動修改數(shù)據(jù)。如果滿意修改后的結(jié)果,可以點擊預(yù)處理面板右上角的“Save...”按鈕,將當前關(guān)系以文件格式進行保存,以供將來使用。一旦選定過濾器后,其名稱和參數(shù)都會顯示在過濾器輸入框內(nèi)。在框內(nèi)單擊鼠標左鍵會彈出一個通用對象編輯器對話框一旦選擇并配置一個過濾器后,就可以將其應(yīng)用到數(shù)據(jù)集。點擊位于預(yù)處理面板中Filter子面板右端的Apply按鈕,預(yù)處理面板會顯示轉(zhuǎn)換后的數(shù)據(jù)信息。如果對結(jié)果不滿意,可以點擊Undo按鈕撤消轉(zhuǎn)換,還可以點擊“Edit...”按鈕在數(shù)據(jù)集編輯器里手動修改數(shù)據(jù)。如果滿意修改后的結(jié)果,可以點擊預(yù)處理面板右上角的“Save...”按鈕,將當前關(guān)系以文件格式進行保存,以供將來使用。2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組8為數(shù)據(jù)庫添加一個新的屬性,新的屬性將會包含所有缺失值??蛇x參數(shù):attributeIndex:屬性位置,從1開始算,last是最后一個,first是第一個attributeName:屬性名稱attributeType:屬性類型,一般是4選1dateFormat:數(shù)據(jù)格式,參考ISO-8601nominalLabels:標稱標簽,多個值用逗號隔開示例:Add2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組9ADD添加一個新屬性2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組10ADD添加一個新屬性注意:這里修改的內(nèi)存中的文件,可用Undo撤銷,要想修改外存中保存的文件,則必須點Save保存或另存為。2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組11AddUserFields添加屬性(可添加多個)2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組12AddValues2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組13通過Edit為新添加的屬性賦值2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組14AddID2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組15Remove在區(qū)域5選中屬性,然后點擊下面的Remove按鈕。2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組16Reorder數(shù)據(jù)離散化有些算法(如關(guān)聯(lián)分析),只能處理標稱型屬性,這時候就需要對數(shù)值型的屬性進行離散化。對取值有限的數(shù)值型屬性可通過修改.arff文件中該屬性數(shù)據(jù)類型實現(xiàn)離散化。例如,在某數(shù)據(jù)集中的“children”屬性只有4個數(shù)值型取值:0,1,2,3。我們直接修改ARFF文件,把

@attributechildrennumeric

改為

@attributechildren{0,1,2,3}

就可以了。在“Explorer”中重新打開“bank-data.arff”,看看選中“children”屬性后,區(qū)域6那里顯示的“Type”變成“Nominal”了。2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組17數(shù)據(jù)離散化對取值較多的數(shù)值型屬性,離散化可借助WEKA中名為“Discretize”的Filter來完成。在區(qū)域2中點“Choose”,出現(xiàn)一棵“Filter樹”,逐級找到“weka.filters.unsupervised.attribute.Discretize”,點擊?,F(xiàn)在“Choose”旁邊的文本框應(yīng)該顯示“Discretize-B10-M-0.1-Rfirst-last”。點擊這個文本框會彈出新窗口以修改離散化的參數(shù)。2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組18數(shù)據(jù)離散化(1)attributeIndices:屬性下標。選擇要離散化的屬性,將其下標號以逗號隔開;(2)bins:決定將數(shù)據(jù)離散化為幾段;(3)desiredweightofinstancesperinterval:對等頻離散化來說每個間隔所需的實例權(quán)重(個數(shù));(4)findNumBins:如果設(shè)置為True,則對于等距離離散化找到最優(yōu)的段數(shù),對等頻離散化無作用;(5)ignoreClass:如果設(shè)置為True,則過濾器使用之前,沒有設(shè)置class屬性;(6)InvertSelection:集屬性選擇模式。如果設(shè)置為False,只有選擇(數(shù)字)范圍內(nèi)的屬性將被離散的,否則只有非選定的屬性將被離散;(6)MakeBinary:如果設(shè)置為True,則變?yōu)槎M制;(7)UseEqualFrequency:等頻離散化,如果設(shè)置為true,則使用等頻離散化,否則使用等距離離散化。2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組19標準化、歸一化weka.filters.unsupervised.attribute.Normalize2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組202023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組21Normalize(weather.numeric.arff)2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組22Normalize結(jié)果2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組23MakeIndicator標稱屬性轉(zhuǎn)換為二元屬性2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組24Add:添加屬性AddID:插入一個數(shù)字序號標識符屬性,標識符主要是便于跟蹤。Remove:刪除屬性AddExpression:過濾器通過將一個數(shù)學(xué)函數(shù)應(yīng)用于數(shù)值型屬性而生成一個新的屬性,支持運算符如下:+,-,*,/,pow,log,abs,cos,exp,sqrt,tan,sin,ceil,floor,rint,(,),A,MEAN,MAX,MIN,SD,COUNT,SUM,SUMSQUARED,ifelse。MathExpression:類似于AddExpression,支持的運算更多。AddCluster:先將一種聚類算法應(yīng)用于數(shù)據(jù),然后進行過濾。用戶通過編輯器選擇聚類算法。無監(jiān)督屬性過濾器:添加和刪除屬性2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組25Reorder:重新排列屬性,輸入2-last,1可以讓第一項排到最后,如果輸入1,3,5的話…其他項就沒有了。InterquartileRange:過濾器添加新屬性,以指示實例的值是否可以視為離群值或者極端值。無監(jiān)督屬性過濾器:重新排序2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組26SwapValue:交換同一個標稱屬性的兩個值的位置。MergeTwoValues:將一個標稱屬性的兩個值合并為一個單獨的類別,新的名稱是兩個原有值的字符串的鏈接。ReplaceMissingValues:替代缺失值。NumbericCleaner:使用默認的值取代數(shù)值屬性中值太大、太小或者接近于某一個特定值。無監(jiān)督屬性過濾器:改變值2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組27MakeIndicator:將標稱屬性轉(zhuǎn)換為二元指示符屬性,將用于多個數(shù)據(jù)集轉(zhuǎn)換為多個類別的數(shù)據(jù)集。StringToNominal:用一組值將其轉(zhuǎn)換為標稱型。ChangeDateFormat:更改用于解析日期屬性的格式化字符串,可以指定Java的SimpleDateFormat類支持的所有類型的格式。無監(jiān)督屬性過濾器:轉(zhuǎn)換2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組28Center:將數(shù)值化屬性的平均化為0。Standardize:這個和Center功能大致相同,多了一個標準化單位變異數(shù)。Normalize:規(guī)范化整個實例集。無監(jiān)督屬性過濾器:規(guī)范化2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組29Discretize:簡單劃分的離散化處理。參數(shù):attributeIndices:屬性范圍,如1-5,first-lastbins:桶的數(shù)量無監(jiān)督屬性過濾器:離散化2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組30Resample:隨機抽樣,從現(xiàn)有樣本產(chǎn)生新的小樣本Randomize:用于將數(shù)據(jù)中實例進行隨機重排。RemovePercentage:刪除數(shù)據(jù)集中給定百分比的實例。RemoveFrequentValues:刪除滿足某個標稱型屬性值最經(jīng)?;蛘咦畈唤?jīng)常使用的對應(yīng)的實例。SubsetByExpression:滿足用戶提供的表達式的所有實例。無監(jiān)督實例過濾器:采樣2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組31NonSparseToSparse:全部輸入實例轉(zhuǎn)換為稀疏格式。SparseToNonSparse:將稀疏格式的實例轉(zhuǎn)換為非稀疏格式。無監(jiān)督實例過濾器:稀疏矩陣有監(jiān)督屬性過濾器:離散化weka.filters.supervised.attribute.DiscretizeDiscretizationisbyFayyad&Irani'sMDLmethod(thedefault)Or

UseKononenko'sMDLcriterion.2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組32UsamaM.Fayyad,KekiB.Irani:Multi-intervaldiscretizationofcontinuousvaluedattributesforclassificationlearning.In:ThirteenthInternationalJointConferenceonArticialIntelligence,1022-1027,1993.IgorKononenko:OnBiasesinEstimatingMulti-ValuedAttributes.In:14thInternationalJointConferenceonArticialIntelligence,1034-1040,1995.相關(guān)性分析Excel卡方檢驗Pearson相關(guān)系數(shù)2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組33CHITEST用于從分類變量資料直接求得相應(yīng)的頻率分布,即我們所追求的P值,已經(jīng)包含了分類變量資料的頻數(shù)和自由度(degreesoffreedom,簡稱df,等于(r-1)(c-1)),所以可以直接判定檢驗假設(shè)是否成立。CHIINV則是一個逆運算,其作用是從頻率分布反求相應(yīng)的χ2值,所以除了頻率分布參數(shù)外,必須使用自由度參數(shù)df。CHIDEST與CHITEST則有異曲同工之妙,所不同的是它是由統(tǒng)計量χ2值求取頻率分布,所以也要用到自由度2023/2/2江西財經(jīng)大學(xué)信息管理學(xué)院數(shù)據(jù)挖掘課程組34實驗任務(wù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論