數(shù)據(jù)預(yù)處理概述課件

上傳人：愛*** IP屬地：貴州上傳時間：2022-12-09 格式：PPTX 頁數(shù)：228 大?。?.01MB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩223頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

2022/12/94.數(shù)據(jù)預(yù)處理2022/12/912022/12/74.數(shù)據(jù)預(yù)處理2022/12/71為什么要進行數(shù)據(jù)挖掘?現(xiàn)實世界的數(shù)據(jù)是臟的不完整:缺乏屬性值，缺乏有意義的屬性，或者只包含了匯總數(shù)據(jù)e.g.,occupation=“”有噪聲:包含錯誤的數(shù)據(jù)或異常值e.g.,Salary=“-10”不一致:在代碼或者名字中存在矛盾或不一致e.g.,Age=“42”Birthday=“03/07/1997”e.g.,Wasrating“1,2,3”,nowrating“A,B,C”e.g.,discrepancybetweenduplicaterecords2022/12/92為什么要進行數(shù)據(jù)挖掘?現(xiàn)實世界的數(shù)據(jù)是臟的2022/12/7為什么數(shù)據(jù)預(yù)處理重要?Noqualitydata,noqualityminingresults!Qualitydecisionsmustbebasedonqualitydatae.g.,duplicateormissingdatamaycauseincorrectorevenmisleadingstatistics.DatawarehouseneedsconsistentintegrationofqualitydataDataextraction,cleaning,andtransformationcomprisesthemajorityoftheworkofbuildingadatawarehouse2022/12/93為什么數(shù)據(jù)預(yù)處理重要?Noqualitydata,no2022/12/94數(shù)據(jù)預(yù)處理的主要內(nèi)容：2022/12/74數(shù)據(jù)預(yù)處理的主要內(nèi)容：2022/12/9數(shù)據(jù)預(yù)處理的主要內(nèi)容一、原始數(shù)據(jù)的表述二、數(shù)據(jù)清理三、數(shù)據(jù)變換四、元組的歸約五、屬性的歸約2022/12/952022/12/7數(shù)據(jù)預(yù)處理的主要內(nèi)容一、原始數(shù)據(jù)的表述20數(shù)據(jù)樣本是數(shù)據(jù)挖掘過程的基本組成部分。一、原始數(shù)據(jù)的表述2022/12/96每個樣本都用幾個特征來描述，每個特征有不同類型的值。數(shù)據(jù)樣本是數(shù)據(jù)挖掘過程的基本組成部分。一、原始數(shù)據(jù)的表述202022/12/92022/12/9常見的數(shù)據(jù)類型有：數(shù)值型和分類型。數(shù)值型包括實型變量和整型變量注：具有數(shù)值型值的特征有兩個重要的屬性：其值有順序關(guān)系和距離關(guān)系。72022/12/72022/12/7常見的數(shù)據(jù)類型有：數(shù)值型2022/12/92022/12/9一個有兩個值的分類型變量:分類型變量的兩個值可以平等或不平等。原則上可以轉(zhuǎn)化成一個二進制的數(shù)值型變量，這種數(shù)值型變量有兩個值：0或1；而有N值的分類型變量原則上可以轉(zhuǎn)化成一個二進制的數(shù)值型變量，這種數(shù)值型變量有N個值。82022/12/72022/12/7一個有兩個值的分類型變量2022/12/92022/12/9例如：如果變量“眼睛顏色”有4個值：黑色、藍色、綠色、褐色。

特征值編碼黑色1000

藍色0100

綠色0010

褐色000192022/12/72022/12/7例如：如果變量“眼睛顏色2022/12/92022/12/9變量的分類：連續(xù)型變量和離散型變量。連續(xù)型變量也認為是定量型或是量度型，是指在一定區(qū)間內(nèi)可以任意取值的變量。離散型變量也叫定性型變量，是指全部可能取到的不相同的值是有限個的變量。注：一種特殊類型的離散型變量是周期變量，例如：星期、月和年中的日期。102022/12/72022/12/7變量的分類：連續(xù)型變量和2022/12/92022/12/9與時間有關(guān)的數(shù)據(jù)分類：靜態(tài)數(shù)據(jù)——數(shù)據(jù)不隨時間變化而變化動態(tài)數(shù)據(jù)（時間數(shù)據(jù)）——隨時間變化而變化的屬性。注：大多數(shù)數(shù)據(jù)挖掘方法更適用于靜態(tài)數(shù)據(jù)，在對動態(tài)數(shù)據(jù)進行挖掘時要有特殊的考慮和預(yù)處理。112022/12/72022/12/7與時間有關(guān)的數(shù)據(jù)分類：12022/12/9二、數(shù)據(jù)清理——缺失值的填補2022/12/9對數(shù)據(jù)挖掘的實際應(yīng)用而言，即使數(shù)據(jù)量很大，具有完整數(shù)據(jù)的案例也非常少，這樣就面臨數(shù)據(jù)的缺失問題。應(yīng)用數(shù)據(jù)挖掘方法之前如何處理這樣現(xiàn)象，最簡單的辦法是減少數(shù)據(jù)集，去掉所有有缺失值的樣本。如果我們不想扔掉這些有缺失值的樣本，就必須找到它們的缺失值，用什么方法來實現(xiàn)呢？填補缺失值。122022/12/7二、數(shù)據(jù)清理——缺失值的填補2022/122022/12/91、單一填補法（1）均值填補法。均值填補法是根據(jù)與含缺失值的目標屬性相關(guān)性高的其它屬性的信息將樣品分為若干組，然后分別計算各組目標屬性的均值，將各組均值作為組內(nèi)所有缺失項的填補值。均值填補的優(yōu)點是操作簡便，并且可以有效地降低其點估計的偏差。但它的缺點也比較突出：首先，由于同組中的缺失值由同一個值填補，填補結(jié)果歪曲了目標屬性的分布；其次，也導(dǎo)致在均值和總量估計中對方差的低估。2022/12/9132022/12/71、單一填補法2022/12/713例：2022/12/914例：2022/12/714均值填補：2022/12/915均值填補：2022/12/7152022/12/9（2）隨機填補法。隨機填補法是采用某種概率抽樣的方式，從有完整信息的元組中抽取缺失數(shù)據(jù)的填補值的方法。它雖然能夠避免均值填補中填補值過于凝集以及容易扭曲目標屬性分布的弱點，使得填補值的分布與真值分布更為接近。但它卻增大了估計量的方差，并且穩(wěn)定性不夠。2022/12/9162022/12/7（2）隨機填補法。2022/12/7162022/12/9（3）熱卡填補法。熱卡填補法（hotdeckimputation）是規(guī)定一個或多個排序?qū)傩?，按其觀察值大小對全部觀察單位排序，如果選擇的是兩個以上的屬性，排序按屬性的入選順序依次進行。排序?qū)傩灾低耆嗤挠^察單位稱為匹配，缺失值就用與之匹配的觀察單位的屬性值來填補。如果有多例相匹配，可取第一例或隨機取其一。如果沒有相匹配的，可以每次減少一個排序?qū)傩?，再找相匹配的元組。如果直到最后一個排序?qū)傩?，還沒有找到相匹配的，則需要重新規(guī)定排序?qū)傩浴?022/12/917項目性別年齡學(xué)生身分收入辦卡1男>45否高會2女31~45否高會3女20~30是低會4男<20是低不會5女20~30是中不會6女20~30否中會7女31~45否高會8男31~45是中不會9男31~45否中會10女<20是低會2022/12/7（3）熱卡填補法。2022/12/717項2022/12/9（4）回歸填補法。回歸填補法是指在現(xiàn)有觀察值基礎(chǔ)上，以含有缺失值的目標屬性為因變量，以與目標屬性相關(guān)性高的其它屬性為自變量，建立最小二乘回歸模型或判別模型，以估計缺失值。注意：以上幾種方法都存在扭曲樣本分布的問題，如均值填補會降低屬性之間的相關(guān)關(guān)系，回歸填補則會人為地加大變量之間的相關(guān)關(guān)系等。2022/12/9182022/12/7（4）回歸填補法。2022/12/718例：2022/12/919例：2022/12/7192022/12/92022/12/9（二）異常值（孤立點）探測在大型數(shù)據(jù)集中，通常存在著不遵循數(shù)據(jù)模型的普遍行為的樣本，這些樣本和其他殘余部分數(shù)據(jù)有很大不同或不一致，叫做異常點。異常點可能是由測量誤差造成的，也可能是數(shù)據(jù)故有的可變性結(jié)果。例如：在檢測銀行交易中的信用卡欺詐行為時，異常點是可能揭示欺詐行為的典型例子。202022/12/72022/12/7（二）異常值（孤立點）探2022/12/92022/12/9異常值的探測方法第一，一維樣本異常點的檢測方法例如：如果所給的數(shù)據(jù)集用20個不同的值描述年齡特征：3,56,23,39,156,52,41,22,9,28,139,31,55,20,-67,37,11,55,45,37均值=39.9;標準差=45.65閾值=均值±2×標準差那么，所有在[-54.1,131.2]區(qū)間以外的數(shù)據(jù)都是潛在的異常點。根據(jù)實際可以把區(qū)間縮減到[0,131.2]，由這個標準發(fā)現(xiàn)3個異常點：156,139,-67。212022/12/72022/12/7異常值的探測方法第一，一2022/12/92022/12/9第二，基于距離的異常點檢測（二維以上數(shù)據(jù)）例如：數(shù)據(jù)集為：S={S1,S2,S3,S4,S5,S6,S7}＝{(2,4),(3,2),(1,1),(4,3),(1,6),(5,3),(4,2)}

歐氏距離d=[(X1-X2)2+(Y1-Y2)2]1/2

取閾值距離為d=3222022/12/72022/12/7第二，基于距離的異常點檢異常點2022/12/923異常點2022/12/723根據(jù)所用程序的結(jié)果和所給的閾值，可選擇S3和S5作為異常點。2022/12/924根據(jù)所用程序的結(jié)果和所給的閾值，可選擇S3和S5作為異常點。2022/12/9第三：基于分類預(yù)測模型的異常值探測異常值的探測也可以認為是一類特殊的分類問題。因為對于一般的分類問題，考慮的是如何將各種類別有效地分開，而在異常值探測中，分類的目標是準確地描述總體的正常行為特征，在此之外大范圍的其它對象被視為異常值。其基本思想是：對總體的特征建立分類模型，形成正常行為的特征庫；然后針對新的數(shù)據(jù)判斷其是否屬于正常行為，從而認定其是否與總體偏離，發(fā)生偏離的即是異常值。根據(jù)所建立的分類器的不同，異常值的探測方法有以下幾種：決策樹分類；貝葉斯分類；神經(jīng)網(wǎng)絡(luò)分類；聚類。2022/12/9252022/12/7第三：基于分類預(yù)測模型的異常值探測20222022/12/9異常值探測的應(yīng)用信用卡、保險行業(yè)以及電信用戶欺詐行為的探測。異常值探測對于欺詐行為的發(fā)現(xiàn)，主要是基于這樣的思想：任何人在使用信用卡、投保和電信消費的正常行為都是有一定的規(guī)律的，并且可以通過這些行為產(chǎn)生的信息總結(jié)出這些規(guī)律；由于欺詐行為和正常的行為存在嚴重的差異，檢查出這些差異就可以探測出是否存在欺詐發(fā)生。因此可以認為，欺詐行為的發(fā)現(xiàn)過程就是一種異常數(shù)據(jù)的挖掘過程。2022/12/9262022/12/7異常值探測的應(yīng)用信用卡、保險行業(yè)以及電信用2022/12/9具體的實現(xiàn)途徑是：利用聚類、神經(jīng)網(wǎng)絡(luò)和決策樹等分類方法，通過分析用戶的購買、投保或消費習(xí)慣，細分客戶，以此分辨出偏離模式的信用卡欺詐行為；然后，推導(dǎo)出合法交易的定義，建立模型；利用模型來分析一個新的交易是合法還是非法。也可以通過六西格瑪探測、聚類等方法，尋找出與正常投保行為有極大差別的不正常行為，即有可能的欺詐行為。除了利用上述技術(shù)對異常數(shù)據(jù)進行識別外，還可以通過關(guān)聯(lián)規(guī)則的Apriori算法尋找異常數(shù)據(jù)間的隱含模型，從而達到反欺詐的目的。2022/12/9272022/12/7具體的實現(xiàn)途徑是：利用聚類、神經(jīng)網(wǎng)絡(luò)和決策2022/12/9例如：對電信用戶的欺詐行為探測的具體做法是：首先，將目標屬性定為無意欠費客戶和惡意欠費兩類；其次，選擇屬性作為輸入屬性，通常包括服務(wù)合同屬性（如服務(wù)類型、服務(wù)時間、交費類型等）、客戶的基本狀態(tài)（如性別、年齡、收入、婚姻狀況、受教育年限/學(xué)歷、職業(yè)、居住地區(qū)等）以及經(jīng)?；蚨ㄆ诟淖兊臄?shù)據(jù)（如每月消費金額、交費紀錄等）；然后，將分類方法用于預(yù)先選定的包含客戶欠費狀態(tài)的訓(xùn)練集中，從而挖掘歸納出規(guī)則集；最后，利用所獲取的規(guī)則，對電信企業(yè)新用戶的繳費情況進行預(yù)測分類，從而達到預(yù)防欺詐的目的。2022/12/9282022/12/7例如：對電信用戶的欺詐行為探測的具體做法是2022/12/9三、數(shù)據(jù)變換數(shù)據(jù)變換是將數(shù)據(jù)轉(zhuǎn)換成適合于挖掘的形式。數(shù)據(jù)變換可能涉及到如下內(nèi)容：數(shù)據(jù)規(guī)范化數(shù)據(jù)平滑數(shù)據(jù)概化2022/12/9292022/12/7三、數(shù)據(jù)變換數(shù)據(jù)變換是將數(shù)據(jù)轉(zhuǎn)換成適合于挖為什么要進行標準化？一些數(shù)據(jù)挖掘方法，需要對數(shù)據(jù)進行標準化以獲得最佳的效果。例如，對于分類算法，如涉及神經(jīng)網(wǎng)絡(luò)的算法或諸如最臨近分類和聚類的距離度量分類算法，都需要將訓(xùn)練樣本屬性度量輸入值規(guī)范化，這樣有助于加快學(xué)習(xí)階段的速度。對于基于距離的方法，規(guī)范化可以幫助防止具有較大初始值域的屬性與具有較小初始值域的屬性相比，權(quán)重過大。2022/12/930（一）規(guī)范化（標準化）為什么要進行標準化？一些數(shù)據(jù)挖掘方法，需要對數(shù)據(jù)進行標準化以小數(shù)縮放移動小數(shù)點，但是要仍然保持原始數(shù)據(jù)的特征。小數(shù)點的移動位數(shù)依賴于X的最大絕對值。典型的縮放是保持數(shù)值在-1和1范圍內(nèi)，可以用格式描述：1、小數(shù)縮放規(guī)范化是指通過將屬性數(shù)據(jù)按比例縮放，使之落入一個小的特定區(qū)間，如0.0到1.0，對屬性規(guī)范化。2022/12/931小數(shù)縮放移動小數(shù)點，但是要仍然保持原始數(shù)據(jù)的特征。小數(shù)點的移2、最小-最大規(guī)范化2022/12/932最小-最大規(guī)范化是對原始數(shù)據(jù)進行線性變換。最小-最大規(guī)范化的格式：

從而將X的值映射到[0，1]中。2、最小-最大規(guī)范化2022/12/732最小-最大規(guī)范化是2022/12/93、標準差規(guī)范化（Z-SCORE規(guī)范化）標準差規(guī)范化是將某個屬性的值基于其平均值和標準差進行規(guī)范化。標準差規(guī)范化的格式是其中：是均值；是標準差。注意：該方法適用于當(dāng)屬性X的最大和最小值未知，或孤立點左右了最大-最小規(guī)范化的情況下。2022/12/9332022/12/73、標準差規(guī)范化（Z-SCORE規(guī)范化）標為什么要進行數(shù)據(jù)的平滑？一個數(shù)值型的特征可能包含許多不同的值。對許多數(shù)據(jù)挖掘技術(shù)來說，這些值之間小小的區(qū)別并不重要，但可能會降低挖掘方法的性能并影響最終的結(jié)果。因此，對變量的值進行平滑處理很重要。2022/12/934（二）數(shù)據(jù)平滑(離散化)為什么要進行數(shù)據(jù)的平滑？一個數(shù)值型的特征可能包含許多不同的值2022/12/92022/12/9數(shù)據(jù)平滑：是指去掉數(shù)據(jù)中的噪聲。這種技術(shù)包括分箱技術(shù)、聚類和回歸。35例如：進行圓整處理。如果給定特征的值的集合是平滑后的集合是2022/12/72022/12/7數(shù)據(jù)平滑：是指去掉數(shù)據(jù)中2022/12/91、分箱分箱方法是通過考察“鄰居”來平滑存儲數(shù)據(jù)的值。存儲的值被分布到一些“桶”或“箱”中。由于分箱方法參考的是相鄰的值，因此，它進行的是局部平滑。分箱方法有以下幾種：按箱平均值平滑按箱中值平滑按箱邊值平滑。2022/12/9362022/12/71、分箱分箱方法是通過考察“鄰居”來平滑存2022/12/9例如：某產(chǎn)品的價格排序后的數(shù)據(jù)為：4、8、15、21、21、24、25、28、34。首先，將上述數(shù)據(jù)劃分為等深的箱：

箱1：4、8、15

箱2：21、21、24

箱3：25、28、34（1）按箱中值平滑：箱1：8、8、8

箱2：21、21、21

箱3：28、28、282022/12/9372022/12/7例如：某產(chǎn)品的價格排序后的數(shù)據(jù)為：4、8、2022/12/9排序后的數(shù)據(jù)為：4、8、15、21、21、24、25、28、34。

箱1：4、8、15

箱2：21、21、24

箱3：25、28、34（2）按箱平均值平滑：箱1：9、9、9

箱2：22、22、22

箱3：29、29、292022/12/9382022/12/7排序后的數(shù)據(jù)為：4、8、15、21、21、排序后的數(shù)據(jù)為：4、8、15、21、21、24、25、28、34。

箱1：4、8、15

箱2：21、21、24

箱3：25、28、34（3）按箱邊界值平滑：箱1：4、4、15

箱2：21、21、24

箱3：25、25、342022/12/939對于按箱邊值平滑來說，箱中的最大和最小值被視為箱邊界。箱中每一個值被最近的邊界值替換。排序后的數(shù)據(jù)為：4、8、15、21、21、24、25、28、2、回歸xyy=x+1X1Y1Y1’2022/12/9402、回歸xyy=x+1X1Y1Y1’2022/12/3、通過自然劃分分段3-4-5規(guī)則可以將數(shù)值數(shù)據(jù)劃分成相對一致和“自然”區(qū)間。如果一個區(qū)間在最高有效位上包含3,6,7或9個不同的值，則將該區(qū)間劃分為3個區(qū)間（對于3、6和9劃分為3個等寬區(qū)間；對于7，按2-3-2分組，劃分為3個區(qū)間）；如果最高有效位上包含2,4或8個不同的值，則將區(qū)間劃分為4個等寬區(qū)間；如果最高有效位上包含1,5或10個不同的值，則將區(qū)間劃分為5個等寬區(qū)間.2022/12/9413、通過自然劃分分段3-4-5規(guī)則可以將數(shù)值數(shù)據(jù)劃分成相對一EXAMPLE(-$400-$5,000)(-$400-0)(-$400--$300)(-$300--$200)(-$200--$100)(-$100-0)(0-$1,000)(0-$200)($200-$400)($400-$600)($600-$800)($800-$1,000)($2,000-$5,000)($2,000-$3,000)($3,000-$4,000)($4,000-$5,000)($1,000-$2,000)($1,000-$1,200)($1,200-$1,400)($1,400-$1,600)($1,600-$1,800)($1,800-$2,000)msd=1,000 Low=-$1,000 High=$2,000Step2:Step4:Step1:-$351 -$159 profit $1,838 $4,700 MinLow(i.e,5%-tile) High(i.e,95%-0tile)Maxcount(-$1,000-$2,000)(-$1,000-0)(0-$1,000)Step3:($1,000-$2,000)2022/12/942EXAMPLE(-$400-$5,000)(-$400-為什么要進行數(shù)據(jù)概化？數(shù)據(jù)庫通常存放有大量的細節(jié)數(shù)據(jù)，但我們通常希望看到的是以簡潔的、更一般的描述形式來觀察數(shù)據(jù)的特點。例如：對于一個銷售經(jīng)理來說，面對顧客數(shù)據(jù)庫，他可能不想考察每個顧客的事務(wù)，而更愿意概化到高層的數(shù)據(jù)，比如說，根據(jù)地區(qū)按顧客的分組匯總，來觀察每組顧客的購買頻率和顧客的收入，以此來分析區(qū)域差異。2022/12/943（三）數(shù)據(jù)概化為什么要進行數(shù)據(jù)概化？數(shù)據(jù)庫通常存放有大量的細節(jié)數(shù)據(jù)，但我們2022/12/9數(shù)據(jù)概化：是一個過程，它將大的任務(wù)相關(guān)的數(shù)據(jù)集從較低的概念層抽象到較高的概念層。使用概念分層，用高層次概念替換低層次“原始”數(shù)據(jù)。例如，分類的屬性，“street”，可以概化為較高層的概念，如“city”或“country”；再如，“年齡”可以概化為“青年”、“中年”和“老年”等。2022/12/9442022/12/7數(shù)據(jù)概化：是一個過程，它將大的任務(wù)相關(guān)的數(shù)2022/12/9四、元組的歸約為什么要進行離散化？在機器學(xué)習(xí)和數(shù)據(jù)挖掘中，已經(jīng)發(fā)展了處理離散型數(shù)據(jù)的很多算法，如決策樹、關(guān)聯(lián)規(guī)則及基于粗糙集理論的許多方法，而這些算法對于連續(xù)型數(shù)據(jù)卻不適用；另外，有些算法即使能處理連續(xù)型數(shù)據(jù)，挖掘和學(xué)習(xí)也沒有處理離散型數(shù)據(jù)有用和有效。離散化后可以達到歸約元祖的目的。2022/12/9452022/12/7四、元組的歸約為什么要進行離散化？2022連續(xù)屬性的離散化就是將數(shù)值屬性的值域劃分為若干子區(qū)間，每個區(qū)間對應(yīng)一個離散值。離散化方法依據(jù)不同的標準主要有以下幾種劃分：有監(jiān)督和無監(jiān)督、動態(tài)和靜態(tài)、全局和局部、自頂向下和自底向上等。2022/12/946連續(xù)屬性的離散化就是將數(shù)值屬性的值域劃分為若干子區(qū)間，每個區(qū)2022/12/9按照離散化過程中是否考慮類別信息，可以將離散化算法分為有監(jiān)督算法和無監(jiān)督算法。有監(jiān)督算法是其輸入樣本集中除了待離散化的數(shù)值屬性外，還有一個或多個離散型的類別屬性。這種算法在離散化時，將類別信息作為參考。無監(jiān)督離散化是在離散化過程中不考慮類別信息的方法，其輸入樣本集中僅含有待離散化的屬性。早期的等寬、等頻的離散化方法是無監(jiān)督方法的典型代表。無監(jiān)督的方法的缺陷在于它對分布不均勻的數(shù)據(jù)不適用，對異常點比較敏感。2022/12/9471、有監(jiān)督離散化和無監(jiān)督離散化2022/12/7按照離散化過程中是否考慮類別信息，可以將離2、動態(tài)和靜態(tài)離散化動態(tài)離散化方法是在建立分類模型的同時對連續(xù)特征進行離散化，例如，C4.5算法。在靜態(tài)離散化方法中，離散化是先于分類任務(wù)進行的。2022/12/9482、動態(tài)和靜態(tài)離散化動態(tài)離散化方法是在建立分類模型的同時對連2022/12/9自頂向下的方法是離散化開始于空的分割點（分裂點）列表，通過“分裂”區(qū)間增加新的分割點到列表中的離散化過程。自底向上是開始于屬性的全部連續(xù)值作為分割點的完全列表，以通過“合并”區(qū)間來移除它們中的一部分作為離散化的過程。2022/12/9493、自頂向下和自底向上2022/12/7自頂向下的方法是離散化開始于空的分割點（分4、局部和全局離散化局部離散化方法是僅對每一個屬性的屬性值進行劃分，如等寬區(qū)間法、等頻區(qū)間法和最大熵法等。全局離散化則是考慮全部條件屬性的屬性值進行劃分的方法，如全局聚類分析方法。2022/12/9504、局部和全局離散化局部離散化方法是僅對每一個屬性的屬性值進2022/12/9（二）典型離散化的過程一個局部單個屬性的離散化過程主要由以下四步組成（自底向上）：（1）對要離散化的屬性的連續(xù)值排序。（2）根據(jù)一定的規(guī)則產(chǎn)生候選斷點集，構(gòu)造初始區(qū)間。（3）按照合并的規(guī)則，合并相鄰的初始區(qū)間。（4）制定停止標準，使得合并一直進行到符合停止標準為止。2022/12/9512022/12/7（二）典型離散化的過程一個局部單個屬性的離2022/12/9（三）離散化方法的評價（1）區(qū)間的總數(shù)。這是對模型簡潔性的要求。理論上來說，離散得到的區(qū)間數(shù)越少越好，便于理解；但區(qū)間數(shù)的減少另一方面也會導(dǎo)致數(shù)據(jù)的可理解性變差。（2）由離散化引起的不一致性的數(shù)目。所謂不一致性是指當(dāng)兩個樣本所有的條件屬性取值相同而類別屬性的取值不同時，就稱這兩個樣本是不一致的。離散化后的不一致性數(shù)目至少應(yīng)該比在離散化前原始數(shù)據(jù)的不一致性數(shù)目少，且不一致性數(shù)目越少越好。（3）預(yù)測精確度。根據(jù)訓(xùn)練樣本集預(yù)測新樣本類別的準確率即是預(yù)測精確度，預(yù)測精確度越高，當(dāng)然就說明此離散化方法越好。2022/12/9522022/12/7（三）離散化方法的評價（1）區(qū)間的總數(shù)。22022/12/91、直方圖方法直方圖方法是將要離散化的變量值從小到大排序，然后對這些數(shù)值進行分組，最后，對這些進行賦值。依據(jù)分組的方式該方法又可以分為等寬和等頻兩種。等寬是指所分組是等距式分組。等頻是指所有的分組的次數(shù)是相等的。2022/12/9（四）具體的離散化方法532022/12/71、直方圖方法2022/12/7（四）具體2022/12/9采用Iris樣本集進行統(tǒng)計模擬（數(shù)據(jù)來源：加州大學(xué)UCIMachineLearning的數(shù)據(jù)庫中Iris樣本集）。Iris樣本集是對3種鳶尾花：剛毛鳶(yuan)尾花、變色鳶尾花、佛吉尼亞鳶尾花各抽取50個樣本。屬性是sepallengthincm萼片長度、sepalwidthincm萼片寬度、petallengthincm花瓣長度、petalwidthincm花瓣寬度。2022/12/9等寬直方圖離散化的應(yīng)用542022/12/7采用Iris樣本集進行統(tǒng)計模擬（數(shù)據(jù)來源：我們現(xiàn)在以花萼長（

sepallengthincm）屬性為例，來進行連續(xù)型值屬性的離散化。具體步驟為如下：（1）對要離散化的屬性的連續(xù)值排序。（2）根據(jù)一定的規(guī)則產(chǎn)生候選斷點集，構(gòu)造初始區(qū)間。2022/12/955我們現(xiàn)在以花萼長（sepallengthincm）2022/12/92022/12/9數(shù)值頻數(shù)數(shù)值頻數(shù)數(shù)值頻數(shù)數(shù)值頻數(shù)數(shù)值頻數(shù)4.315105.786.477.114.435.195.876.557.234.515.245.936.627.314.645.31666.787.414.725.466.166.837.614.855.576.246.947.744.965.666.39717.91562022/12/72022/12/7數(shù)值頻數(shù)數(shù)值頻數(shù)數(shù)值頻數(shù)2022/12/9（3）按照合并的規(guī)則，合并相鄰的初始區(qū)間。根據(jù)斯特杰公式有：n=1+3.3lgN=1+3.3lg150≈8那么，組距為d=R/n=(7.9-4.3)/8=0.45現(xiàn)分組如右：2022/12/9分組頻數(shù)4.3~4.75114.75~5.2305.2~5.65245.65~6.1246.1~6.55316.55~7177~7.4577.45~7.96572022/12/7（3）按照合并的規(guī)則，合并相鄰的初始區(qū)間。2022/12/9（4）制定停止標準，使得合并一直進行到符合停止標準為止。（5）防止過度擬合。為防止過度擬合，應(yīng)使得每個區(qū)間的頻數(shù)大于等于總體單位數(shù)的平方根。sqrt(150)≈122022/12/9582022/12/7（4）制定停止標準，使得合并一直進行到符合2022/12/959分組頻數(shù)4.3~4.75114.75~5.2305.2~5.65245.65~6.1246.1~6.55316.55~7177~7.4577.45~7.962022/12/759分組頻數(shù)4.3~4.75114.75~2022/12/9進行重新分組：使得每個區(qū)間的頻數(shù)大于122022/12/9分組頻數(shù)賦值4.3~5.24115.2～6.14826.1~74837~7.9134602022/12/7進行重新分組：使得每個區(qū)間的頻數(shù)大于1222022/12/92、聚類聚類算法可以用來將數(shù)據(jù)劃分為群或簇。每一個簇形成概念分層的一個節(jié)點，而所有的節(jié)點在同一個概念層。每一個簇可以進一步分成若干子簇，形成較低的概念層簇也可以聚集在一起，以形成分層結(jié)構(gòu)中較高的概念層。2022/12/9612022/12/72、聚類聚類算法可以用來將數(shù)據(jù)劃分為群或簇具體方法是：首先，將元組劃分為群或簇，使得在每一個簇中的對象“類似”，但與其他簇中的對象“不類似”。其次，為這些簇賦值，所有包含在同一個簇中的對象的值相同。注意：這種方法的有效性依賴于數(shù)據(jù)的性質(zhì)，數(shù)據(jù)必須能夠組織成不同的聚類；另外，它只適用于無監(jiān)督的離散化。2022/12/962具體方法是：2022/12/7622022/12/9例如：見IRIS樣本集，在不考慮類別信息的情況下，現(xiàn)用聚類方法離散化屬性“sepallengthincm”。有：2022/12/9分組頻數(shù)賦值4.3~5.44615.4~6.03726.0~6.53236.5~7.9354632022/12/7例如：見IRIS樣本集，在不考慮類別信息的2022/12/93、基于熵的離散化方法信息熵的概念信息論中的熵：是信息的度量單位，是一種對屬性“不確定性的度量”。屬性的不確定性越大，把它搞清楚所需要的信息量也就越大，熵也就越大。Shannon公式：其中，I(A)度量事件A發(fā)生所提供的信息量，稱之為事件A的自信息，P(A)為事件A發(fā)生的概率。2022/12/9642022/12/73、基于熵的離散化方法信息熵的概念2022如果一個屬性有N個可能的取值，且它們出現(xiàn)的概率分別為，那么這個屬性的信息熵為：一個系統(tǒng)越是有序，信息熵就越低。2022/12/965如果一個屬性有N個可能的取值，且它們出現(xiàn)的概率分別為貪心算法所謂貪心算法是指，在對問題求解時，總是做出在當(dāng)前看來是最好的選擇。也就是說，不從整體最優(yōu)上加以考慮，他所做出的僅是在某種意義上的局部最優(yōu)解。2022/12/966貪心算法所謂貪心算法是指，在對問題求解時，總是做出在當(dāng)前看來例如：假設(shè)有四種硬幣，它們的面值分別為二角五分、一角、五分和一分?，F(xiàn)在要找給某顧客六角三分錢。這時，我們會不假思索地拿出2個二角五分的硬幣，1個一角的硬幣和3個一分的硬幣交給顧客。這種找硬幣方法與其他的找法相比，所拿出的硬幣個數(shù)是最少的。這里，我們下意識地使用了這樣的找硬幣算法：首先選出一個面值不超過六角三分的最大硬幣，即二角五分；然后從六角三分中減去二角五分，剩下三角八分；再選出一個面值不超過三角八分的最大硬幣，即又一個二角五分，如此一直做下去。這個找硬幣的方法實際上就是貪心算法。顧名思義，貪心算法總是作出在當(dāng)前看來是最好的選擇。也就是說貪心算法并不從整體最優(yōu)上加以考慮，它所作出的選擇只是在某種意義上的局部最優(yōu)選擇。2022/12/967例如：假設(shè)有四種硬幣，它們的面值分別為二角五分、一角、五分和但是：如果硬幣的面值改為一分、五分和一角一分3種，而要找給顧客的是一角五分錢。還用貪心算法，我們將找給顧客1個一角一分的硬幣和4個一分的硬幣。然而3個五分的硬幣顯然是最好的找法。顯然貪心算法不是對所有問題都能得到整體最優(yōu)解，但對范圍相當(dāng)廣的許多問題它能產(chǎn)生整體最優(yōu)解。如，圖的單源最短路徑問題。在一些情況下，即使貪心算法不能得到整體最優(yōu)解，但其最終結(jié)果卻是最優(yōu)解的很好的近似解。2022/12/968但是：2022/12/768基于熵的離散化方法是通過貪心算法搜尋給定數(shù)據(jù)區(qū)間內(nèi)的具有熵值最小的數(shù)據(jù)點作為斷點。該方法將區(qū)間內(nèi)的每一個數(shù)值作為候選斷點，計算其熵值，然后從中選出具有最小熵值的數(shù)據(jù)點作為斷點，將區(qū)間一分為二，然后再對得到的區(qū)間遞歸地應(yīng)用以上方法進行離散化。停止準則是當(dāng)?shù)玫降拿總€區(qū)間中的類標簽都是一致時，即停止離散化過程；或者達到某個停止標準時，停止。2022/12/969基于熵的離散化方法基于熵的離散化方法是通過貪心算法搜尋給定數(shù)據(jù)區(qū)間內(nèi)的具有熵值2022/12/9基于熵的離散化方法2022/12/9一個給定的樣本分類所需要的信息某種劃分的期望信息70項目性別年齡學(xué)生身分收入辦卡1男>45否高會2女31~45否高會3女20~30是低會4男<20是低不會5女20~30是中不會6女20~30否中會7女31~45否高會8男31~45是中不會9男31~45否中會10女<20是低會2022/12/7基于熵的離散化方法2022/12/7一個給2022/12/9Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.10424.43006.20224.51006.30364.64006.40254.72006.50144.85006.60204.94116.703558206.80125.18106.90135.231070105.31007.10015.45107.20035.52507.30015.60517.40015.72517.60015.81337.70045.90217.900160422022/12/9舉例：IRIS樣本集的具體步驟712022/12/7Sepallen:(cm)d1d2d3Se2022/12/9首先，從第一個分割點開始，將屬性值分為兩部分即[4.3,4.4)和[4.4,7.9]，則分割后新的類別熵為：

2022/12/9區(qū)間d1d2d3合計[4.3,4.4)1001[4.4,7.9]495050149722022/12/7首先，從第一個分割點開始，將屬性值分為兩部2022/12/9以此類推，如把屬性值分為[4.3,5.6)和[5.6,7,9]兩個區(qū)間時，產(chǎn)生的新的類別熵為：2022/12/9區(qū)間d1d2d3合計[4.3,5.6)4711159[5.6,7.9]3394991732022/12/7以此類推，如把屬性值分為[4.3,5.6)2022/12/9對所有的分割點將屬性值分為兩個區(qū)間的新類別熵計算出來，有2022/12/9d1d2d3新的類別熵d1d2d3新的類別熵4.31000.4739260420.349374.43000.464086.10420.358754.51000.459666.20220.367514.64000.446796.30360.392024.72000.439546.40250.409654.85000.420436.50140.422754.94110.421886.60200.4204958200.398366.70350.436735.18100.362776.80120.439835.23100.349366.90130.443085.31000.3424770100.435835.45100.311227.10010.439545.52500.309387.20030.450345.60510.327887.30010.453855.72510.321787.40010.457305.81330.330407.60010.460715.90210.337427.70040.473927.9001742022/12/7對所有的分割點將屬性值分為兩個區(qū)間的新類別2022/12/9從上表中可以看到，將屬性值分為[4.3,5.6)和[5.6,7,9]兩個區(qū)間時，類別熵最小，因此首先把屬性值分為兩大部分。按照上述步驟，

分別再找出區(qū)間[4.3,5.6)和[5.6,7,9]的二分點，以此類推，逐漸將區(qū)間分割為更小的區(qū)間，直到滿足某個終止條件為止。2022/12/9752022/12/7從上表中可以看到，將屬性值分為[4.3,52022/12/92022/12/9d1d2d3新的類別熵d1d2d3新的類別熵4.31000.4739260420.349374.43000.464086.10420.358754.51000.459666.20220.367514.64000.446796.30360.392024.72000.439546.40250.409654.85000.420436.50140.422754.94110.421886.60200.4204958200.398366.70350.436735.18100.362776.80120.439835.23100.349366.90130.443085.31000.3424770100.435835.45100.311227.10010.439545.52500.309387.20030.450345.60510.327887.30010.453855.72510.321787.40010.457305.81330.330407.60010.460715.90210.337427.70040.473927.9001762022/12/72022/12/7d1d2d3新的類2022/12/92022/12/94、CHIMERGE算法772022/12/72022/12/74、CHIMERGE算法2022/12/92022/12/978Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.10424.43006.20224.51006.30364.64006.40254.72006.50144.85006.60204.94116.703558206.80125.18106.90135.231070105.31007.10015.45107.20035.52507.30015.60517.40015.72517.60015.81337.70045.90217.900160422022/12/72022/12/778Sepallen:(2022/12/92022/12/9792022/12/72022/12/7792022/12/92022/12/9802022/12/72022/12/7802022/12/9應(yīng)用采用Iris樣本集進行統(tǒng)計模擬。現(xiàn)在以花萼長（

sepallengthincm）屬性為例，來進行連續(xù)型值屬性的離散化。2022/12/9812022/12/7應(yīng)用采用Iris樣本集進行統(tǒng)計模擬。現(xiàn)在以2022/12/9Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.10424.43006.20224.51006.30364.64006.40254.72006.50144.85006.60204.94116.703558206.80125.18106.90135.231070105.31007.10015.45107.20035.52507.30015.60517.40015.72517.60015.81337.70045.90217.900160422022/12/9822022/12/7Sepallen:(cm)d1d2d3Se2022/12/9具體步驟：（1）觀察各區(qū)間，先將類分布完全相同的區(qū)間進行合并。2022/12/9區(qū)間d1d2d3區(qū)間d1d2d3[4.3,4.9)1600[5.7,5.9)384[4.9,5.0)411[5.9,6.6)01822[5.0,5.3)1940[6.6,6.7)020[5.3,5.4)100[6.7,7.0)0510[5.4,5.6)760[7.0,7.1)010[5.6,5.7)051[7.1,7.9)0012832022/12/7具體步驟：（1）觀察各區(qū)間，先將類分布完全2022/12/92022/12/9（2）考察[4.3,4.9)與[4.9,5)，看其是否能夠合并？兩區(qū)間的卡方統(tǒng)計量和為5.87，大于臨界值，因此兩區(qū)間不能合并。區(qū)間d1d2d3求和[4.3,4.9)160016[4.9,5)4116求和201122區(qū)間eijeijeij[4.3,4.9)14.5450.7270.727[4.9,5)5.4550.2730.273區(qū)間χ2[4.3,4.9)0.1450.7270.7271.6[4.9,5)0.3881.9391.9394.267表1：兩區(qū)間的列聯(lián)表表2：計算各項的eij表3：兩區(qū)間的卡方統(tǒng)計量值842022/12/72022/12/7（2）考察[4.3,4.2022/12/92022/12/9（3）繼續(xù)考察區(qū)間[4.9,5)與[5.0,5.3)，看其是否能夠合并，直到所有的區(qū)間卡方統(tǒng)計量大于閥值為止。852022/12/72022/12/7（3）繼續(xù)考察區(qū)間[4.2022/12/9五、屬性的歸約屬性的歸約包括兩類方法：屬性的提取和屬性子集的選擇。（一）屬性的提取屬性的提取是通過映射（或變換）的方法，將高維的屬性空間壓縮為低維的屬性空間，即將原始屬性變換為較少的新屬性。此時，“較少的新屬性”是原始屬性的某種線性組合，也可以稱為“二次屬性”。2022/12/9862022/12/7五、屬性的歸約屬性的歸約包括兩類方法：屬性2022/12/9屬性提取的最大的優(yōu)點在于：這樣的線性組合比屬性選擇中的最優(yōu)子集有更好的判別能力。但相應(yīng)的問題是，這樣的線性組合的實際意義卻不明顯，有時難以解釋。到目前為止，對屬性提取的研究主要是從線性和非線性的數(shù)據(jù)變換角度進行的。用的比較多的線性數(shù)據(jù)變換方法是：主成分分析、因子分析、判別分析、聚類分析、多維標度、投影尋蹤以及小波變換等。非線性的數(shù)據(jù)變換，主要是基于自組織映射的屬性抽取方法、基于核的主成分分析和基于核的判別分析方法等。2022/12/9872022/12/7屬性提取的最大的優(yōu)點在于：這樣的線性組合比2022/12/91、主成分分析（因子分析）主成分分析和因子分析都是多元統(tǒng)計分析中的一種常用方法，是數(shù)學(xué)上處理降維的一種方法。主成分分析的基本思想：設(shè)法將原始屬性重新組合成一組新的互相無關(guān)的幾個綜合屬性，同時根據(jù)需要從中選取少數(shù)幾個綜合屬性來盡可能多地反映原來指標的信息。綜合指標的選取使用的是方差最大法。2022/12/9882022/12/71、主成分分析（因子分析）主成分分析和因子2、因子分析因子分析的基本思想：通過變量（或樣本）的相關(guān)系數(shù)矩陣內(nèi)部結(jié)構(gòu)的研究，找出能控制所有變量的少數(shù)幾個因子去描述多個變量之間的相關(guān)關(guān)系；然后，根據(jù)相關(guān)性的大小把變量分組，使得同組內(nèi)的變量之間相關(guān)性較高，但不同組之間相關(guān)性較低。2022/12/9892、因子分析因子分析的基本思想：2022/12/7892022/12/9主成分分析和因子分析的對比數(shù)據(jù)標準化建立指標之間的相關(guān)系數(shù)矩陣R求R的特征值和特征向量計算累計貢獻率大于85%的前n個特征值的特征向量根據(jù)特征向量建立n個主成分（由變量的線性組合而成）2022/12/9根據(jù)n個特征向量建立因子載荷陣對因子載荷陣實行方差最大旋轉(zhuǎn)按照變量在每個因子上載荷陣的高低，分類。主成分分析因子分析由因子的線性組合來解釋變量902022/12/7主成分分析和因子分析的對比數(shù)據(jù)標準化建立指主成份分析和因子分析的優(yōu)點因子（主成份）之間的線性相關(guān)關(guān)系不顯著。主成份參與數(shù)據(jù)建模能夠有效地解決變量多重共線性等分析應(yīng)用帶來的問題。因子能夠反映原有變量的絕大部分信息。因子的方差貢獻和方差貢獻率是衡量因子重要性的關(guān)鍵指標。該值越高，說明相應(yīng)因子的重要性越高。aij因子載荷反映了某i個變量在第j因子上的相對重要性。因子得分是因子分析的最終體現(xiàn)。在后續(xù)的分析中可以用因子變量代替原有變量進行建模，或者利用因子變量對樣本分類、評價或排序等研究。2022/12/991主成份分析和因子分析的優(yōu)點因子（主成份）之間的線性相關(guān)關(guān)系不3、聚類分析——K均值聚類分析K均值法是麥奎因（MacQueen，1967）提出的，這種算法的基本思想是將每一個樣品分配給最近中心（均值）的類中.具體的算法至少包括以下三個步驟：

1．將所有的樣品分成K個初始類；

2．通過歐氏距離將某個樣品劃入離中心最近的類中，并對獲得樣品與失去樣品的類，重新計算中心坐標；

3．重復(fù)步驟2，直到所有的樣品都不能再分配時為止。2022/12/9923、聚類分析——K均值聚類分析K均值法是麥奎因（MacQu2022/12/9（二）屬性子集的選擇屬性子集的選擇是通過刪除不相關(guān)的屬性來減少數(shù)據(jù)量。屬性子集選擇的目標是找出最小屬性集，使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布。2022/12/9932022/12/7（二）屬性子集的選擇屬性子集的選擇是通過刪2022/12/9屬性子集的選擇方法一般有兩個組成部分：一是高效率的屬性子集搜索策略，即在允許的時間內(nèi)，用以找出最小的、最能描述類別的屬性組合的搜索方法；二是確定評價函數(shù)，是衡量屬性組合是否最優(yōu)的標準。屬性子集的選擇一般分兩步進行：首先，產(chǎn)生屬性子集；然后，對子集進行評價，如果滿足停止條件則停止，否則重復(fù)前述兩步直到條件滿足為止。2022/12/994通過該標準，要能夠衡量哪組屬性子集的分類效果最好，即使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布；或者能夠衡量哪組屬性子集的分類效果最好，即最能夠代表全部的屬性集合對樣本的劃分。2022/12/7屬性子集的選擇方法一般有兩個組成部分：202022/12/91、搜索策略按照搜索屬性形成屬性子集的方式，搜索策略可以分為：窮舉法、啟發(fā)式和隨機搜索。啟發(fā)式搜索即貪心算法?；镜膯l(fā)式屬性選擇算法主要有：逐步向前選擇（SFS）、逐步向后選擇（SBG）以及向前選擇和向后刪除相結(jié)合的方法等。2022/12/9952022/12/71、搜索策略按照搜索屬性形成屬性子集的方式2022/12/9（1）逐步向前選擇逐步向前選擇方法是一種自下而上的搜索方法，它是由空屬性集開始，依次從未入選的屬性中選擇一個屬性，使它與已入選的屬性組合在一起時所得的評價函數(shù)達到最大值（或最小值，依評價函數(shù)選取的不同，取最大或最小值），直到評價函數(shù)的值不再增加（或減?。r為止，亦或者達到指定的屬性數(shù)為止。2022/12/99696能夠衡量哪組屬性子集的分類效果最好，最能夠代表全部的屬性集合對樣本的劃分。2022/12/7（1）逐步向前選擇2022/12/7969這種算法的不足是：在算法中雖然考慮了所選屬性與已入選屬性之間的相關(guān)性，但卻未考慮未入選屬性之間的統(tǒng)計相關(guān)性，并且一旦某個屬性已入選，即使由于后加入的屬性使它變?yōu)槎嘤?，也無法再剔除。2022/12/997這種算法的不足是：在算法中雖然考慮了所選屬性與已入選屬性之間2022/12/9（2）逐步向后刪除逐步向后刪除是一種自上而下搜索的方法，它由整個屬性集開始，在每一步刪除掉在屬性集中最壞的屬性，評判屬性好壞的準則是，如果剔除該屬性后，屬性集的評價函數(shù)達到最大（或最?。┲担敲催@個屬性是最壞的。2022/12/998982022/12/7（2）逐步向后刪除2022/12/7989（3）逐步向前選擇和逐步向后刪除相結(jié)合向前選擇和向后刪除結(jié)合的方法則是將向前選擇和向后刪除方法結(jié)合在一起，每一步選擇一個最好的屬性，并在其剩余的屬性中刪除掉一個最壞的屬性。這兩種方法也存在著與逐步向前選擇方法相同的缺點。2022/12/999（3）逐步向前選擇和逐步向后刪除相結(jié)合2022/12/7992022/12/9（4）廣義逐步向前選擇廣義逐步向前選擇方法是逐步向前選擇方法的推廣，針對逐步向前選擇方法“未能考慮未入選屬性之間的統(tǒng)計相關(guān)性”的缺點，該方法每次從未入選的屬性中挑選的不止是一個屬性而是多個屬性。廣義逐步向前選擇方法的缺點是：計算量要比逐步向前選擇方法大很多，并且也未解決“一旦某個屬性已入選，即使由于后加入的屬性使它變?yōu)槎嘤?，也無法再剔除”的問題。2022/12/91001002022/12/7（4）廣義逐步向前選擇2022/12/712022/12/92、屬性子集選擇中的評價函數(shù)在屬性子集選擇中，找出最具代表性的屬性子集需要一個子集優(yōu)劣的評價標準。通過該標準，使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布；如果沒有類屬性，則能夠衡量哪組屬性子集的分類效果最好，最能夠代表全部的屬性集合對樣本的劃分。這種評價標準以函數(shù)的形式表示出來就是評價函數(shù)。它在模式識別中，也被稱為類別可分性判據(jù)。2022/12/91012022/12/72、屬性子集選擇中的評價函數(shù)在屬性子集選擇2022/12/9評價函數(shù)在屬性子集的選擇中是非常關(guān)鍵的，不同的評價函數(shù)可能會得出不同的結(jié)果。評價函數(shù)的建立形式是多種多樣的：基于距離的評價函數(shù)、基于相關(guān)性的評價函數(shù)（無監(jiān)督屬性子集的選擇方法）。基于一致性的評價函數(shù)、分類錯誤率以及基于信息熵的評價函數(shù)等(有監(jiān)督屬性子集選擇方法)。2022/12/91022022/12/7評價函數(shù)在屬性子集的選擇中是非常關(guān)鍵的，不3、評價函數(shù)的要求2022/12/91033、評價函數(shù)的要求2022/12/71032022/12/94、模式識別中基于距離的評價函數(shù)2022/12/91042022/12/74、模式識別中基于距離的評價函數(shù)2022/2022/12/92022/12/91052022/12/72022/12/71052022/12/9屬性子集選擇方法的應(yīng)用主要思路：通過因子分析和相關(guān)分析為逐步向前選擇算法找到每一次選用子集的最優(yōu)屬性。選用2004年各地區(qū)城鎮(zhèn)居民家庭人均全年消費性支出樣本集對逐步向前的屬性子集選擇方法進行模擬。具體步驟如下：首先，對這個樣本集作KMO(Kaiser-Meyer-Olkin)檢驗，KMO值為0.87，表明該數(shù)據(jù)集適合作因子分析。KMO值是用于比較變量間簡單相關(guān)系數(shù)和偏相關(guān)系數(shù)的指標。KMO值在0.9以上表式非常適合作因子分析，在0.8～0.9之間表示適合，在0.7～0.8表示一般，在0.6～0.7之間表示不太適合，0.6以下表示極不適合。2022/12/91062022/12/7屬性子集選擇方法的應(yīng)用主要思路：通過因子分2022/12/91072022/12/71072022/12/9108因子初始解第二列說明提取公因子后，變量可以被因子解釋的信息有多少2022/12/7108因子初始解第二列說明提取公因子后，變2022/12/92022/12/9109對樣本集進行因子分析，因子分析中前2個因子的貢獻率分別是74.543%和11.144%，累計貢獻率為85.687%。2022/12/72022/12/7109對樣本集進行因子分2022/12/92022/12/91102022/12/72022/12/71102022/12/92022/12/91112022/12/72022/12/71112022/12/92022/12/91122022/12/72022/12/71122022/12/92022/12/91132022/12/72022/12/71132022/12/92022/12/91142022/12/72022/12/71142022/12/94.數(shù)據(jù)預(yù)處理2022/12/91152022/12/74.數(shù)據(jù)預(yù)處理2022/12/71為什么要進行數(shù)據(jù)挖掘?現(xiàn)實世界的數(shù)據(jù)是臟的不完整:缺乏屬性值，缺乏有意義的屬性，或者只包含了匯總數(shù)據(jù)e.g.,occupation=“”有噪聲:包含錯誤的數(shù)據(jù)或異常值e.g.,Salary=“-10”不一致:在代碼或者名字中存在矛盾或不一致e.g.,Age=“42”Birthday=“03/07/1997”e.g.,Wasrating“1,2,3”,nowrating“A,B,C”e.g.,discrepancybetweenduplicaterecords2022/12/9116為什么要進行數(shù)據(jù)挖掘?現(xiàn)實世界的數(shù)據(jù)是臟的2022/12/7為什么數(shù)據(jù)預(yù)處理重要?Noqualitydata,noqualityminingresults!Qualitydecisionsmustbebasedonqualitydatae.g.,duplicateormissingdatamaycauseincorrectorevenmisleadingstatistics.DatawarehouseneedsconsistentintegrationofqualitydataDataextraction,cleaning,andtransformationcomprisesthemajorityoftheworkofbuildingadatawarehouse2022/12/9117為什么數(shù)據(jù)預(yù)處理重要?Noqualitydata,no2022/12/9118數(shù)據(jù)預(yù)處理的主要內(nèi)容：2022/12/74數(shù)據(jù)預(yù)處理的主要內(nèi)容：2022/12/9數(shù)據(jù)預(yù)處理的主要內(nèi)容一、原始數(shù)據(jù)的表述二、數(shù)據(jù)清理三、數(shù)據(jù)變換四、元組的歸約五、屬性的歸約2022/12/91192022/12/7數(shù)據(jù)預(yù)處理的主要內(nèi)容一、原始數(shù)據(jù)的表述20數(shù)據(jù)樣本是數(shù)據(jù)挖掘過程的基本組成部分。一、原始數(shù)據(jù)的表述2022/12/9120每個樣本都用幾個特征來描述，每個特征有不同類型的值。數(shù)據(jù)樣本是數(shù)據(jù)挖掘過程的基本組成部分。一、原始數(shù)據(jù)的表述202022/12/92022/12/9常見的數(shù)據(jù)類型有：數(shù)值型和分類型。數(shù)值型包括實型變量和整型變量注：具有數(shù)值型值的特征有兩個重要的屬性：其值有順序關(guān)系和距離關(guān)系。1212022/12/72022/12/7常見的數(shù)據(jù)類型有：數(shù)值型2022/12/92022/12/9一個有兩個值的分類型變量:分類型變量的兩個值可以平等或不平等。原則上可以轉(zhuǎn)化成一個二進制的數(shù)值型變量，這種數(shù)值型變量有兩個值：0或1；而有N值的分類型變量原則上可以轉(zhuǎn)化成一個二進制的數(shù)值型變量，這種數(shù)值型變量有N個值。1222022/12/72022/12/7一個有兩個值的分類型變量2022/12/92022/12/9例如：如果變量“眼睛顏色”有4個值：黑色、藍色、綠色、褐色。

特征值編碼黑色1000

藍色0100

綠色0010

褐色00011232022/12/72022/12/7例如：如果變量“眼睛顏色2022/12/92022/12/9變量的分類：連續(xù)型變量和離散型變量。連續(xù)型變量也認為是定量型或是量度型，是指在一定區(qū)間內(nèi)可以任意取值的變量。離散型變量也叫定性型變量，是指全部可能取到的不相同的值是有限個的變量。注：一種特殊類型的離散型變量是周期變量，例如：星期、月和年中的日期。1242022/12/72022/12/7變量的分類：連續(xù)型變量和2022/12/92022/12/9與時間有關(guān)的數(shù)據(jù)分類：靜態(tài)數(shù)據(jù)——數(shù)據(jù)不隨時間變化而變化動態(tài)數(shù)據(jù)（時間數(shù)據(jù)）——隨時間變化而變化的屬性。注：大多數(shù)數(shù)據(jù)挖掘方法更適用于靜態(tài)數(shù)據(jù)，在對動態(tài)數(shù)據(jù)進行挖掘時要有特殊的考慮和預(yù)處理。1252022/12/72022/12/7與時間有關(guān)的數(shù)據(jù)分類：12022/12/9二、數(shù)據(jù)清理——缺失值的填補2022/12/9對數(shù)據(jù)挖掘的實際應(yīng)用而言，即使數(shù)據(jù)量很大，具有完整數(shù)據(jù)的案例也非常少，這樣就面臨數(shù)據(jù)的缺失問題。應(yīng)用數(shù)據(jù)挖掘方法之前如何處理這樣現(xiàn)象，最簡單的辦法是減少數(shù)據(jù)集，去掉所有有缺失值的樣本。如果我們不想扔掉這些有缺失值的樣本，就必須找到它們的缺失值，用什么方法來實現(xiàn)呢？填補缺失值。1262022/12/7二、數(shù)據(jù)清理——缺失值的填補2022/122022/12/91、單一填補法（1）均值填補法。均值填補法是根據(jù)與含缺失值的目標屬性相關(guān)性高的其它屬性的信息將樣品分為若干組，然后分別計算各組目標屬性的均值，將各組均值作為組內(nèi)所有缺失項的填補值。均值填補的優(yōu)點是操作簡便，并且可以有效地降低其點估計的偏差。但它的缺點也比較突出：首先，由于同組中的缺失值由同一個值填補，填補結(jié)果歪曲了目標屬性的分布；其次，也導(dǎo)致在均值和總量估計中對方差的低估。2022/12/91272022/12/71、單一填補法2022/12/713例：2022/12/9128例：2022/12/714均值填補：2022/12/9129均值填補：2022/12/7152022/12/9（2）隨機填補法。隨機填補法是采用某種概率抽樣的方式，從有完整信息的元組中抽取缺失數(shù)據(jù)的填補值的方法。它雖然能夠避免均值填補中填補值過于凝集以及容易扭曲目標屬性分布的弱點，使得填補值的分布與真值分布更為接近。但它卻增大了估計量的方差，并且穩(wěn)定性不夠。2022/12/91302022/12/7（2）隨機填補法。2022/12/7162022/12/9（3）熱卡填補法。熱卡填補法（hotdeckimputation）是規(guī)定一個或多個排序?qū)傩?，按其觀察值大小對全部觀察單位排序，如果選擇的是兩個以上的屬性，排序按屬性的入選順序依次進行。排序?qū)傩灾低耆嗤挠^察單位稱為匹配，缺失值就用與之匹配的觀察單位的屬性值來填補。如果有多例相匹配，可取第一例或隨機取其一。如果沒有相匹配的，可以每次減少一個排序?qū)傩?，再找相匹配的元組。如果直到最后一個排序?qū)傩裕€沒有找到相匹配的，則需要重新規(guī)定排序?qū)傩浴?022/12/9131項目性別年齡學(xué)生身分收入辦卡1男>45否高會2女31~45否高會3女20~30是低會4男<20是低不會5女20~30是中不會6女20~30否中會7女31~45否高會8男31~45是中不會9男31~45否中會10女<20是低會2022/12/7（3）熱卡填補法。2022/12/717項2022/12/9（4）回歸填補法?；貧w填補法是指在現(xiàn)有觀察值基礎(chǔ)上，以含有缺失值的目標屬性為因變量，以與目標屬性相關(guān)性高的其它屬性為自變量，建立最小二乘回歸模型或判別模型，以估計缺失值。注意：以上幾種方法都存在扭曲樣本分布的問題，如均值填補會降低屬性之間的相關(guān)關(guān)系，回歸填補則會人為地加大變量之間的相關(guān)關(guān)系等。2022/12/91322022/12/7（4）回歸填補法。2022/12/718例：2022/12/9133例：2022/12/7192022/12/92022/12/9（二）異常值（孤立點）探測在大型數(shù)據(jù)集中，通常存在著不遵循數(shù)據(jù)模型的普遍行為的樣本，這些樣本和其他殘余部分數(shù)據(jù)有很大不同或不一致，叫做異常點。異常點可能是由測量誤差造成的，也可能是數(shù)據(jù)故有的可變性結(jié)果。例如：在檢測銀行交易中的信用卡欺詐行為時，異常點是可能揭示欺詐行為的典型例子。1342022/12/72022/12/7（二）異常值（孤立點）探2022/12/92022/12/9異常值的探測方法第一，一維樣本異常點的檢測方法例如：如果所給的數(shù)據(jù)集用20個不同的值描述年齡特征：3,56,23,39,156,52,41,22,9,28,139,31,55,20,-67,37,11,55,45,37均值=39.9;標

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)預(yù)處理概述課件

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)預(yù)處理概述課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔