數(shù)據(jù)準(zhǔn)備(統(tǒng)計(jì)學(xué)專業(yè))

上傳人：樂(lè)*** IP屬地：江蘇上傳時(shí)間：2023-09-06 格式：PPT 頁(yè)數(shù)：144 大小：4.37MB 積分：25 舉報(bào) 版權(quán)申訴

數(shù)據(jù)準(zhǔn)備(統(tǒng)計(jì)學(xué)專業(yè))_第2頁(yè)

數(shù)據(jù)準(zhǔn)備(統(tǒng)計(jì)學(xué)專業(yè))_第3頁(yè)

數(shù)據(jù)準(zhǔn)備(統(tǒng)計(jì)學(xué)專業(yè))_第4頁(yè)

數(shù)據(jù)準(zhǔn)備(統(tǒng)計(jì)學(xué)專業(yè))_第5頁(yè)

已閱讀5頁(yè)，還剩139頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章數(shù)據(jù)預(yù)處理2023/9/62023/9/61為什么要進(jìn)行數(shù)據(jù)挖掘?現(xiàn)實(shí)世界的數(shù)據(jù)是臟的不完整:缺乏屬性值，缺乏有意義的屬性，或者只包含了匯總數(shù)據(jù)e.g.,occupation=“”有噪聲:包含錯(cuò)誤的數(shù)據(jù)或異常值e.g.,Salary=“-10”不一致:在代碼或者名字中存在矛盾或不一致e.g.,Age=“42”Birthday=“03/07/1997”e.g.,Wasrating“1,2,3”,nowrating“A,B,C”e.g.,discrepancybetweenduplicaterecords2023/9/62為什么數(shù)據(jù)預(yù)處理重要?Noqualitydata,noqualityminingresults!Qualitydecisionsmustbebasedonqualitydatae.g.,duplicateormissingdatamaycauseincorrectorevenmisleadingstatistics.DatawarehouseneedsconsistentintegrationofqualitydataDataextraction,cleaning,andtransformationcomprisesthemajorityoftheworkofbuildingadatawarehouse2023/9/63數(shù)據(jù)預(yù)處理的主要內(nèi)容：2023/9/64數(shù)據(jù)預(yù)處理的主要內(nèi)容一、原始數(shù)據(jù)的表述二、數(shù)據(jù)清理三、數(shù)據(jù)變換四、元組的歸約五、屬性的歸約2023/9/62023/9/65數(shù)據(jù)樣本是數(shù)據(jù)挖掘過(guò)程的基本組成部分。一、原始數(shù)據(jù)的表述每個(gè)樣本都用幾個(gè)特征來(lái)描述，每個(gè)特征有不同類型的值。2023/9/662023/9/6常見(jiàn)的數(shù)據(jù)類型有：數(shù)值型和分類型。數(shù)值型包括實(shí)型變量和整型變量注：具有數(shù)值型值的特征有兩個(gè)重要的屬性：其值有順序關(guān)系和距離關(guān)系。2023/9/672023/9/6一個(gè)有兩個(gè)值的分類型變量:分類型變量的兩個(gè)值可以平等或不平等。原則上可以轉(zhuǎn)化成一個(gè)二進(jìn)制的數(shù)值型變量，這種數(shù)值型變量有兩個(gè)值：0或1；而有N值的分類型變量原則上可以轉(zhuǎn)化成一個(gè)二進(jìn)制的數(shù)值型變量，這種數(shù)值型變量有N個(gè)值。2023/9/682023/9/6例如：如果變量“眼睛顏色”有4個(gè)值：黑色、藍(lán)色、綠色、褐色。

特征值編碼黑色1000

藍(lán)色0100

綠色0010

褐色00012023/9/692023/9/6變量的分類：連續(xù)型變量和離散型變量。連續(xù)型變量也認(rèn)為是定量型或是量度型，是指在一定區(qū)間內(nèi)可以任意取值的變量。離散型變量也叫定性型變量，是指全部可能取到的不相同的值是有限個(gè)的變量。注：一種特殊類型的離散型變量是周期變量，例如：星期、月和年中的日期。2023/9/6102023/9/6與時(shí)間有關(guān)的數(shù)據(jù)分類：靜態(tài)數(shù)據(jù)——數(shù)據(jù)不隨時(shí)間變化而變化動(dòng)態(tài)數(shù)據(jù)（時(shí)間數(shù)據(jù)）——隨時(shí)間變化而變化的屬性。注：大多數(shù)數(shù)據(jù)挖掘方法更適用于靜態(tài)數(shù)據(jù)，在對(duì)動(dòng)態(tài)數(shù)據(jù)進(jìn)行挖掘時(shí)要有特殊的考慮和預(yù)處理。2023/9/611二、數(shù)據(jù)清理——缺失值的填補(bǔ)2023/9/6對(duì)數(shù)據(jù)挖掘的實(shí)際應(yīng)用而言，即使數(shù)據(jù)量很大，具有完整數(shù)據(jù)的案例也非常少，這樣就面臨數(shù)據(jù)的缺失問(wèn)題。應(yīng)用數(shù)據(jù)挖掘方法之前如何處理這樣現(xiàn)象，最簡(jiǎn)單的辦法是減少數(shù)據(jù)集，去掉所有有缺失值的樣本。如果我們不想扔掉這些有缺失值的樣本，就必須找到它們的缺失值，用什么方法來(lái)實(shí)現(xiàn)呢？填補(bǔ)缺失值。2023/9/6121、單一填補(bǔ)法（1）均值填補(bǔ)法。均值填補(bǔ)法是根據(jù)與含缺失值的目標(biāo)屬性相關(guān)性高的其它屬性的信息將樣品分為若干組，然后分別計(jì)算各組目標(biāo)屬性的均值，將各組均值作為組內(nèi)所有缺失項(xiàng)的填補(bǔ)值。均值填補(bǔ)的優(yōu)點(diǎn)是操作簡(jiǎn)便，并且可以有效地降低其點(diǎn)估計(jì)的偏差。但它的缺點(diǎn)也比較突出：首先，由于同組中的缺失值由同一個(gè)值填補(bǔ)，填補(bǔ)結(jié)果歪曲了目標(biāo)屬性的分布；其次，也導(dǎo)致在均值和總量估計(jì)中對(duì)方差的低估。2023/9/62023/9/613例：2023/9/614均值填補(bǔ)：2023/9/615（2）隨機(jī)填補(bǔ)法。隨機(jī)填補(bǔ)法是采用某種概率抽樣的方式，從有完整信息的元組中抽取缺失數(shù)據(jù)的填補(bǔ)值的方法。它雖然能夠避免均值填補(bǔ)中填補(bǔ)值過(guò)于凝集以及容易扭曲目標(biāo)屬性分布的弱點(diǎn)，使得填補(bǔ)值的分布與真值分布更為接近。但它卻增大了估計(jì)量的方差，并且穩(wěn)定性不夠。2023/9/62023/9/616（3）熱卡填補(bǔ)法。熱卡填補(bǔ)法（hotdeckimputation）是規(guī)定一個(gè)或多個(gè)排序?qū)傩?，按其觀察值大小對(duì)全部觀察單位排序，如果選擇的是兩個(gè)以上的屬性，排序按屬性的入選順序依次進(jìn)行。排序?qū)傩灾低耆嗤挠^察單位稱為匹配，缺失值就用與之匹配的觀察單位的屬性值來(lái)填補(bǔ)。如果有多例相匹配，可取第一例或隨機(jī)取其一。如果沒(méi)有相匹配的，可以每次減少一個(gè)排序?qū)傩?，再找相匹配的元組。如果直到最后一個(gè)排序?qū)傩裕€沒(méi)有找到相匹配的，則需要重新規(guī)定排序?qū)傩浴?023/9/6項(xiàng)目性別年齡學(xué)生身分收入辦卡1男>45否高會(huì)2女31~45否高會(huì)3女20~30是低會(huì)4男<20是低不會(huì)5女20~30是中不會(huì)6女20~30否中會(huì)7女31~45否高會(huì)8男31~45是中不會(huì)9男31~45否中會(huì)10女<20是低會(huì)2023/9/617（4）回歸填補(bǔ)法。回歸填補(bǔ)法是指在現(xiàn)有觀察值基礎(chǔ)上，以含有缺失值的目標(biāo)屬性為因變量，以與目標(biāo)屬性相關(guān)性高的其它屬性為自變量，建立最小二乘回歸模型或判別模型，以估計(jì)缺失值。注意：以上幾種方法都存在扭曲樣本分布的問(wèn)題，如均值填補(bǔ)會(huì)降低屬性之間的相關(guān)關(guān)系，回歸填補(bǔ)則會(huì)人為地加大變量之間的相關(guān)關(guān)系等。2023/9/62023/9/618例：2023/9/6192023/9/6（二）異常值（孤立點(diǎn)）探測(cè)在大型數(shù)據(jù)集中，通常存在著不遵循數(shù)據(jù)模型的普遍行為的樣本，這些樣本和其他殘余部分?jǐn)?shù)據(jù)有很大不同或不一致，叫做異常點(diǎn)。異常點(diǎn)可能是由測(cè)量誤差造成的，也可能是數(shù)據(jù)故有的可變性結(jié)果。例如：在檢測(cè)銀行交易中的信用卡欺詐行為時(shí)，異常點(diǎn)是可能揭示欺詐行為的典型例子。2023/9/6202023/9/6異常值的探測(cè)方法第一，一維樣本異常點(diǎn)的檢測(cè)方法例如：如果所給的數(shù)據(jù)集用20個(gè)不同的值描述年齡特征：3,56,23,39,156,52,41,22,9,28,139,31,55,20,-67,37,11,55,45,37均值=39.9;標(biāo)準(zhǔn)差=45.65閾值=均值±2×標(biāo)準(zhǔn)差那么，所有在[-54.1,131.2]區(qū)間以外的數(shù)據(jù)都是潛在的異常點(diǎn)。根據(jù)實(shí)際可以把區(qū)間縮減到[0,131.2]，由這個(gè)標(biāo)準(zhǔn)發(fā)現(xiàn)3個(gè)異常點(diǎn)：156,139,-67。2023/9/6212023/9/6第二，基于距離的異常點(diǎn)檢測(cè)（二維以上數(shù)據(jù)）例如：數(shù)據(jù)集為：S={S1,S2,S3,S4,S5,S6,S7}＝{(2,4),(3,2),(1,1),(4,3),(1,6),(5,3),(4,2)}

歐氏距離d=[(X1-X2)2+(Y1-Y2)2]1/2

取閾值距離為d=32023/9/622異常點(diǎn)2023/9/623根據(jù)所用程序的結(jié)果和所給的閾值，可選擇S3和S5作為異常點(diǎn)。2023/9/624第三：基于分類預(yù)測(cè)模型的異常值探測(cè)異常值的探測(cè)也可以認(rèn)為是一類特殊的分類問(wèn)題。因?yàn)閷?duì)于一般的分類問(wèn)題，考慮的是如何將各種類別有效地分開(kāi)，而在異常值探測(cè)中，分類的目標(biāo)是準(zhǔn)確地描述總體的正常行為特征，在此之外大范圍的其它對(duì)象被視為異常值。其基本思想是：對(duì)總體的特征建立分類模型，形成正常行為的特征庫(kù)；然后針對(duì)新的數(shù)據(jù)判斷其是否屬于正常行為，從而認(rèn)定其是否與總體偏離，發(fā)生偏離的即是異常值。根據(jù)所建立的分類器的不同，異常值的探測(cè)方法有以下幾種：決策樹(shù)分類；貝葉斯分類；神經(jīng)網(wǎng)絡(luò)分類；聚類。2023/9/62023/9/625異常值探測(cè)的應(yīng)用信用卡、保險(xiǎn)行業(yè)以及電信用戶欺詐行為的探測(cè)。異常值探測(cè)對(duì)于欺詐行為的發(fā)現(xiàn)，主要是基于這樣的思想：任何人在使用信用卡、投保和電信消費(fèi)的正常行為都是有一定的規(guī)律的，并且可以通過(guò)這些行為產(chǎn)生的信息總結(jié)出這些規(guī)律；由于欺詐行為和正常的行為存在嚴(yán)重的差異，檢查出這些差異就可以探測(cè)出是否存在欺詐發(fā)生。因此可以認(rèn)為，欺詐行為的發(fā)現(xiàn)過(guò)程就是一種異常數(shù)據(jù)的挖掘過(guò)程。2023/9/62023/9/626具體的實(shí)現(xiàn)途徑是：利用聚類、神經(jīng)網(wǎng)絡(luò)和決策樹(shù)等分類方法，通過(guò)分析用戶的購(gòu)買(mǎi)、投?；蛳M(fèi)習(xí)慣，細(xì)分客戶，以此分辨出偏離模式的信用卡欺詐行為；然后，推導(dǎo)出合法交易的定義，建立模型；利用模型來(lái)分析一個(gè)新的交易是合法還是非法。也可以通過(guò)六西格瑪探測(cè)、聚類等方法，尋找出與正常投保行為有極大差別的不正常行為，即有可能的欺詐行為。除了利用上述技術(shù)對(duì)異常數(shù)據(jù)進(jìn)行識(shí)別外，還可以通過(guò)關(guān)聯(lián)規(guī)則的Apriori算法尋找異常數(shù)據(jù)間的隱含模型，從而達(dá)到反欺詐的目的。2023/9/62023/9/627例如：對(duì)電信用戶的欺詐行為探測(cè)的具體做法是：首先，將目標(biāo)屬性定為無(wú)意欠費(fèi)客戶和惡意欠費(fèi)兩類；其次，選擇屬性作為輸入屬性，通常包括服務(wù)合同屬性（如服務(wù)類型、服務(wù)時(shí)間、交費(fèi)類型等）、客戶的基本狀態(tài)（如性別、年齡、收入、婚姻狀況、受教育年限/學(xué)歷、職業(yè)、居住地區(qū)等）以及經(jīng)?；蚨ㄆ诟淖兊臄?shù)據(jù)（如每月消費(fèi)金額、交費(fèi)紀(jì)錄等）；然后，將分類方法用于預(yù)先選定的包含客戶欠費(fèi)狀態(tài)的訓(xùn)練集中，從而挖掘歸納出規(guī)則集；最后，利用所獲取的規(guī)則，對(duì)電信企業(yè)新用戶的繳費(fèi)情況進(jìn)行預(yù)測(cè)分類，從而達(dá)到預(yù)防欺詐的目的。2023/9/62023/9/628三、數(shù)據(jù)變換數(shù)據(jù)變換是將數(shù)據(jù)轉(zhuǎn)換成適合于挖掘的形式。數(shù)據(jù)變換可能涉及到如下內(nèi)容：數(shù)據(jù)規(guī)范化數(shù)據(jù)平滑數(shù)據(jù)概化2023/9/62023/9/629為什么要進(jìn)行標(biāo)準(zhǔn)化？一些數(shù)據(jù)挖掘方法，需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化以獲得最佳的效果。例如，對(duì)于分類算法，如涉及神經(jīng)網(wǎng)絡(luò)的算法或諸如最臨近分類和聚類的距離度量分類算法，都需要將訓(xùn)練樣本屬性度量輸入值規(guī)范化，這樣有助于加快學(xué)習(xí)階段的速度。對(duì)于基于距離的方法，規(guī)范化可以幫助防止具有較大初始值域的屬性與具有較小初始值域的屬性相比，權(quán)重過(guò)大。（一）規(guī)范化（標(biāo)準(zhǔn)化）2023/9/630小數(shù)縮放移動(dòng)小數(shù)點(diǎn)，但是要仍然保持原始數(shù)據(jù)的特征。小數(shù)點(diǎn)的移動(dòng)位數(shù)依賴于X的最大絕對(duì)值。典型的縮放是保持?jǐn)?shù)值在-1和1范圍內(nèi)，可以用格式描述：1、小數(shù)縮放規(guī)范化是指通過(guò)將屬性數(shù)據(jù)按比例縮放，使之落入一個(gè)小的特定區(qū)間，如0.0到1.0，對(duì)屬性規(guī)范化。2023/9/6312、最小-最大規(guī)范化最小-最大規(guī)范化是對(duì)原始數(shù)據(jù)進(jìn)行線性變換。最小-最大規(guī)范化的格式：

從而將X的值映射到[0，1]中。2023/9/6323、標(biāo)準(zhǔn)差規(guī)范化（Z-SCORE規(guī)范化）標(biāo)準(zhǔn)差規(guī)范化是將某個(gè)屬性的值基于其平均值和標(biāo)準(zhǔn)差進(jìn)行規(guī)范化。標(biāo)準(zhǔn)差規(guī)范化的格式是其中：是均值；是標(biāo)準(zhǔn)差。注意：該方法適用于當(dāng)屬性X的最大和最小值未知，或孤立點(diǎn)左右了最大-最小規(guī)范化的情況下。2023/9/62023/9/633為什么要進(jìn)行數(shù)據(jù)的平滑？一個(gè)數(shù)值型的特征可能包含許多不同的值。對(duì)許多數(shù)據(jù)挖掘技術(shù)來(lái)說(shuō)，這些值之間小小的區(qū)別并不重要，但可能會(huì)降低挖掘方法的性能并影響最終的結(jié)果。因此，對(duì)變量的值進(jìn)行平滑處理很重要。（二）數(shù)據(jù)平滑(離散化)2023/9/6342023/9/6數(shù)據(jù)平滑：是指去掉數(shù)據(jù)中的噪聲。這種技術(shù)包括分箱技術(shù)、聚類和回歸。例如：進(jìn)行圓整處理。如果給定特征的值的集合是平滑后的集合是2023/9/6351、分箱分箱方法是通過(guò)考察“鄰居”來(lái)平滑存儲(chǔ)數(shù)據(jù)的值。存儲(chǔ)的值被分布到一些“桶”或“箱”中。由于分箱方法參考的是相鄰的值，因此，它進(jìn)行的是局部平滑。分箱方法有以下幾種：按箱平均值平滑按箱中值平滑按箱邊值平滑。2023/9/62023/9/636例如：某產(chǎn)品的價(jià)格排序后的數(shù)據(jù)為：4、8、15、21、21、24、25、28、34。首先，將上述數(shù)據(jù)劃分為等深的箱：

箱1：4、8、15

箱2：21、21、24

箱3：25、28、34（1）按箱中值平滑：箱1：8、8、8

箱2：21、21、21

箱3：28、28、282023/9/62023/9/637排序后的數(shù)據(jù)為：4、8、15、21、21、24、25、28、34。

箱1：4、8、15

箱2：21、21、24

箱3：25、28、34（2）按箱平均值平滑：箱1：9、9、9

箱2：22、22、22

箱3：29、29、292023/9/62023/9/638排序后的數(shù)據(jù)為：4、8、15、21、21、24、25、28、34。

箱1：4、8、15

箱2：21、21、24

箱3：25、28、34（3）按箱邊界值平滑：箱1：4、4、15

箱2：21、21、24

箱3：25、25、34對(duì)于按箱邊值平滑來(lái)說(shuō)，箱中的最大和最小值被視為箱邊界。箱中每一個(gè)值被最近的邊界值替換。2023/9/6392、回歸xyy=x+1X1Y1Y1’2023/9/6403、通過(guò)自然劃分分段3-4-5規(guī)則可以將數(shù)值數(shù)據(jù)劃分成相對(duì)一致和“自然”區(qū)間。如果一個(gè)區(qū)間在最高有效位上包含3,6,7或9個(gè)不同的值，則將該區(qū)間劃分為3個(gè)區(qū)間（對(duì)于3、6和9劃分為3個(gè)等寬區(qū)間；對(duì)于7，按2-3-2分組，劃分為3個(gè)區(qū)間）；如果最高有效位上包含2,4或8個(gè)不同的值，則將區(qū)間劃分為4個(gè)等寬區(qū)間；如果最高有效位上包含1,5或10個(gè)不同的值，則將區(qū)間劃分為5個(gè)等寬區(qū)間.2023/9/641EXAMPLE(-$400-$5,000)(-$400-0)(-$400--$300)(-$300--$200)(-$200--$100)(-$100-0)(0-$1,000)(0-$200)($200-$400)($400-$600)($600-$800)($800-$1,000)($2,000-$5,000)($2,000-$3,000)($3,000-$4,000)($4,000-$5,000)($1,000-$2,000)($1,000-$1,200)($1,200-$1,400)($1,400-$1,600)($1,600-$1,800)($1,800-$2,000)msd=1,000 Low=-$1,000 High=$2,000Step2:Step4:Step1:-$351 -$159 profit $1,838 $4,700 MinLow(i.e,5%-tile) High(i.e,95%-0tile)Maxcount(-$1,000-$2,000)(-$1,000-0)(0-$1,000)Step3:($1,000-$2,000)2023/9/642為什么要進(jìn)行數(shù)據(jù)概化？數(shù)據(jù)庫(kù)通常存放有大量的細(xì)節(jié)數(shù)據(jù)，但我們通常希望看到的是以簡(jiǎn)潔的、更一般的描述形式來(lái)觀察數(shù)據(jù)的特點(diǎn)。例如：對(duì)于一個(gè)銷售經(jīng)理來(lái)說(shuō)，面對(duì)顧客數(shù)據(jù)庫(kù)，他可能不想考察每個(gè)顧客的事務(wù)，而更愿意概化到高層的數(shù)據(jù)，比如說(shuō)，根據(jù)地區(qū)按顧客的分組匯總，來(lái)觀察每組顧客的購(gòu)買(mǎi)頻率和顧客的收入，以此來(lái)分析區(qū)域差異。（三）數(shù)據(jù)概化2023/9/643數(shù)據(jù)概化：是一個(gè)過(guò)程，它將大的任務(wù)相關(guān)的數(shù)據(jù)集從較低的概念層抽象到較高的概念層。使用概念分層，用高層次概念替換低層次“原始”數(shù)據(jù)。例如，分類的屬性，“street”，可以概化為較高層的概念，如“city”或“country”；再如，“年齡”可以概化為“青年”、“中年”和“老年”等。2023/9/62023/9/644四、元組的歸約為什么要進(jìn)行離散化？在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中，已經(jīng)發(fā)展了處理離散型數(shù)據(jù)的很多算法，如決策樹(shù)、關(guān)聯(lián)規(guī)則及基于粗糙集理論的許多方法，而這些算法對(duì)于連續(xù)型數(shù)據(jù)卻不適用；另外，有些算法即使能處理連續(xù)型數(shù)據(jù)，挖掘和學(xué)習(xí)也沒(méi)有處理離散型數(shù)據(jù)有用和有效。離散化后可以達(dá)到歸約元祖的目的。2023/9/62023/9/645連續(xù)屬性的離散化就是將數(shù)值屬性的值域劃分為若干子區(qū)間，每個(gè)區(qū)間對(duì)應(yīng)一個(gè)離散值。離散化方法依據(jù)不同的標(biāo)準(zhǔn)主要有以下幾種劃分：有監(jiān)督和無(wú)監(jiān)督、動(dòng)態(tài)和靜態(tài)、全局和局部、自頂向下和自底向上等。2023/9/646按照離散化過(guò)程中是否考慮類別信息，可以將離散化算法分為有監(jiān)督算法和無(wú)監(jiān)督算法。有監(jiān)督算法是其輸入樣本集中除了待離散化的數(shù)值屬性外，還有一個(gè)或多個(gè)離散型的類別屬性。這種算法在離散化時(shí)，將類別信息作為參考。無(wú)監(jiān)督離散化是在離散化過(guò)程中不考慮類別信息的方法，其輸入樣本集中僅含有待離散化的屬性。早期的等寬、等頻的離散化方法是無(wú)監(jiān)督方法的典型代表。無(wú)監(jiān)督的方法的缺陷在于它對(duì)分布不均勻的數(shù)據(jù)不適用，對(duì)異常點(diǎn)比較敏感。2023/9/61、有監(jiān)督離散化和無(wú)監(jiān)督離散化2023/9/6472、動(dòng)態(tài)和靜態(tài)離散化動(dòng)態(tài)離散化方法是在建立分類模型的同時(shí)對(duì)連續(xù)特征進(jìn)行離散化，例如，C4.5算法。在靜態(tài)離散化方法中，離散化是先于分類任務(wù)進(jìn)行的。2023/9/648自頂向下的方法是離散化開(kāi)始于空的分割點(diǎn)（分裂點(diǎn)）列表，通過(guò)“分裂”區(qū)間增加新的分割點(diǎn)到列表中的離散化過(guò)程。自底向上是開(kāi)始于屬性的全部連續(xù)值作為分割點(diǎn)的完全列表，以通過(guò)“合并”區(qū)間來(lái)移除它們中的一部分作為離散化的過(guò)程。2023/9/63、自頂向下和自底向上2023/9/6494、局部和全局離散化局部離散化方法是僅對(duì)每一個(gè)屬性的屬性值進(jìn)行劃分，如等寬區(qū)間法、等頻區(qū)間法和最大熵法等。全局離散化則是考慮全部條件屬性的屬性值進(jìn)行劃分的方法，如全局聚類分析方法。2023/9/650（二）典型離散化的過(guò)程一個(gè)局部單個(gè)屬性的離散化過(guò)程主要由以下四步組成（自底向上）：（1）對(duì)要離散化的屬性的連續(xù)值排序。（2）根據(jù)一定的規(guī)則產(chǎn)生候選斷點(diǎn)集，構(gòu)造初始區(qū)間。（3）按照合并的規(guī)則，合并相鄰的初始區(qū)間。（4）制定停止標(biāo)準(zhǔn)，使得合并一直進(jìn)行到符合停止標(biāo)準(zhǔn)為止。2023/9/62023/9/651（三）離散化方法的評(píng)價(jià)（1）區(qū)間的總數(shù)。這是對(duì)模型簡(jiǎn)潔性的要求。理論上來(lái)說(shuō)，離散得到的區(qū)間數(shù)越少越好，便于理解；但區(qū)間數(shù)的減少另一方面也會(huì)導(dǎo)致數(shù)據(jù)的可理解性變差。（2）由離散化引起的不一致性的數(shù)目。所謂不一致性是指當(dāng)兩個(gè)樣本所有的條件屬性取值相同而類別屬性的取值不同時(shí)，就稱這兩個(gè)樣本是不一致的。離散化后的不一致性數(shù)目至少應(yīng)該比在離散化前原始數(shù)據(jù)的不一致性數(shù)目少，且不一致性數(shù)目越少越好。（3）預(yù)測(cè)精確度。根據(jù)訓(xùn)練樣本集預(yù)測(cè)新樣本類別的準(zhǔn)確率即是預(yù)測(cè)精確度，預(yù)測(cè)精確度越高，當(dāng)然就說(shuō)明此離散化方法越好。2023/9/62023/9/6521、直方圖方法直方圖方法是將要離散化的變量值從小到大排序，然后對(duì)這些數(shù)值進(jìn)行分組，最后，對(duì)這些進(jìn)行賦值。依據(jù)分組的方式該方法又可以分為等寬和等頻兩種。等寬是指所分組是等距式分組。等頻是指所有的分組的次數(shù)是相等的。2023/9/6（四）具體的離散化方法2023/9/653采用Iris樣本集進(jìn)行統(tǒng)計(jì)模擬（數(shù)據(jù)來(lái)源：加州大學(xué)UCIMachineLearning的數(shù)據(jù)庫(kù)中Iris樣本集）。Iris樣本集是對(duì)3種鳶尾花：剛毛鳶(yuan)尾花、變色鳶尾花、佛吉尼亞鳶尾花各抽取50個(gè)樣本。屬性是sepallengthincm萼片長(zhǎng)度、sepalwidthincm萼片寬度、petallengthincm花瓣長(zhǎng)度、petalwidthincm花瓣寬度。2023/9/6等寬直方圖離散化的應(yīng)用2023/9/654我們現(xiàn)在以花萼長(zhǎng)（

sepallengthincm）屬性為例，來(lái)進(jìn)行連續(xù)型值屬性的離散化。具體步驟為如下：（1）對(duì)要離散化的屬性的連續(xù)值排序。（2）根據(jù)一定的規(guī)則產(chǎn)生候選斷點(diǎn)集，構(gòu)造初始區(qū)間。2023/9/6552023/9/6數(shù)值頻數(shù)數(shù)值頻數(shù)數(shù)值頻數(shù)數(shù)值頻數(shù)數(shù)值頻數(shù)4.315105.786.477.114.435.195.876.557.234.515.245.936.627.314.645.31666.787.414.725.466.166.837.614.855.576.246.947.744.965.666.39717.912023/9/656（3）按照合并的規(guī)則，合并相鄰的初始區(qū)間。根據(jù)斯特杰公式有：n=1+3.3lgN=1+3.3lg150≈8那么，組距為d=R/n=(7.9-4.3)/8=0.45現(xiàn)分組如右：2023/9/6分組頻數(shù)4.3~4.75114.75~5.2305.2~5.65245.65~6.1246.1~6.55316.55~7177~7.4577.45~7.962023/9/657（4）制定停止標(biāo)準(zhǔn)，使得合并一直進(jìn)行到符合停止標(biāo)準(zhǔn)為止。（5）防止過(guò)度擬合。為防止過(guò)度擬合，應(yīng)使得每個(gè)區(qū)間的頻數(shù)大于等于總體單位數(shù)的平方根。sqrt(150)≈122023/9/62023/9/658分組頻數(shù)4.3~4.75114.75~5.2305.2~5.65245.65~6.1246.1~6.55316.55~7177~7.4577.45~7.962023/9/659進(jìn)行重新分組：使得每個(gè)區(qū)間的頻數(shù)大于122023/9/6分組頻數(shù)賦值4.3~5.24115.2～6.14826.1~74837~7.91342023/9/6602、聚類聚類算法可以用來(lái)將數(shù)據(jù)劃分為群或簇。每一個(gè)簇形成概念分層的一個(gè)節(jié)點(diǎn)，而所有的節(jié)點(diǎn)在同一個(gè)概念層。每一個(gè)簇可以進(jìn)一步分成若干子簇，形成較低的概念層簇也可以聚集在一起，以形成分層結(jié)構(gòu)中較高的概念層。2023/9/62023/9/661具體方法是：首先，將元組劃分為群或簇，使得在每一個(gè)簇中的對(duì)象“類似”，但與其他簇中的對(duì)象“不類似”。其次，為這些簇賦值，所有包含在同一個(gè)簇中的對(duì)象的值相同。注意：這種方法的有效性依賴于數(shù)據(jù)的性質(zhì)，數(shù)據(jù)必須能夠組織成不同的聚類；另外，它只適用于無(wú)監(jiān)督的離散化。2023/9/662例如：見(jiàn)IRIS樣本集，在不考慮類別信息的情況下，現(xiàn)用聚類方法離散化屬性“sepallengthincm”。有：2023/9/6分組頻數(shù)賦值4.3~5.44615.4~6.03726.0~6.53236.5~7.93542023/9/6633、基于熵的離散化方法信息熵的概念信息論中的熵：是信息的度量單位，是一種對(duì)屬性“不確定性的度量”。屬性的不確定性越大，把它搞清楚所需要的信息量也就越大，熵也就越大。Shannon公式：其中，I(A)度量事件A發(fā)生所提供的信息量，稱之為事件A的自信息，P(A)為事件A發(fā)生的概率。2023/9/62023/9/664如果一個(gè)屬性有N個(gè)可能的取值，且它們出現(xiàn)的概率分別為，那么這個(gè)屬性的信息熵為：一個(gè)系統(tǒng)越是有序，信息熵就越低。2023/9/665貪心算法所謂貪心算法是指，在對(duì)問(wèn)題求解時(shí)，總是做出在當(dāng)前看來(lái)是最好的選擇。也就是說(shuō)，不從整體最優(yōu)上加以考慮，他所做出的僅是在某種意義上的局部最優(yōu)解。2023/9/666例如：假設(shè)有四種硬幣，它們的面值分別為二角五分、一角、五分和一分?，F(xiàn)在要找給某顧客六角三分錢(qián)。這時(shí)，我們會(huì)不假思索地拿出2個(gè)二角五分的硬幣，1個(gè)一角的硬幣和3個(gè)一分的硬幣交給顧客。這種找硬幣方法與其他的找法相比，所拿出的硬幣個(gè)數(shù)是最少的。這里，我們下意識(shí)地使用了這樣的找硬幣算法：首先選出一個(gè)面值不超過(guò)六角三分的最大硬幣，即二角五分；然后從六角三分中減去二角五分，剩下三角八分；再選出一個(gè)面值不超過(guò)三角八分的最大硬幣，即又一個(gè)二角五分，如此一直做下去。這個(gè)找硬幣的方法實(shí)際上就是貪心算法。顧名思義，貪心算法總是作出在當(dāng)前看來(lái)是最好的選擇。也就是說(shuō)貪心算法并不從整體最優(yōu)上加以考慮，它所作出的選擇只是在某種意義上的局部最優(yōu)選擇。2023/9/667但是：如果硬幣的面值改為一分、五分和一角一分3種，而要找給顧客的是一角五分錢(qián)。還用貪心算法，我們將找給顧客1個(gè)一角一分的硬幣和4個(gè)一分的硬幣。然而3個(gè)五分的硬幣顯然是最好的找法。顯然貪心算法不是對(duì)所有問(wèn)題都能得到整體最優(yōu)解，但對(duì)范圍相當(dāng)廣的許多問(wèn)題它能產(chǎn)生整體最優(yōu)解。如，圖的單源最短路徑問(wèn)題。在一些情況下，即使貪心算法不能得到整體最優(yōu)解，但其最終結(jié)果卻是最優(yōu)解的很好的近似解。2023/9/668基于熵的離散化方法是通過(guò)貪心算法搜尋給定數(shù)據(jù)區(qū)間內(nèi)的具有熵值最小的數(shù)據(jù)點(diǎn)作為斷點(diǎn)。該方法將區(qū)間內(nèi)的每一個(gè)數(shù)值作為候選斷點(diǎn)，計(jì)算其熵值，然后從中選出具有最小熵值的數(shù)據(jù)點(diǎn)作為斷點(diǎn)，將區(qū)間一分為二，然后再對(duì)得到的區(qū)間遞歸地應(yīng)用以上方法進(jìn)行離散化。停止準(zhǔn)則是當(dāng)?shù)玫降拿總€(gè)區(qū)間中的類標(biāo)簽都是一致時(shí)，即停止離散化過(guò)程；或者達(dá)到某個(gè)停止標(biāo)準(zhǔn)時(shí)，停止?；陟氐碾x散化方法2023/9/669基于熵的離散化方法2023/9/6一個(gè)給定的樣本分類所需要的信息某種劃分的期望信息項(xiàng)目性別年齡學(xué)生身分收入辦卡1男>45否高會(huì)2女31~45否高會(huì)3女20~30是低會(huì)4男<20是低不會(huì)5女20~30是中不會(huì)6女20~30否中會(huì)7女31~45否高會(huì)8男31~45是中不會(huì)9男31~45否中會(huì)10女<20是低會(huì)2023/9/670Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.10424.43006.20224.51006.30364.64006.40254.72006.50144.85006.60204.94116.703558206.80125.18106.90135.231070105.31007.10015.45107.20035.52507.30015.60517.40015.72517.60015.81337.70045.90217.900160422023/9/6舉例：IRIS樣本集的具體步驟2023/9/671首先，從第一個(gè)分割點(diǎn)開(kāi)始，將屬性值分為兩部分即[4.3,4.4)和[4.4,7.9]，則分割后新的類別熵為：

2023/9/6區(qū)間d1d2d3合計(jì)[4.3,4.4)1001[4.4,7.9]4950501492023/9/672以此類推，如把屬性值分為[4.3,5.6)和[5.6,7,9]兩個(gè)區(qū)間時(shí)，產(chǎn)生的新的類別熵為：2023/9/6區(qū)間d1d2d3合計(jì)[4.3,5.6)4711159[5.6,7.9]33949912023/9/673對(duì)所有的分割點(diǎn)將屬性值分為兩個(gè)區(qū)間的新類別熵計(jì)算出來(lái)，有2023/9/6d1d2d3新的類別熵d1d2d3新的類別熵4.31000.4739260420.349374.43000.464086.10420.358754.51000.459666.20220.367514.64000.446796.30360.392024.72000.439546.40250.409654.85000.420436.50140.422754.94110.421886.60200.4204958200.398366.70350.436735.18100.362776.80120.439835.23100.349366.90130.443085.31000.3424770100.435835.45100.311227.10010.439545.52500.309387.20030.450345.60510.327887.30010.453855.72510.321787.40010.457305.81330.330407.60010.460715.90210.337427.70040.473927.90012023/9/674從上表中可以看到，將屬性值分為[4.3,5.6)和[5.6,7,9]兩個(gè)區(qū)間時(shí)，類別熵最小，因此首先把屬性值分為兩大部分。按照上述步驟，

分別再找出區(qū)間[4.3,5.6)和[5.6,7,9]的二分點(diǎn)，以此類推，逐漸將區(qū)間分割為更小的區(qū)間，直到滿足某個(gè)終止條件為止。2023/9/62023/9/6752023/9/6d1d2d3新的類別熵d1d2d3新的類別熵4.31000.4739260420.349374.43000.464086.10420.358754.51000.459666.20220.367514.64000.446796.30360.392024.72000.439546.40250.409654.85000.420436.50140.422754.94110.421886.60200.4204958200.398366.70350.436735.18100.362776.80120.439835.23100.349366.90130.443085.31000.3424770100.435835.45100.311227.10010.439545.52500.309387.20030.450345.60510.327887.30010.453855.72510.321787.40010.457305.81330.330407.60010.460715.90210.337427.70040.473927.90012023/9/6762023/9/64、CHIMERGE算法2023/9/6772023/9/6Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.10424.43006.20224.51006.30364.64006.40254.72006.50144.85006.60204.94116.703558206.80125.18106.90135.231070105.31007.10015.45107.20035.52507.30015.60517.40015.72517.60015.81337.70045.90217.900160422023/9/6782023/9/62023/9/6792023/9/62023/9/680應(yīng)用采用Iris樣本集進(jìn)行統(tǒng)計(jì)模擬。現(xiàn)在以花萼長(zhǎng)（

sepallengthincm）屬性為例，來(lái)進(jìn)行連續(xù)型值屬性的離散化。2023/9/62023/9/681Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.10424.43006.20224.51006.30364.64006.40254.72006.50144.85006.60204.94116.703558206.80125.18106.90135.231070105.31007.10015.45107.20035.52507.30015.60517.40015.72517.60015.81337.70045.90217.900160422023/9/62023/9/682具體步驟：（1）觀察各區(qū)間，先將類分布完全相同的區(qū)間進(jìn)行合并。2023/9/6區(qū)間d1d2d3區(qū)間d1d2d3[4.3,4.9)1600[5.7,5.9)384[4.9,5.0)411[5.9,6.6)01822[5.0,5.3)1940[6.6,6.7)020[5.3,5.4)100[6.7,7.0)0510[5.4,5.6)760[7.0,7.1)010[5.6,5.7)051[7.1,7.9)00122023/9/6832023/9/6（2）考察[4.3,4.9)與[4.9,5)，看其是否能夠合并？?jī)蓞^(qū)間的卡方統(tǒng)計(jì)量和為5.87，大于臨界值，因此兩區(qū)間不能合并。區(qū)間d1d2d3求和[4.3,4.9)160016[4.9,5)4116求和201122區(qū)間eijeijeij[4.3,4.9)14.5450.7270.727[4.9,5)5.4550.2730.273區(qū)間χ2[4.3,4.9)0.1450.7270.7271.6[4.9,5)0.3881.9391.9394.267表1：兩區(qū)間的列聯(lián)表表2：計(jì)算各項(xiàng)的eij表3：兩區(qū)間的卡方統(tǒng)計(jì)量值2023/9/6842023/9/6（3）繼續(xù)考察區(qū)間[4.9,5)與[5.0,5.3)，看其是否能夠合并，直到所有的區(qū)間卡方統(tǒng)計(jì)量大于閥值為止。2023/9/685五、屬性的歸約屬性的歸約包括兩類方法：屬性的提取和屬性子集的選擇。（一）屬性的提取屬性的提取是通過(guò)映射（或變換）的方法，將高維的屬性空間壓縮為低維的屬性空間，即將原始屬性變換為較少的新屬性。此時(shí)，“較少的新屬性”是原始屬性的某種線性組合，也可以稱為“二次屬性”。2023/9/62023/9/686屬性提取的最大的優(yōu)點(diǎn)在于：這樣的線性組合比屬性選擇中的最優(yōu)子集有更好的判別能力。但相應(yīng)的問(wèn)題是，這樣的線性組合的實(shí)際意義卻不明顯，有時(shí)難以解釋。到目前為止，對(duì)屬性提取的研究主要是從線性和非線性的數(shù)據(jù)變換角度進(jìn)行的。用的比較多的線性數(shù)據(jù)變換方法是：主成分分析、因子分析、判別分析、聚類分析、多維標(biāo)度、投影尋蹤以及小波變換等。非線性的數(shù)據(jù)變換，主要是基于自組織映射的屬性抽取方法、基于核的主成分分析和基于核的判別分析方法等。2023/9/62023/9/6871、主成分分析（因子分析）主成分分析和因子分析都是多元統(tǒng)計(jì)分析中的一種常用方法，是數(shù)學(xué)上處理降維的一種方法。主成分分析的基本思想：設(shè)法將原始屬性重新組合成一組新的互相無(wú)關(guān)的幾個(gè)綜合屬性，同時(shí)根據(jù)需要從中選取少數(shù)幾個(gè)綜合屬性來(lái)盡可能多地反映原來(lái)指標(biāo)的信息。綜合指標(biāo)的選取使用的是方差最大法。2023/9/62023/9/6882、因子分析因子分析的基本思想：通過(guò)變量（或樣本）的相關(guān)系數(shù)矩陣內(nèi)部結(jié)構(gòu)的研究，找出能控制所有變量的少數(shù)幾個(gè)因子去描述多個(gè)變量之間的相關(guān)關(guān)系；然后，根據(jù)相關(guān)性的大小把變量分組，使得同組內(nèi)的變量之間相關(guān)性較高，但不同組之間相關(guān)性較低。2023/9/689主成分分析和因子分析的對(duì)比2023/9/6主成分分析因子分析由因子的線性組合來(lái)解釋變量2023/9/690主成份分析和因子分析的優(yōu)點(diǎn)因子（主成份）之間的線性相關(guān)關(guān)系不顯著。主成份參與數(shù)據(jù)建模能夠有效地解決變量多重共線性等分析應(yīng)用帶來(lái)的問(wèn)題。因子能夠反映原有變量的絕大部分信息。因子的方差貢獻(xiàn)和方差貢獻(xiàn)率是衡量因子重要性的關(guān)鍵指標(biāo)。該值越高，說(shuō)明相應(yīng)因子的重要性越高。aij因子載荷反映了某i個(gè)變量在第j因子上的相對(duì)重要性。因子得分是因子分析的最終體現(xiàn)。在后續(xù)的分析中可以用因子變量代替原有變量進(jìn)行建模，或者利用因子變量對(duì)樣本分類、評(píng)價(jià)或排序等研究。2023/9/6913、聚類分析——K均值聚類分析K均值法是麥奎因（MacQueen，1967）提出的，這種算法的基本思想是將每一個(gè)樣品分配給最近中心（均值）的類中.具體的算法至少包括以下三個(gè)步驟：

1．將所有的樣品分成K個(gè)初始類；

2．通過(guò)歐氏距離將某個(gè)樣品劃入離中心最近的類中，并對(duì)獲得樣品與失去樣品的類，重新計(jì)算中心坐標(biāo)；

3．重復(fù)步驟2，直到所有的樣品都不能再分配時(shí)為止。2023/9/692（二）屬性子集的選擇屬性子集的選擇是通過(guò)刪除不相關(guān)的屬性來(lái)減少數(shù)據(jù)量。屬性子集選擇的目標(biāo)是找出最小屬性集，使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布。2023/9/62023/9/693屬性子集的選擇方法一般有兩個(gè)組成部分：一是高效率的屬性子集搜索策略，即在允許的時(shí)間內(nèi)，用以找出最小的、最能描述類別的屬性組合的搜索方法；二是確定評(píng)價(jià)函數(shù)，是衡量屬性組合是否最優(yōu)的標(biāo)準(zhǔn)。屬性子集的選擇一般分兩步進(jìn)行：首先，產(chǎn)生屬性子集；然后，對(duì)子集進(jìn)行評(píng)價(jià)，如果滿足停止條件則停止，否則重復(fù)前述兩步直到條件滿足為止。2023/9/6通過(guò)該標(biāo)準(zhǔn)，要能夠衡量哪組屬性子集的分類效果最好，即使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布；或者能夠衡量哪組屬性子集的分類效果最好，即最能夠代表全部的屬性集合對(duì)樣本的劃分。2023/9/6941、搜索策略按照搜索屬性形成屬性子集的方式，搜索策略可以分為：窮舉法、啟發(fā)式和隨機(jī)搜索。啟發(fā)式搜索即貪心算法?；镜膯l(fā)式屬性選擇算法主要有：逐步向前選擇（SFS）、逐步向后選擇（SBG）以及向前選擇和向后刪除相結(jié)合的方法等。2023/9/62023/9/695（1）逐步向前選擇逐步向前選擇方法是一種自下而上的搜索方法，它是由空屬性集開(kāi)始，依次從未入選的屬性中選擇一個(gè)屬性，使它與已入選的屬性組合在一起時(shí)所得的評(píng)價(jià)函數(shù)達(dá)到最大值（或最小值，依評(píng)價(jià)函數(shù)選取的不同，取最大或最小值），直到評(píng)價(jià)函數(shù)的值不再增加（或減?。r(shí)為止，亦或者達(dá)到指定的屬性數(shù)為止。2023/9/696能夠衡量哪組屬性子集的分類效果最好，最能夠代表全部的屬性集合對(duì)樣本的劃分。2023/9/696這種算法的不足是：在算法中雖然考慮了所選屬性與已入選屬性之間的相關(guān)性，但卻未考慮未入選屬性之間的統(tǒng)計(jì)相關(guān)性，并且一旦某個(gè)屬性已入選，即使由于后加入的屬性使它變?yōu)槎嘤?，也無(wú)法再剔除。2023/9/697（2）逐步向后刪除逐步向后刪除是一種自上而下搜索的方法，它由整個(gè)屬性集開(kāi)始，在每一步刪除掉在屬性集中最壞的屬性，評(píng)判屬性好壞的準(zhǔn)則是，如果剔除該屬性后，屬性集的評(píng)價(jià)函數(shù)達(dá)到最大（或最?。┲担敲催@個(gè)屬性是最壞的。2023/9/6982023/9/698（3）逐步向前選擇和逐步向后刪除相結(jié)合向前選擇和向后刪除結(jié)合的方法則是將向前選擇和向后刪除方法結(jié)合在一起，每一步選擇一個(gè)最好的屬性，并在其剩余的屬性中刪除掉一個(gè)最壞的屬性。這兩種方法也存在著與逐步向前選擇方法相同的缺點(diǎn)。2023/9/699（4）廣義逐步向前選擇廣義逐步向前選擇方法是逐步向前選擇方法的推廣，針對(duì)逐步向前選擇方法“未能考慮未入選屬性之間的統(tǒng)計(jì)相關(guān)性”的缺點(diǎn)，該方法每次從未入選的屬性中挑選的不止是一個(gè)屬性而是多個(gè)屬性。廣義逐步向前選擇方法的缺點(diǎn)是：計(jì)算量要比逐步向前選擇方法大很多，并且也未解決“一旦某個(gè)屬性已入選，即使由于后加入的屬性使它變?yōu)槎嘤?，也無(wú)法再剔除”的問(wèn)題。2023/9/61002023/9/61002、屬性子集選擇中的評(píng)價(jià)函數(shù)在屬性子集選擇中，找出最具代表性的屬性子集需要一個(gè)子集優(yōu)劣的評(píng)價(jià)標(biāo)準(zhǔn)。通過(guò)該標(biāo)準(zhǔn)，使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布；如果沒(méi)有類屬性，則能夠衡量哪組屬性子集的分類效果最好，最能夠代表全部的屬性集合對(duì)樣本的劃分。這種評(píng)價(jià)標(biāo)準(zhǔn)以函數(shù)的形式表示出來(lái)就是評(píng)價(jià)函數(shù)。它在模式識(shí)別中，也被稱為類別可分性判據(jù)。2023/9/62023/9/6101評(píng)價(jià)函數(shù)在屬性子集的選擇中是非常關(guān)鍵的，不同的評(píng)價(jià)函數(shù)可能會(huì)得出不同的結(jié)果。評(píng)價(jià)函數(shù)的建立形式是多種多樣的：基于距離的評(píng)價(jià)函數(shù)、基于相關(guān)性的評(píng)價(jià)函數(shù)（無(wú)監(jiān)督屬性子集的選擇方法）?；谝恢滦缘脑u(píng)價(jià)函數(shù)、分類錯(cuò)誤率以及基于信息熵的評(píng)價(jià)函數(shù)等(有監(jiān)督屬性子集選擇方法)。2023/9/62023/9/61023、評(píng)價(jià)函數(shù)的要求2023/9/61034、模式識(shí)別中基于距離的評(píng)價(jià)函數(shù)2023/9/62023/9/61042023/9/62023/9/6105屬性子集選擇方法的應(yīng)用主要思路：通過(guò)因子分析和相關(guān)分析為逐步向前選擇算法找到每一次選用子集的最優(yōu)屬性。選用2004年各地區(qū)城鎮(zhèn)居民家庭人均全年消費(fèi)性支出樣本集對(duì)逐步向前的屬性子集選擇方法進(jìn)行模擬。具體步驟如下：首先，對(duì)這個(gè)樣本集作KMO(Kaiser-Meyer-Olkin)檢驗(yàn)，KMO值為0.87，表明該數(shù)據(jù)集適合作因子分析。KMO值是用于比較變量間簡(jiǎn)單相關(guān)系數(shù)和偏相關(guān)系數(shù)的指標(biāo)。KMO值在0.9以上表式非常適合作因子分析，在0.8～0.9之間表示適合，在0.7～0.8表示一般，在0.6～0.7之間表示不太適合，0.6以下表示極不適合。2023/9/62023/9/61062023/9/6107因子初始解第二列說(shuō)明提取公因子后，變量可以被因子解釋的信息有多少2023/9/61082023/9/6對(duì)樣本集進(jìn)行因子分析，因子分析中前2個(gè)因子的貢獻(xiàn)率分別是74.543%和11.144%，累計(jì)貢獻(xiàn)率為85.687%。2023/9/61092023/9/62023/9/61102023/9/62023/9/61112023/9/62023/9/61122023/9/62023/9/61132023/9/62023/9/6114第一節(jié)活塞式空壓機(jī)的工作原理第二節(jié)活塞式空壓機(jī)的結(jié)構(gòu)和自動(dòng)控制第三節(jié)活塞式空壓機(jī)的管理復(fù)習(xí)思考題單擊此處輸入你的副標(biāo)題，文字是您思想的提煉，為了最終演示發(fā)布的良好效果，請(qǐng)盡量言簡(jiǎn)意賅的闡述觀點(diǎn)。第六章活塞式空氣壓縮機(jī)

piston-aircompressor壓縮空氣在船舶上的應(yīng)用：

1.主機(jī)的啟動(dòng)、換向；

2.輔機(jī)的啟動(dòng)；

3.為氣動(dòng)裝置提供氣源；

4.為氣動(dòng)工具提供氣源；

5.吹洗零部件和濾器。

排氣量:單位時(shí)間內(nèi)所排送的相當(dāng)?shù)谝患?jí)吸氣狀態(tài)的空氣體積。單位：m3/s、m3/min、m3/h第六章活塞式空氣壓縮機(jī)

piston-aircompressor空壓機(jī)分類：按排氣壓力分：低壓0.2～1.0MPa；中壓1～10MPa；高壓10～100MPa。按排氣量分：微型<1m3/min；小型1～10m3/min；中型10～100m3/min；大型>100m3/min。第六章活塞式空氣壓縮機(jī)

piston-aircompressor第一節(jié)活塞式空壓機(jī)的工作原理容積式壓縮機(jī)按結(jié)構(gòu)分為兩大類：往復(fù)式與旋轉(zhuǎn)式兩級(jí)活塞式壓縮機(jī)單級(jí)活塞壓縮機(jī)活塞式壓縮機(jī)膜片式壓縮機(jī)旋轉(zhuǎn)葉片式壓縮機(jī)最長(zhǎng)的使用壽命-

----低轉(zhuǎn)速（1460RPM），動(dòng)件少（軸承與滑片），潤(rùn)滑油在機(jī)件間形成保護(hù)膜，防止磨損及泄漏，使空壓機(jī)能夠安靜有效運(yùn)作；平時(shí)有按規(guī)定做例行保養(yǎng)的JAGUAR滑片式空壓機(jī)，至今使用十萬(wàn)小時(shí)以上，依然完好如初，按十萬(wàn)小時(shí)相當(dāng)于每日以十小時(shí)運(yùn)作計(jì)算，可長(zhǎng)達(dá)33年之久。因此，將滑片式空壓機(jī)比喻為一部終身機(jī)器實(shí)不為過(guò)。滑(葉)片式空壓機(jī)可以365天連續(xù)運(yùn)轉(zhuǎn)并保證60000小時(shí)以上安全運(yùn)轉(zhuǎn)的空氣壓縮機(jī)1.進(jìn)氣2.開(kāi)始?jí)嚎s3.壓縮中4.排氣1.轉(zhuǎn)子及機(jī)殼間成為壓縮空間，當(dāng)轉(zhuǎn)子開(kāi)始轉(zhuǎn)動(dòng)時(shí)，空氣由機(jī)體進(jìn)氣端進(jìn)入。2.轉(zhuǎn)子轉(zhuǎn)動(dòng)使被吸入的空氣轉(zhuǎn)至機(jī)殼與轉(zhuǎn)子間氣密范圍，同時(shí)停止進(jìn)氣。3.轉(zhuǎn)子不斷轉(zhuǎn)動(dòng)，氣密范圍變小，空氣被壓縮。4.被壓縮的空氣壓力升高達(dá)到額定的壓力后由排氣端排出進(jìn)入油氣分離器內(nèi)。4.被壓縮的空氣壓力升高達(dá)到額定的壓力后由排氣端排出進(jìn)入油氣分離器內(nèi)。1.進(jìn)氣2.開(kāi)始?jí)嚎s3.壓縮中4.排氣1.凸凹轉(zhuǎn)子及機(jī)殼間成為壓縮空間，當(dāng)轉(zhuǎn)子開(kāi)始轉(zhuǎn)動(dòng)時(shí)，空氣由機(jī)體進(jìn)氣端進(jìn)入。2.轉(zhuǎn)子轉(zhuǎn)動(dòng)使被吸入的空氣轉(zhuǎn)至機(jī)殼與轉(zhuǎn)子間氣密范圍，同時(shí)停止進(jìn)氣。3.轉(zhuǎn)子不斷轉(zhuǎn)動(dòng)，氣密范圍變小，空氣被壓縮。螺桿式氣體壓縮機(jī)是世界上最先進(jìn)、緊湊型、堅(jiān)實(shí)、運(yùn)行平穩(wěn)，噪音低，是值得信賴的氣體壓縮機(jī)。螺桿式壓縮機(jī)氣路系統(tǒng)：

進(jìn)氣過(guò)濾器

空氣進(jìn)氣閥

壓縮機(jī)主機(jī)

單向閥

空氣/油分離器

最小壓力閥

后冷卻器

帶自動(dòng)疏水器的水分離器油路系統(tǒng)：

油箱

恒溫旁通閥

油冷卻器

油過(guò)濾器

回油閥

斷油閥冷凍系統(tǒng)：

冷凍壓縮機(jī)

冷凝器

熱交換器

旁通系統(tǒng)

空氣出口過(guò)濾器螺桿式壓縮機(jī)渦旋式壓縮機(jī)

渦旋式壓縮機(jī)是20世紀(jì)90年代末期開(kāi)發(fā)并問(wèn)世的高科技?jí)嚎s機(jī)，由于結(jié)構(gòu)簡(jiǎn)單、零件少、效率高、可靠性好，尤其是其低噪聲、長(zhǎng)壽命等諸方面大大優(yōu)于其它型式的壓縮機(jī)，已經(jīng)得到壓縮機(jī)行業(yè)的關(guān)注和公認(rèn)。被譽(yù)為“環(huán)保型壓縮機(jī)”。由于渦旋式壓縮機(jī)的獨(dú)特設(shè)計(jì)，使其成為當(dāng)今世界最節(jié)能壓縮機(jī)。渦旋式壓縮機(jī)主要運(yùn)動(dòng)件渦卷付，只有磨合沒(méi)有磨損，因而壽命更長(zhǎng)，被譽(yù)為免維修壓縮機(jī)。

由于渦旋式壓縮機(jī)運(yùn)行平穩(wěn)、振動(dòng)小、工作環(huán)境安靜，又被譽(yù)為“超靜壓縮機(jī)”。

渦旋式壓縮機(jī)零部件少，只有四個(gè)運(yùn)動(dòng)部件,壓縮機(jī)工作腔由相運(yùn)動(dòng)渦卷付形成多個(gè)相互封閉的鐮形工作腔，當(dāng)動(dòng)渦卷作平動(dòng)運(yùn)動(dòng)時(shí)，使鐮形工作腔由大變小而達(dá)到壓縮和排出壓縮空氣的目的。活塞式空氣壓縮機(jī)的外形第一節(jié)活塞式空壓機(jī)的工作原理一、理論工作循環(huán)（單級(jí)壓縮）工作循環(huán)：4—1—2—34—1吸氣過(guò)程

1—2壓縮過(guò)程

2—3排氣過(guò)程第一節(jié)

人人文庫(kù)> 全部分類> 行業(yè)資料 > 醫(yī)學(xué)制藥

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)準(zhǔn)備(統(tǒng)計(jì)學(xué)專業(yè))

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)準(zhǔn)備(統(tǒng)計(jì)學(xué)專業(yè))

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔