數(shù)據(jù)挖掘知識(shí)點(diǎn)整理_第1頁(yè)
數(shù)據(jù)挖掘知識(shí)點(diǎn)整理_第2頁(yè)
數(shù)據(jù)挖掘知識(shí)點(diǎn)整理_第3頁(yè)
數(shù)據(jù)挖掘知識(shí)點(diǎn)整理_第4頁(yè)
數(shù)據(jù)挖掘知識(shí)點(diǎn)整理_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第一章1、 數(shù)據(jù)挖掘的概念及其特點(diǎn)數(shù)據(jù)挖掘概念:在大量的數(shù)據(jù)中挖掘感興趣的知識(shí)(規(guī)則,規(guī)律,模式,約束)數(shù)據(jù)挖掘 (從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)) 特點(diǎn):從大量的數(shù)據(jù)中挖掘哪些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識(shí) 挖掘的不僅僅是數(shù)據(jù)(所以“數(shù)據(jù)挖掘”并非一個(gè)精確的用詞)2、 數(shù)據(jù)挖掘的核心(KDD)是什么?知識(shí)挖掘(KDD) 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)從KDD對(duì)數(shù)據(jù)挖掘的定義中可以看到當(dāng)前研究領(lǐng)域?qū)?shù)據(jù)挖掘的狹義和廣義認(rèn)識(shí)數(shù)據(jù)清理: (這個(gè)可能要占全過(guò)程60的工作量)1、 數(shù)據(jù)集成2、 數(shù)據(jù)選擇3、 數(shù)據(jù)變換4、 數(shù)據(jù)挖掘(選擇適當(dāng)?shù)乃惴▉?lái)找到感興趣的模式)5、 模式評(píng)估6、 知識(shí)表示3

2、、 數(shù)據(jù)挖掘的體制結(jié)構(gòu)。4、 數(shù)據(jù)挖掘的主要方法(能夠區(qū)分)常用模式5、6、7、分類預(yù)測(cè)的說(shuō)明:比如:按氣候?qū)?guó)家分類,按汽油消耗定額將汽車分類導(dǎo)出模型的表示: 判定樹、分類規(guī)則、神經(jīng)網(wǎng)絡(luò)可以用來(lái)預(yù)報(bào)某些未知的或丟失的數(shù)字值 聚類分析的說(shuō)明:例:對(duì)WEB日志的數(shù)據(jù)進(jìn)行聚類,以發(fā)現(xiàn)相同的用戶訪問(wèn)模式孤立點(diǎn)分析的說(shuō)明(應(yīng)用)信用卡欺詐檢測(cè)/移動(dòng)電話欺詐檢測(cè)/客戶劃分/醫(yī)療分析(異常)第二章1、 數(shù)據(jù)倉(cāng)庫(kù)的概念(特點(diǎn)就在概念里)數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)(1)面向主題的、(2)集成的、(3)隨時(shí)間而變化的、(4)不容易丟失的數(shù)據(jù)集合,支持管理部門的決策過(guò)程.2、 OLAP(聯(lián)機(jī)分析處理)和OLTP(聯(lián)機(jī)事務(wù)處理

3、)的區(qū)別1、用戶和系統(tǒng)的面向性:面向顧客(事務(wù)) VS. 面向市場(chǎng)(分析)2、數(shù)據(jù)內(nèi)容:當(dāng)前的、詳細(xì)的數(shù)據(jù) (事務(wù))VS. 歷史的、匯總的數(shù)據(jù)(分析)3、數(shù)據(jù)庫(kù)設(shè)計(jì):實(shí)體聯(lián)系模型(ER)和面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì)(事務(wù)) VS. 星型/雪花模型和面向主題的數(shù)據(jù)庫(kù)設(shè)計(jì)(分析)4、數(shù)據(jù)視圖:當(dāng)前的、企業(yè)內(nèi)部的數(shù)據(jù) (事務(wù))VS. 經(jīng)過(guò)演化的、集成的數(shù)據(jù)(分析)5、訪問(wèn)模式:事務(wù)操作 (事務(wù))VS. 只讀查詢(但很多是復(fù)雜的查詢)(分析)6、任務(wù)單位:簡(jiǎn)短的事務(wù) VS. 復(fù)雜的查詢7、訪問(wèn)數(shù)據(jù)量:數(shù)十個(gè) VS. 數(shù)百萬(wàn)個(gè)8、用戶數(shù):數(shù)千個(gè) VS. 數(shù)百個(gè)9、數(shù)據(jù)庫(kù)規(guī)模:100M-數(shù)GB VS. 100G

4、B-數(shù)TB10、設(shè)計(jì)優(yōu)先性:高性能、高可用性 VS. 高靈活性、端點(diǎn)用戶自治11、度量:事務(wù)吞吐量 VS. 查詢吞吐量、響應(yīng)時(shí)間3、 多維數(shù)據(jù)模型在多維數(shù)據(jù)模型中,數(shù)據(jù)以數(shù)據(jù)立方體(data cube)的形式存在數(shù)據(jù)立方體允許以多維數(shù)據(jù)建模和觀察。它由維和事實(shí)定義維是關(guān)于一個(gè)組織想要記錄的視角或觀點(diǎn)。每個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱為維表。多維數(shù)據(jù)模型圍繞中心主題組織,該主題用事實(shí)表表示事實(shí)表包括事實(shí)的名稱或度量以及每個(gè)相關(guān)維表的關(guān)鍵字事實(shí)指的是一些數(shù)字度量一個(gè)n維的數(shù)據(jù)的立方體叫做基本方體。給定一個(gè)維的集合,我們可以構(gòu)造一個(gè)方體的格,每個(gè)都在不同的匯總級(jí)或不同的數(shù)據(jù)子集顯示數(shù)據(jù),方體的格稱為數(shù)

5、據(jù)立方體。0維方體存放最高層的匯總,稱作頂點(diǎn)方體;而存放最底層匯總的方體則稱為基本方體。3、 幾種常見(jiàn)的概念模型星型模式(Star schema): 事實(shí)表在中心,周圍圍繞地連接著維表(每維一個(gè)),事實(shí)表含有大量數(shù)據(jù),沒(méi)有冗余。雪花模式(Snowflake schema): 是星型模式的變種,其中某些維表是規(guī)范化的,因而把數(shù)據(jù)進(jìn)一步分解到附加表中。結(jié)果,模式圖形成類似于雪花的形狀。事實(shí)星座(Fact constellations): 多個(gè)事實(shí)表共享維表, 這種模式可以看作星型模式集,因此稱為星系模式(galaxy schema),或者事實(shí)星座(fact constellation) 4、 一種

6、數(shù)據(jù)挖掘查詢語(yǔ)言DMQL一種是立方體定義,一種是維定義立方體定義 (事實(shí)表)define cube <cube_name> <dimension_list>: <measure_list>維定義 (維表)define dimension <dimension_name> as (<attribute_or_subdimension_list>)5、 概念分層的概念一個(gè)概念分層定義一個(gè)映射序列,將低層概念映射到更一般的高層概念多維數(shù)據(jù)模型(數(shù)據(jù)立方體)使得從不同的角度對(duì)數(shù)據(jù)進(jìn)行觀察成為可能,而概念分層則提供了從不同層次對(duì)數(shù)據(jù)進(jìn)行觀察的能

7、力;結(jié)合這兩者的特征,我們可以在多維數(shù)據(jù)模型上定義各種OLAP操作,為用戶從不同角度不同層次觀察數(shù)據(jù)提供了靈活性:6、 多維數(shù)據(jù)模型上的OLAP操作上卷(roll-up):匯總數(shù)據(jù)通過(guò)一個(gè)維的概念分層向上攀升或者通過(guò)維規(guī)約當(dāng)用維歸約進(jìn)行上卷時(shí),一個(gè)或多個(gè)維由給定的數(shù)據(jù)立方體刪除下鉆(drill-down):上卷的逆操作由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù),可以通過(guò)沿維的概念分層向下或引入新的維來(lái)實(shí)現(xiàn) (為給定數(shù)據(jù)添加更多細(xì)節(jié))7、 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的三種方法(自頂向下法、自底向上法或者兩者的混合方法)自頂向下法:由總體設(shè)計(jì)和規(guī)劃開始在技術(shù)成熟、商業(yè)理解透徹的情況下使用自底向上法:以實(shí)驗(yàn)和原型開始常用在模

8、型和技術(shù)開發(fā)的初期,可以有效的對(duì)使用的技術(shù)和模型進(jìn)行評(píng)估,降低風(fēng)險(xiǎn)混合方法:上述兩者的結(jié)合8、 元數(shù)據(jù)的概念,可以分為哪幾類?元數(shù)據(jù)就是定義數(shù)據(jù)倉(cāng)庫(kù)對(duì)象的數(shù)據(jù)1、數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述倉(cāng)庫(kù)模式、視圖、維、層次結(jié)構(gòu)、導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容2、操作元數(shù)據(jù)包括數(shù)據(jù)血統(tǒng)(data lineage)、數(shù)據(jù)類別(currency of data),以及監(jiān)視信息3、匯總用的算法4、由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的映射5、關(guān)于系統(tǒng)性能的數(shù)據(jù)索引,profiles,數(shù)據(jù)刷新、更新或復(fù)制事件的調(diào)度和定時(shí)6、商務(wù)元數(shù)據(jù)商務(wù)術(shù)語(yǔ)和定義、數(shù)據(jù)擁有者信息、收費(fèi)政策等(技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù))第三章1、 什么是數(shù)據(jù)預(yù)處

9、理?為什么進(jìn)行?預(yù)處理的主要方法和內(nèi)容。概念:數(shù)據(jù)預(yù)處理是知識(shí)發(fā)現(xiàn)過(guò)程的重要步驟。檢測(cè)數(shù)據(jù)異常、盡早地調(diào)整數(shù)據(jù),并歸約待分析的數(shù)據(jù),將在決策過(guò)程中得到高回報(bào)。進(jìn)行的原因:現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”數(shù)據(jù)多了,什么問(wèn)題都會(huì)出現(xiàn)不完整的:有些感興趣的屬性缺少屬性值,或僅包含聚集數(shù)據(jù)含噪聲的:包含錯(cuò)誤或者“孤立點(diǎn)”不一致的:在編碼或者命名上存在差異沒(méi)有高質(zhì)量的數(shù)據(jù),就沒(méi)有高質(zhì)量的挖掘結(jié)果高質(zhì)量的決策必須依賴高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)需要對(duì)高質(zhì)量的數(shù)據(jù)進(jìn)行一致地集成主要方法和內(nèi)容:數(shù)據(jù)清理:填寫空缺的值,平滑噪聲數(shù)據(jù),識(shí)別、刪除孤立點(diǎn),解決不一致性數(shù)據(jù)集成:集成多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或文件數(shù)據(jù)變換:規(guī)范化和聚

10、集數(shù)據(jù)歸約:得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相近的結(jié)果數(shù)據(jù)離散化:數(shù)據(jù)歸約的一部分,通過(guò)概念分層和數(shù)據(jù)的離散化來(lái)規(guī)約數(shù)據(jù),對(duì)數(shù)字型數(shù)據(jù)特別重要所占工作量最多的過(guò)程:數(shù)據(jù)清理2、 如何處理空缺值?最理想的是哪個(gè)方法?忽略元組:當(dāng)類標(biāo)號(hào)缺少時(shí)通常這么做(假定挖掘任務(wù)涉及分類或描述),當(dāng)每個(gè)屬性缺少值的百分比變化很大時(shí),它的效果非常差。人工填寫空缺值:工作量大,可行性低使用一個(gè)全局變量填充空缺值:比如使用unknown或-使用屬性的平均值填充空缺值:使用與給定元組屬同一類的所有樣本的平均值使用最可能的值填充空缺值:使用像Bayesian公式或判定樹這樣的基于推斷的方法(最理想)3、

11、什么是噪聲,引起噪聲的原因。噪聲:一個(gè)測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差引起噪聲數(shù)據(jù)的原因:數(shù)據(jù)收集工具的問(wèn)題、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)傳輸錯(cuò)誤、技術(shù)限制、命名規(guī)則的不一致。4、 數(shù)據(jù)平滑地分箱分箱(binning):首先排序數(shù)據(jù),并將他們分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的邊界平滑等等方法:price的排序后數(shù)據(jù)(單位:美元):4,8,15,21,21,24,25,28,34劃分為(等深的)箱:箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均值平滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱邊界平滑:箱1:4,4,15箱2:21,21,2

12、4箱3:25,25,345、 數(shù)據(jù)變換(規(guī)范化、最小最大要求掌握,計(jì)算),并解釋為什么要做這樣的變換。規(guī)范化:將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間(最小最大規(guī)范化、z-score規(guī)范化、小數(shù)定標(biāo)規(guī)范化)最小最大規(guī)范化數(shù)據(jù)規(guī)范化的一種方法是“最小最大規(guī)范化”,即假設(shè)數(shù)據(jù)的取值區(qū)間為 old_min, old_max,“最小最大規(guī)范化”即把這個(gè)區(qū)間映射到新的取值區(qū)間 new_min, new_max 。對(duì)于任意一個(gè)在原來(lái)區(qū)間中的變量,在新的區(qū)間中都有一個(gè)值和它對(duì)應(yīng),計(jì)算公式為:現(xiàn)假設(shè)“客戶基本情況”表中的客戶月收入屬性的實(shí)際值范圍為2100,8300,要把這個(gè)屬性值規(guī)范到0,1,對(duì)月收入屬性

13、值5600請(qǐng)應(yīng)用上述公式將其進(jìn)行規(guī)范,并解釋為什么要進(jìn)行這樣的數(shù)據(jù)變換才是適于挖掘的形式。練習(xí):假設(shè)數(shù)據(jù)集D是某公司每月利潤(rùn)增長(zhǎng)數(shù)據(jù),數(shù)據(jù)單位為元,取值范圍-13000-32000之間,5%點(diǎn)為-9000,95%點(diǎn)在280000,根據(jù)3-4-5規(guī)則劃分區(qū)間。規(guī)范化對(duì)于基于距離的分類算法(如聚類)和神經(jīng)網(wǎng)絡(luò)算法是非常重要的,可以保證輸入值在一個(gè)相對(duì)小的范圍內(nèi),加快訓(xùn)練速度;另外,不會(huì)發(fā)生因?yàn)檩斎胫档姆秶^(guò)大而使權(quán)重過(guò)大的情況。參考:運(yùn)算空間量小,處理小數(shù)總比大數(shù)方便,對(duì)于計(jì)算效率和速度都有好處6、 345規(guī)劃(例子要求掌握)自然劃分的3-4-5規(guī)則常被用來(lái)將數(shù)值數(shù)據(jù)劃分為相對(duì)一致,“更自然”的區(qū)

14、間規(guī)則的劃分步驟:1、如果一個(gè)區(qū)間最高有效位上包含3,6,7或9個(gè)不同的值,就將該區(qū)間劃分為3個(gè)等寬子區(qū)間;(7->2,3,2)2、如果一個(gè)區(qū)間最高有效位上包含2,4,或8個(gè)不同的值,就將該區(qū)間劃分為4個(gè)等寬子區(qū)間;3、如果一個(gè)區(qū)間最高有效位上包含1,5,或10個(gè)不同的值,就將該區(qū)間劃分為5個(gè)等寬子區(qū)間;4、將該規(guī)則遞歸的應(yīng)用于每個(gè)子區(qū)間,產(chǎn)生給定數(shù)值屬性的概念分層;5、對(duì)于數(shù)據(jù)集中出現(xiàn)的最大值和最小值的極端分布,為了避免上述方法出現(xiàn)的結(jié)果扭曲,可以在頂層分段時(shí),選用一個(gè)大部分的概率空間。e.g. 5%-95%例子如下圖(參考書上P9091):7、 關(guān)于屬性值的類型(名稱、序數(shù)連續(xù)、區(qū)間

15、)8、離散化中的三種類型的屬性值:名稱型e.g. 無(wú)序集合中的值;序數(shù)e.g. 有序集合中的值;連續(xù)值(區(qū)間)e.g. 實(shí)數(shù)第四章1、 四種興趣度量單位常用的四種興趣度的客觀度量:簡(jiǎn)單性:模式是否容易被人所理解模式結(jié)構(gòu)的函數(shù)(模式的長(zhǎng)度、屬性的個(gè)數(shù)、操作符個(gè)數(shù))。e.g. 規(guī)則長(zhǎng)度或者判定樹的節(jié)點(diǎn)個(gè)數(shù)。確定性:表示一個(gè)模式在多少概率下是有效的。置信度 (A=>B)=(包含A和B的元組值)/(包含A的元組值),e.g. buys(X, “computer)=>buys(X, “software”)30%, 80%100%置信度:準(zhǔn)確的。實(shí)用性:可以用支持度來(lái)進(jìn)行度量:支持度(A=&g

16、t;b) = (包含A和 B的元組數(shù))/(元組總數(shù)) e.g. buys(X, “computer)=>buys(X, “software”)30%, 80%同時(shí)滿足最小置信度臨界值和最小支持度臨界值的關(guān)聯(lián)規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則。新穎性:提供新信息或提高給定模式集性能的模式通過(guò)刪除冗余模式來(lái)檢測(cè)新穎性(一個(gè)模式已經(jīng)為另外一個(gè)模式所蘊(yùn)涵)Location(X, “Canada”)=>buys(X, “Sony_TV”) 8%, 70%Location(X, “Vancouver”)=>buys(X, “Sony_TV”) 2%, 70%2、 特征化單詞、關(guān)聯(lián)、分類。數(shù)據(jù)挖掘語(yǔ)言,指

17、定挖掘知識(shí)類型特征化mine characteristics數(shù)據(jù)區(qū)分mine comparison as pattern_name關(guān)聯(lián)mine associations分類mine classification as pattern_name 第四章1、 數(shù)據(jù)挖掘可以分為描述性挖掘和預(yù)測(cè)性挖掘,概念描述屬于描述性挖掘。2、 面向?qū)傩詺w納的基本思想面向?qū)傩詺w納的基本思想:1)、使用關(guān)系數(shù)據(jù)庫(kù)查詢收集任務(wù)相關(guān)的數(shù)據(jù)2)、通過(guò)考察任務(wù)相關(guān)數(shù)據(jù)中每個(gè)屬性的不同值的個(gè)數(shù)進(jìn)行概化,方法是屬性刪除或者是屬性概化3)、通過(guò)合并相等的,概化的廣義元組,并累計(jì)他們對(duì)應(yīng)的計(jì)數(shù)值進(jìn)行聚集操作4)、通過(guò)與用戶交互,將廣

18、義關(guān)系以圖表或規(guī)則等形式,提交給用戶3、 數(shù)據(jù)概化的兩種常用方法,屬性刪除和屬性概化數(shù)據(jù)概化的兩種常用方法:屬性刪除和屬性概化1、屬性刪除的適用規(guī)則:對(duì)初始工作關(guān)系中具有大量不同值的屬性,符合以下情況,應(yīng)使用屬性刪除:在此屬性上沒(méi)有概化操作符(比如該屬性沒(méi)有定義相關(guān)的概念分層)該屬性的較高層概念用其他屬性表示2、屬性概化的使用規(guī)則:如果初始工作關(guān)系中的某個(gè)屬性具有大量不同值,且該屬性上存在概化操作符,則使用該概化操作符對(duì)該屬性進(jìn)行數(shù)據(jù)概化操作第五章1、哪些屬性可以刪掉,如phone#,namename:刪除屬性gender:保留該屬性,不概化major:根據(jù)概念分層向上攀升文,理,工birth

19、_place:根據(jù)概念分層location向上攀升birth_date:概化為age,再概化為age_rangeresidence:根據(jù)概念分層location向上攀升phone#:刪除屬性gpa:根據(jù)GPA的分級(jí)作為概念分層2、信息增益(計(jì)算)書上有個(gè)例子P1313、特征化target充分、必要條件,量化規(guī)則。寫出一個(gè)規(guī)則能夠理解并說(shuō)出它的意思。量化特征化規(guī)則必要條件量化區(qū)分規(guī)則充分條件量化描述規(guī)則充要條件給出表明對(duì)99年AllElectronics公司的TV和計(jì)算機(jī)銷售,如果一商品在歐洲售出,則其為TV的概率為25該公司40的TV在歐洲售出4、 對(duì)四分位的理解和四分位的極差。最常用度量:五

20、數(shù)概括(基于四分位數(shù))、中間四分位數(shù)區(qū)間和標(biāo)準(zhǔn)差四分位數(shù)、孤立點(diǎn)和盒圖百分位數(shù):第k個(gè)百分位數(shù)是具有如下性質(zhì)的值x:數(shù)據(jù)項(xiàng)的k%在x上或低于x四分位數(shù):Q1 (25th percentile), Q3 (75th percentile)中間四分位數(shù)區(qū)間(IQR): IQR = Q3 Q1 對(duì)傾斜分布的描述,除了IQR還常需兩個(gè)四分位數(shù)Q1和Q3,以及中位數(shù)M,一個(gè)識(shí)別孤立點(diǎn)的常用規(guī)則是:挑出落在至少高于第三個(gè)四分位數(shù)或低于第一個(gè)四分位數(shù) 1.5×IQR處的值四分位,四分位數(shù)極差是多少?Ppt上的: 百分位數(shù)(percentile):第k個(gè)百分位數(shù)是具有如下性質(zhì)的值x:數(shù)據(jù)項(xiàng)的k%在x

21、上或低于x四分位數(shù):Q1 (25th percentile), Q3 (75th percentile)中間四分位數(shù)區(qū)間(IQR): IQR = Q3 Q1 對(duì)傾斜分布的描述,除了IQR還常需兩個(gè)四分位數(shù)Q1和Q3,以及中位數(shù)M,一個(gè)識(shí)別孤立點(diǎn)的常用規(guī)則是:挑出落在至少高于第三個(gè)四分位數(shù)或低于第一個(gè)四分位數(shù) 1.5×IQR處的值百度的:四分位差(quartile deviation),也稱為內(nèi)距或四分間距(inter-quartile range),它是上四分位數(shù)(QL)與下四分位數(shù)(QU)之差,通常用Qd表示。計(jì)算公式為:Qd =QL-QU四分位差反映了中間50%數(shù)據(jù)的離散程度,其

22、數(shù)值越小,說(shuō)明中間的數(shù)據(jù)越集中;其數(shù)值越大,說(shuō)明中間的數(shù)據(jù)越分散。四分位差不受極值的影響。此外,由于中位數(shù)處于數(shù)據(jù)的中間位置,因此,四分位差的大小在一定程度上也說(shuō)明了中位數(shù)對(duì)一組數(shù)據(jù)的代表程度。四分位差主要用于測(cè)度順序數(shù)據(jù)的離散程度。對(duì)于數(shù)值型數(shù)據(jù)也可以計(jì)算四分位差,但不適合分類數(shù)據(jù)。四分位數(shù)是將一組數(shù)據(jù)由小到大(或由大到?。┡判蚝?,用3個(gè)點(diǎn)將全部數(shù)據(jù)分為4等份,與這3個(gè)點(diǎn)位置上相對(duì)應(yīng)的數(shù)值稱為四分位數(shù),分別記為Q1(第一四分位數(shù))、Q2(第二四分位數(shù),即中位數(shù))、Q3(第三四分位數(shù))。其中,Q3到Q1之間的距離的差又稱為四分位差,記為Q。四分位差越小,說(shuō)明中間部分的數(shù)據(jù)越集中;四分位數(shù)越大,

23、則意味著中間部分的數(shù)據(jù)越分散。具體的:1.極差、四分位數(shù)和四分位數(shù)極差開始,讓我們先學(xué)習(xí)作為數(shù)據(jù)散布度量的極差、分位數(shù)、四分位數(shù)、百分位數(shù)和四分位數(shù)極差。設(shè)x1,x2,,xN是某數(shù)值屬性X上的觀測(cè)的集合。該集合的極差(range)是最大值(max())與最小值(min())之差。假設(shè)屬性X的數(shù)據(jù)以數(shù)值遞增序排列。想象我們可以挑選某些數(shù)據(jù)點(diǎn),以便把數(shù)據(jù)分布劃分成大小相等的連貫集,如圖2.2所示。這些數(shù)據(jù)點(diǎn)稱做分位數(shù)。分位數(shù)(quantile)是取自數(shù)據(jù)分布的每隔一定間隔上的點(diǎn),把數(shù)據(jù)劃分成基本上大小相等的連貫集合。(我們說(shuō)“基本上”,因?yàn)榭赡懿淮嬖诎褦?shù)據(jù)劃分成恰好大小相等的諸子集的X的數(shù)據(jù)值。為

24、簡(jiǎn)單起見(jiàn),我們將稱它們相等。)給定數(shù)據(jù)分布的第k個(gè)q-分位數(shù)是值x,使得小于x的數(shù)據(jù)值最多為k/q,而大于x的數(shù)據(jù)值最多為(q-k)/q,其中k是整數(shù),使得0<k<q。我們有q-1個(gè)q-分位數(shù)。2-分位數(shù)是一個(gè)數(shù)據(jù)點(diǎn),它把數(shù)據(jù)分布劃分成高低兩半。2-分位數(shù)對(duì)應(yīng)于中位數(shù)。4-分位數(shù)是3個(gè)數(shù)據(jù)點(diǎn),它們把數(shù)據(jù)分布劃分成4個(gè)相等的部分,使得每部分表示數(shù)據(jù)分布的四分之一。通常稱它們?yōu)樗姆治粩?shù)(quartile)。100-分位數(shù)通常稱做百分位數(shù)(percentile),它們把數(shù)據(jù)分布劃分成100個(gè)大小相等的連貫集。中位數(shù)、四分位數(shù)和百分位數(shù)是使用最廣泛的分位數(shù)。四分位數(shù)給出分布的中心、散布和形

25、狀的某種指示。第1個(gè)四分位數(shù)記作Q1,是第25個(gè)百分位數(shù),它砍掉數(shù)據(jù)的最低的25%。第3個(gè)四分位數(shù)記作Q3,是第75個(gè)百分位數(shù),它砍掉數(shù)據(jù)的最低的75%(或最高的25%)。第2個(gè)四分位數(shù)是第50個(gè)百分位數(shù),作為中位數(shù),它給出數(shù)據(jù)分布的中心。第1個(gè)和第3個(gè)四分位數(shù)之間的距離是散布的一種簡(jiǎn)單度量,它給出被數(shù)據(jù)的中間一半所覆蓋的范圍。該距離稱為四分位數(shù)極差(IQR),定義為IQR=Q3-Q1(2.5)例2.10四分位數(shù)極差。四分位數(shù)是3個(gè)值,把排序的數(shù)據(jù)集劃分成4個(gè)相等的部分。例2.6的數(shù)據(jù)包含12個(gè)觀測(cè),已經(jīng)按遞增序排序。這樣,該數(shù)據(jù)集的四分位數(shù)分別是該有序表的第3、第6和第9個(gè)值。因此,Q1=47000美元,而Q3=63000美元。于是,四分位數(shù)極差為I

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論