第七章 概念描述特征化和比較._第1頁
第七章 概念描述特征化和比較._第2頁
第七章 概念描述特征化和比較._第3頁
第七章 概念描述特征化和比較._第4頁
第七章 概念描述特征化和比較._第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第七章第七章 概念描述:特征化和比較概念描述:特征化和比較o數(shù)據(jù)挖掘可以分成兩類數(shù)據(jù)挖掘可以分成兩類n描述性數(shù)據(jù)挖掘描述性數(shù)據(jù)挖掘:以簡潔概要的方式描述數(shù)據(jù),以簡潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有趣的一般性質(zhì)。并提供數(shù)據(jù)的有趣的一般性質(zhì)。n預(yù)測性數(shù)據(jù)挖掘預(yù)測性數(shù)據(jù)挖掘:分析數(shù)據(jù),建立一個或一組模分析數(shù)據(jù),建立一個或一組模型,并試圖預(yù)測新數(shù)據(jù)集的行為。型,并試圖預(yù)測新數(shù)據(jù)集的行為。概念描述概念描述o對于大量的細(xì)節(jié)數(shù)據(jù),希望以簡潔的描述形式(不對于大量的細(xì)節(jié)數(shù)據(jù),希望以簡潔的描述形式(不同的粒度、不同的角度等)觀察匯總的數(shù)據(jù)集。需同的粒度、不同的角度等)觀察匯總的數(shù)據(jù)集。需要給出這種數(shù)據(jù)一個要給

2、出這種數(shù)據(jù)一個描述以概括出固有的特性,描述以概括出固有的特性,這這種描述性數(shù)據(jù)挖掘稱為種描述性數(shù)據(jù)挖掘稱為概念描述。概念描述。o概念描述概念描述: n特征化特征化:對所選擇的數(shù)據(jù)給出一個簡單明了的描述對所選擇的數(shù)據(jù)給出一個簡單明了的描述n比較比較:提供對于兩個或以上數(shù)據(jù)進(jìn)行比較的結(jié)果提供對于兩個或以上數(shù)據(jù)進(jìn)行比較的結(jié)果o數(shù)據(jù)概化:將大量的相關(guān)數(shù)據(jù)從一個較低的概念層數(shù)據(jù)概化:將大量的相關(guān)數(shù)據(jù)從一個較低的概念層次轉(zhuǎn)化到一個比較高的層次。比如從南京轉(zhuǎn)換到江次轉(zhuǎn)化到一個比較高的層次。比如從南京轉(zhuǎn)換到江蘇,江蘇轉(zhuǎn)換到華東地區(qū)等蘇,江蘇轉(zhuǎn)換到華東地區(qū)等nOLAPn面向?qū)傩缘臍w納面向?qū)傩缘臍w納方法一、方法一

3、、 OLAPo在數(shù)據(jù)立方體上進(jìn)行計算和存儲結(jié)果在數(shù)據(jù)立方體上進(jìn)行計算和存儲結(jié)果n比如顧客維選比如顧客維選年收入、年齡、職業(yè);年收入、年齡、職業(yè);產(chǎn)品維選產(chǎn)品維選彩屏手機(jī);彩屏手機(jī);時間維時間維選選2003,一季度,一季度n用用OLAP就能分析它們之間的一些關(guān)系,例如回答在一就能分析它們之間的一些關(guān)系,例如回答在一季度買彩屏手機(jī)的人什么樣的類型的最多,約占的百分季度買彩屏手機(jī)的人什么樣的類型的最多,約占的百分比是多少?比是多少?o優(yōu)點優(yōu)點n效率高,能夠計算多種匯總?cè)纾盒矢?,能夠計算多種匯總?cè)纾篶ount, average, sum, min, max,還可以使用,還可以使用roll-down和

4、和roll-up操作。操作。o限制限制n維維和和度量度量的數(shù)據(jù)類型有限,維現(xiàn)在一般是非數(shù)值的,度的數(shù)據(jù)類型有限,維現(xiàn)在一般是非數(shù)值的,度量是數(shù)值的,一般也只能是量是數(shù)值的,一般也只能是數(shù)據(jù)的簡單匯總。方法二、面向?qū)傩缘臍w納o步驟:步驟:n數(shù)據(jù)聚焦數(shù)據(jù)聚焦:選擇和當(dāng)前分析相關(guān)的數(shù)據(jù),包括維。選擇和當(dāng)前分析相關(guān)的數(shù)據(jù),包括維。n屬性移除屬性移除: 如果某個屬性包含大量不同值,但是如果某個屬性包含大量不同值,但是1)在該屬性上沒有概化操作,或者)在該屬性上沒有概化操作,或者2)它的較高層概念用其它屬性表示。)它的較高層概念用其它屬性表示。n屬性概化屬性概化:如果某個屬性包含大量不同值,同時在該屬性如

5、果某個屬性包含大量不同值,同時在該屬性上有概化操作符(比如求和等),則運用該操作符進(jìn)行上有概化操作符(比如求和等),則運用該操作符進(jìn)行概化。概化。n屬性概化閾值控制屬性概化閾值控制: 可以設(shè)一個缺省的或可以指定的可以設(shè)一個缺省的或可以指定的閾閾值,值,在不同的屬性值個數(shù)少于該值后則停止進(jìn)一步概化。在不同的屬性值個數(shù)少于該值后則停止進(jìn)一步概化。o例子:比如地區(qū)維度分為省、市、區(qū)、街道閾值為例子:比如地區(qū)維度分為省、市、區(qū)、街道閾值為40,則大約在地區(qū)維度要概化到省一級則大約在地區(qū)維度要概化到省一級2、例,在下面的初始工作表上做屬性歸納、例,在下面的初始工作表上做屬性歸納姓名姓名性別性別專業(yè)專業(yè)籍

6、貫籍貫出身日期出身日期信用情況信用情況電話電話學(xué)歷學(xué)歷張明張明男男計算機(jī)計算機(jī)南京南京79。01良良4316111本本李枚李枚女女生物生物蘇州蘇州76。02優(yōu)優(yōu)4315111研研李山李山男男高分子化學(xué)高分子化學(xué)鹽城鹽城80。02中中4315808本本.王民王民男男通信工程通信工程鎮(zhèn)江鎮(zhèn)江80。04一般一般4315807本本對于每個屬性,概化討論如下:對于每個屬性,概化討論如下:1)姓名、電話:姓名、電話:該屬性的值有許多,并且無概化操作,屬性刪除該屬性的值有許多,并且無概化操作,屬性刪除2)性別:性別:屬性可取的值屬性可取的值2個,屬性保留不概化個,屬性保留不概化3)專業(yè):專業(yè):假定假定我們事

7、先已定義了一個概念分層,可以將專業(yè)概化到我們事先已定義了一個概念分層,可以將專業(yè)概化到藝術(shù)、藝術(shù)、 化學(xué)、機(jī)械、通信、信息、化學(xué)、機(jī)械、通信、信息、.,所以可被概化,所以可被概化4)籍貫:籍貫:此表以城市為單位,已無法概化,值不算太多,保留此表以城市為單位,已無法概化,值不算太多,保留5)出生日期:出生日期:假定存在概念分層,首先概化到年齡,再到年齡段假定存在概念分層,首先概化到年齡,再到年齡段6)信用:信用:假定有假定有優(yōu)、良、中、一般、差優(yōu)、良、中、一般、差的分層,可以概化的分層,可以概化7)學(xué)歷:學(xué)歷:可以按可以按博士生、碩士生、本科生博士生、碩士生、本科生概化概化概化過程將產(chǎn)生相等的元

8、組,相等的元組歸為一類并給出計數(shù)概化過程將產(chǎn)生相等的元組,相等的元組歸為一類并給出計數(shù)性別性別專業(yè)專業(yè)籍貫籍貫?zāi)挲g段年齡段信用情況信用情況計數(shù)計數(shù)男男信息信息南京南京19-22良良10女女信息信息南京南京19-22優(yōu)優(yōu)9男男化學(xué)化學(xué)鹽城鹽城19-22中中4.男男通信通信鎮(zhèn)江鎮(zhèn)江22-25一般一般1學(xué)歷學(xué)歷本本研研本本.本本此處,計數(shù)看成度量,其它看成維此處,計數(shù)看成度量,其它看成維概化結(jié)果的表示概化結(jié)果的表示o表格表格地區(qū)地區(qū)產(chǎn)品類別產(chǎn)品類別銷售額銷售額(千萬)千萬) countcount(千)(千)江蘇江蘇電視電視15300300浙江浙江電視電視12250250廣東廣東電視電視1845045

9、0江蘇江蘇電腦電腦12010001000浙江浙江電腦電東廣東電腦電腦20018001800概化結(jié)果的表示概化結(jié)果的表示o二維交叉表二維交叉表地區(qū)地區(qū)電視電視電腦電腦產(chǎn)品類累計產(chǎn)品類累計江蘇江蘇浙江浙江廣東廣東地區(qū)合計地區(qū)合計count金額金額count銷量銷量count銷量銷量30015130013510001202501214501601200150450282250228180020010005550005254000470概化結(jié)果的表示概化結(jié)果的表示o可視化方法可視化方法電視銷售電視銷售 餅圖餅圖概化結(jié)果的表示概化結(jié)果的表示o量化特征規(guī)則量化特征規(guī)則n概化關(guān)系可

10、以用邏輯規(guī)則的形式表示,典型的概化關(guān)系可以用邏輯規(guī)則的形式表示,典型的是概化的元組代表一個規(guī)則的析取。是概化的元組代表一個規(guī)則的析取。n若單個概化元組不能代表工作關(guān)系中的所有元若單個概化元組不能代表工作關(guān)系中的所有元組,則規(guī)則應(yīng)當(dāng)帶上量化信息,用滿足規(guī)則的組,則規(guī)則應(yīng)當(dāng)帶上量化信息,用滿足規(guī)則的左部和滿足規(guī)則右部的元組所占的百分比表示。左部和滿足規(guī)則右部的元組所占的百分比表示。帶有量化信息的邏輯規(guī)則稱為帶有量化信息的邏輯規(guī)則稱為量化規(guī)則量化規(guī)則。nt_權(quán)興趣度度量權(quán)興趣度度量:描述規(guī)則中每個析取或?qū)?yīng)概描述規(guī)則中每個析取或?qū)?yīng)概化關(guān)系的每個元組的化關(guān)系的每個元組的典型性典型性。t-權(quán)o定義:定

11、義:設(shè)待特化的(或由規(guī)則描述的)對象類為設(shè)待特化的(或由規(guī)則描述的)對象類為目目標(biāo)類標(biāo)類, qa是一個描述目標(biāo)類的概化元組。是一個描述目標(biāo)類的概化元組。 qa的的t_權(quán)權(quán)是來自初始工作關(guān)系集合中被是來自初始工作關(guān)系集合中被qa涵蓋的目標(biāo)類元組涵蓋的目標(biāo)類元組的百分比。形式上為:的百分比。形式上為:o其中:其中:n是概化關(guān)系中目標(biāo)類元組的個數(shù),是概化關(guān)系中目標(biāo)類元組的個數(shù),q1,.,qn是概化關(guān)系中目標(biāo)類的元組,是概化關(guān)系中目標(biāo)類的元組, qa在在q1,.,qn中。顯然,中。顯然,t_權(quán)的取值區(qū)間為權(quán)的取值區(qū)間為0.0,1.0或或0%,100%。n1iia)count(q)count(q_ 權(quán)t

12、地區(qū)地區(qū)產(chǎn)品類別產(chǎn)品類別銷售額銷售額(千萬)千萬) countcount(千)(千)江蘇江蘇電腦電腦12010001000浙江浙江電腦電東廣東電腦電腦20018001800例子例子 假設(shè)初始工作集合,地區(qū)是假設(shè)初始工作集合,地區(qū)是南京、鎮(zhèn)江、南京、鎮(zhèn)江、,產(chǎn)品類產(chǎn)品類別是別是電腦電腦的元組全部概化在第一個概化元組中,共有的元組全部概化在第一個概化元組中,共有1000個元組。該概化元組的個元組。該概化元組的t_權(quán)是:權(quán)是:%25100*1800120010001000_權(quán)t規(guī)則描述形式規(guī)則描述形式:)(.:)()(_arg,11mmwtxconditionwtxcond

13、itionxclassettx地區(qū)地區(qū)產(chǎn)品類別產(chǎn)品類別銷售額銷售額(千萬)千萬) countcount(千)(千)江蘇江蘇電腦電腦12010001000浙江浙江電腦電東廣東電腦電腦20018001800例:例:%45: ) )(%30:)(%25: ) )(,txtxtxx廣東地區(qū)浙江地區(qū)江蘇地區(qū)電腦產(chǎn)品類例:例:有部分學(xué)生在圖書館借閱了有部分學(xué)生在圖書館借閱了大趨勢大趨勢這本書,想通過這本書,想通過數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)這部分學(xué)生具有什么樣的特征。其基本關(guān)數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)這部分學(xué)生具有什么樣的特征。其基本關(guān)系表是:系表是:學(xué)號學(xué)號姓名姓名系別系別書名書名借閱日期借閱日期9

14、9320079932007顏立顏立經(jīng)濟(jì)經(jīng)濟(jì)大趨勢大趨勢2000.3.162000.3.1698330909833090王家衛(wèi)王家衛(wèi)金融金融大趨勢大趨勢2000.3.162000.3.1698131059813105王向東王向東醫(yī)學(xué)院醫(yī)學(xué)院大趨勢大趨勢2000.5.82000.5.898220419822041劉偉劉偉歷史歷史大趨勢大趨勢2000.6.302000.6.3099280739928073朱小明朱小明企管企管大趨勢大趨勢2000.5.202000.5.2099320569932056陳立業(yè)陳立業(yè)經(jīng)濟(jì)經(jīng)濟(jì)大趨勢大趨勢2000.9.192000.9.1999231439923143劉英劉

15、英新聞新聞大趨勢大趨勢2000.12.32000.12.3學(xué)號學(xué)號姓名姓名系別系別書名書名借閱日期借閱日期99320079932007顏立顏立經(jīng)濟(jì)經(jīng)濟(jì)大趨勢大趨勢2000.3.162000.3.1698330909833090王家衛(wèi)王家衛(wèi)金融金融大趨勢大趨勢2000.3.162000.3.1698131059813105王向東王向東醫(yī)學(xué)院醫(yī)學(xué)院大趨勢大趨勢2000.5.82000.5.898220419822041劉偉劉偉歷史歷史大趨勢大趨勢2000.6.302000.6.3099280739928073朱小明朱小明企管企管大趨勢大趨勢2000.5.202000.5.2099320569932

16、056陳立業(yè)陳立業(yè)經(jīng)濟(jì)經(jīng)濟(jì)大趨勢大趨勢2000.9.192000.9.1999231439923143劉英劉英新聞新聞大趨勢大趨勢2000.12.32000.12.3概化層次:系別概化層次:系別文科文科 商學(xué)院商學(xué)院 - - 經(jīng)濟(jì),金融,企管,會計,國貿(mào)經(jīng)濟(jì),金融,企管,會計,國貿(mào)文科文科 文學(xué)院文學(xué)院 - - 中文,新聞,信管,歷史,哲學(xué)中文,新聞,信管,歷史,哲學(xué)理科理科 醫(yī)學(xué)院醫(yī)學(xué)院理科理科 理學(xué)院理學(xué)院 - - 數(shù)學(xué),天文,物理數(shù)學(xué),天文,物理(文,商學(xué)院)(文,商學(xué)院)(文,商學(xué)院)(文,商學(xué)院)(理,醫(yī)學(xué)院)(理,醫(yī)學(xué)院)(文,商學(xué)院)(文,商學(xué)院)(文,文學(xué)院)(文,文學(xué)院)(文

17、,商學(xué)院)(文,商學(xué)院)(文,文學(xué)院)(文,文學(xué)院)學(xué)號學(xué)號姓名姓名系別系別書名書名借閱日期借閱日期99320079932007顏立顏立經(jīng)濟(jì)經(jīng)濟(jì)大趨勢大趨勢2000.3.162000.3.1698330909833090王家衛(wèi)王家衛(wèi)金融金融大趨勢大趨勢2000.3.162000.3.1698131059813105王向東王向東醫(yī)學(xué)院醫(yī)學(xué)院大趨勢大趨勢2000.5.82000.5.898220419822041劉偉劉偉歷史歷史大趨勢大趨勢2000.6.302000.6.3099280739928073朱小明朱小明企管企管大趨勢大趨勢2000.5.202000.5.2099320569932056

18、陳立業(yè)陳立業(yè)經(jīng)濟(jì)經(jīng)濟(jì)大趨勢大趨勢2000.9.192000.9.1999231439923143劉英劉英新聞新聞大趨勢大趨勢2000.12.32000.12.3(文,商學(xué)院)(文,商學(xué)院)(文,商學(xué)院)(文,商學(xué)院)(理,醫(yī)學(xué)院)(理,醫(yī)學(xué)院)(文,商學(xué)院)(文,商學(xué)院)(文,商學(xué)院)(文,商學(xué)院)(文,文學(xué)院)(文,文學(xué)院)系別系別書名書名借閱次數(shù)借閱次數(shù)商學(xué)院商學(xué)院大趨勢大趨勢4 4文學(xué)院文學(xué)院大趨勢大趨勢2 2醫(yī)學(xué)院醫(yī)學(xué)院大趨勢大趨勢1 1依據(jù)借閱次依據(jù)借閱次數(shù)的多少來數(shù)的多少來決定是否為決定是否為噪聲數(shù)據(jù)噪聲數(shù)據(jù)概化關(guān)系表一(按學(xué)院)概化關(guān)系表一(按學(xué)院)(文,文學(xué)院)(文,文學(xué)院)概

19、化關(guān)系表二(按學(xué)科)概化關(guān)系表二(按學(xué)科)系別系別書名書名借閱次數(shù)借閱次數(shù)商學(xué)院商學(xué)院大趨勢大趨勢4 4文學(xué)院文學(xué)院大趨勢大趨勢2 2醫(yī)學(xué)院醫(yī)學(xué)院大趨勢大趨勢1 1系別系別書名書名借閱次數(shù)借閱次數(shù)文科文科大趨勢大趨勢6 6理科理科大趨勢大趨勢1 1概化關(guān)系表一(按學(xué)院)概化關(guān)系表一(按學(xué)院)學(xué)號學(xué)號姓名姓名系別系別書名書名借閱日期借閱日期99320079932007顏立顏立經(jīng)濟(jì)經(jīng)濟(jì)大趨勢大趨勢2000.3.162000.3.1698330909833090王家衛(wèi)王家衛(wèi)金融金融大趨勢大趨勢2000.3.162000.3.1698131059813105王向東王向東醫(yī)學(xué)院醫(yī)學(xué)院大趨勢大趨勢2000

20、.5.82000.5.898220419822041劉偉劉偉歷史歷史大趨勢大趨勢2000.6.302000.6.3099280739928073朱小明朱小明企管企管大趨勢大趨勢2000.5.202000.5.2099320569932056陳立業(yè)陳立業(yè)經(jīng)濟(jì)經(jīng)濟(jì)大趨勢大趨勢2000.9.192000.9.1999231439923143劉英劉英新聞新聞大趨勢大趨勢2000.12.32000.12.3如果定義噪聲數(shù)據(jù)的閥值是如果定義噪聲數(shù)據(jù)的閥值是1 1(記錄數(shù)為(記錄數(shù)為1 1),則:),則:根據(jù)根據(jù)基本關(guān)系表一基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:借閱借閱大趨勢大趨勢一書的是一書的是

21、經(jīng)濟(jì)系經(jīng)濟(jì)系的學(xué)生的學(xué)生如果定義噪聲數(shù)據(jù)的閥值是如果定義噪聲數(shù)據(jù)的閥值是1 1(記錄數(shù)為(記錄數(shù)為1 1),則:),則:根據(jù)根據(jù)基本關(guān)系表一基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:借閱借閱大趨勢大趨勢一書的是一書的是經(jīng)濟(jì)系經(jīng)濟(jì)系的學(xué)生的學(xué)生根據(jù)根據(jù)概括關(guān)系表一概括關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:借閱借閱大趨勢大趨勢一書的是一書的是商學(xué)院商學(xué)院的學(xué)生的學(xué)生借閱借閱大趨勢大趨勢一書的是一書的是文學(xué)院文學(xué)院的學(xué)生的學(xué)生系別系別書名書名借閱次數(shù)借閱次數(shù)商學(xué)院商學(xué)院大趨勢大趨勢4 4文學(xué)院文學(xué)院大趨勢大趨勢2 2醫(yī)學(xué)院醫(yī)學(xué)院大趨勢大趨勢1 1如果定義噪聲數(shù)據(jù)的閥值是如果定義噪聲數(shù)據(jù)的

22、閥值是1 1(記錄數(shù)為(記錄數(shù)為1 1),則:),則:根據(jù)根據(jù)基本關(guān)系表一基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:借閱借閱大趨勢大趨勢一書的是一書的是經(jīng)濟(jì)系經(jīng)濟(jì)系的學(xué)生的學(xué)生根據(jù)根據(jù)概括關(guān)系表一概括關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:借閱借閱大趨勢大趨勢一書的是一書的是商學(xué)院商學(xué)院的學(xué)生的學(xué)生借閱借閱大趨勢大趨勢一書的是一書的是文學(xué)院文學(xué)院的學(xué)生的學(xué)生根據(jù)根據(jù)概括關(guān)系表二概括關(guān)系表二發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:借閱借閱大趨勢大趨勢一書的是一書的是文科文科的學(xué)生的學(xué)生系別系別書名書名借閱次數(shù)借閱次數(shù)文科文科大趨勢大趨勢6 6理科理科大趨勢大趨勢1 1學(xué)號學(xué)號姓名姓名系別系

23、別書名書名借閱日期借閱日期99320079932007顏立顏立經(jīng)濟(jì)經(jīng)濟(jì)大趨勢大趨勢2000.3.162000.3.1698330909833090王家衛(wèi)王家衛(wèi)金融金融大趨勢大趨勢2000.3.162000.3.1698131059813105王向東王向東醫(yī)學(xué)院醫(yī)學(xué)院大趨勢大趨勢2000.5.82000.5.898220419822041劉偉劉偉歷史歷史大趨勢大趨勢2000.6.302000.6.3099280739928073朱小明朱小明企管企管大趨勢大趨勢2000.5.202000.5.2099320569932056陳立業(yè)陳立業(yè)經(jīng)濟(jì)經(jīng)濟(jì)大趨勢大趨勢2000.9.192000.9.19992

24、31439923143劉英劉英新聞新聞大趨勢大趨勢2000.12.32000.12.3如果定義噪聲數(shù)據(jù)的閥值是如果定義噪聲數(shù)據(jù)的閥值是2 2(記錄數(shù)為(記錄數(shù)為2 2),則:),則:根據(jù)根據(jù)基本關(guān)系表一基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則發(fā)現(xiàn)不到特征規(guī)則如果定義噪聲數(shù)據(jù)的閥值是如果定義噪聲數(shù)據(jù)的閥值是2 2(記錄數(shù)為(記錄數(shù)為2 2),則:),則:根據(jù)根據(jù)基本關(guān)系表一基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則發(fā)現(xiàn)不到特征規(guī)則根據(jù)根據(jù)概括關(guān)系表一概括關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:借閱借閱大趨勢大趨勢一書的是一書的是商學(xué)院商學(xué)院的學(xué)生

25、的學(xué)生系別系別書名書名借閱次數(shù)借閱次數(shù)商學(xué)院商學(xué)院大趨勢大趨勢4 4文學(xué)院文學(xué)院大趨勢大趨勢2 2醫(yī)學(xué)院醫(yī)學(xué)院大趨勢大趨勢1 1如果定義噪聲數(shù)據(jù)的閥值是如果定義噪聲數(shù)據(jù)的閥值是2 2(記錄數(shù)為(記錄數(shù)為2 2),則:),則:根據(jù)根據(jù)基本關(guān)系表一基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則發(fā)現(xiàn)不到特征規(guī)則根據(jù)根據(jù)概括關(guān)系表一概括關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:借閱借閱大趨勢大趨勢一書的是一書的是商學(xué)院商學(xué)院的學(xué)生的學(xué)生根據(jù)根據(jù)概括關(guān)系表二概括關(guān)系表二發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:借閱借閱大趨勢大趨勢一書的是一書的是文科文科的學(xué)生的學(xué)生系別系別書名書名借閱次數(shù)

26、借閱次數(shù)文科文科大趨勢大趨勢6 6理科理科大趨勢大趨勢1 1學(xué)號學(xué)號姓名姓名系別系別書名書名借閱日期借閱日期99320079932007顏立顏立經(jīng)濟(jì)經(jīng)濟(jì)大趨勢大趨勢2000.3.162000.3.1698330909833090王家衛(wèi)王家衛(wèi)金融金融大趨勢大趨勢2000.3.162000.3.1698131059813105王向東王向東醫(yī)學(xué)院醫(yī)學(xué)院大趨勢大趨勢2000.5.82000.5.898220419822041劉偉劉偉歷史歷史大趨勢大趨勢2000.6.302000.6.3099280739928073朱小明朱小明企管企管大趨勢大趨勢2000.5.202000.5.209932056993

27、2056陳立業(yè)陳立業(yè)經(jīng)濟(jì)經(jīng)濟(jì)大趨勢大趨勢2000.9.192000.9.1999231439923143劉英劉英新聞新聞大趨勢大趨勢2000.12.32000.12.3如果定義噪聲數(shù)據(jù)的閥值是如果定義噪聲數(shù)據(jù)的閥值是5 5(記錄數(shù)為(記錄數(shù)為5 5),則:),則:根據(jù)根據(jù)基本關(guān)系表一基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則發(fā)現(xiàn)不到特征規(guī)則如果定義噪聲數(shù)據(jù)的閥值是如果定義噪聲數(shù)據(jù)的閥值是5 5(記錄數(shù)為(記錄數(shù)為5 5),則:),則:根據(jù)根據(jù)基本關(guān)系表一基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則發(fā)現(xiàn)不到特征規(guī)則根據(jù)根據(jù)概括關(guān)系表一概括關(guān)系表一發(fā)現(xiàn)的特

28、征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則發(fā)現(xiàn)不到特征規(guī)則系別系別書名書名借閱次數(shù)借閱次數(shù)商學(xué)院商學(xué)院大趨勢大趨勢4 4文學(xué)院文學(xué)院大趨勢大趨勢2 2醫(yī)學(xué)院醫(yī)學(xué)院大趨勢大趨勢1 1如果定義噪聲數(shù)據(jù)的閥值是如果定義噪聲數(shù)據(jù)的閥值是5 5(記錄數(shù)為(記錄數(shù)為5 5),則:),則:根據(jù)根據(jù)基本關(guān)系表一基本關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則發(fā)現(xiàn)不到特征規(guī)則根據(jù)根據(jù)概括關(guān)系表一概括關(guān)系表一發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)不到特征規(guī)則發(fā)現(xiàn)不到特征規(guī)則根據(jù)根據(jù)概括關(guān)系表二概括關(guān)系表二發(fā)現(xiàn)的特征規(guī)則是:發(fā)現(xiàn)的特征規(guī)則是:借閱借閱大趨勢大趨勢一書的是一書的是文科文科的學(xué)生的學(xué)

29、生系別系別書名書名借閱次數(shù)借閱次數(shù)文科文科大趨勢大趨勢6 6理科理科大趨勢大趨勢1 1應(yīng)該說,此時的規(guī)則是有意義的,該書基本上是文科學(xué)生借閱,應(yīng)該說,此時的規(guī)則是有意義的,該書基本上是文科學(xué)生借閱,t_權(quán)權(quán)=6/7%3 .14:)(%7 .85:)(,txtxx理科系別文科系別大趨勢書名三、挖掘類比較:區(qū)分不同的類三、挖掘類比較:區(qū)分不同的類o要解決的目標(biāo)要解決的目標(biāo) n在實際應(yīng)用中,對單個類(概念)的描述或特征化并不在實際應(yīng)用中,對單個類(概念)的描述或特征化并不一定感興趣,而希望挖掘一種描述,它將一個類(概念)一定感興趣,而希望挖掘一種描述,它將一個類(概念)與其它可比較的類(概念)相區(qū)分

30、。類區(qū)分(比較)挖與其它可比較的類(概念)相區(qū)分。類區(qū)分(比較)挖掘?qū)⒔o出目標(biāo)類與對比類相區(qū)別的描述。掘?qū)⒔o出目標(biāo)類與對比類相區(qū)別的描述。o類比較方法和實現(xiàn)類比較方法和實現(xiàn)1)數(shù)據(jù)收集:通過查詢處理數(shù)據(jù)庫中相關(guān)數(shù)據(jù)集,將它劃)數(shù)據(jù)收集:通過查詢處理數(shù)據(jù)庫中相關(guān)數(shù)據(jù)集,將它劃分為一個分為一個目標(biāo)類目標(biāo)類和一個(多個)和一個(多個)對比類對比類。2)維相關(guān)分析:選擇所需要的維,去掉與概化不相關(guān)的維)維相關(guān)分析:選擇所需要的維,去掉與概化不相關(guān)的維3)同步概化:目標(biāo)類和所有對比類概化到同一層次)同步概化:目標(biāo)類和所有對比類概化到同一層次4)導(dǎo)出比較的表示:結(jié)果可以是表、圖或規(guī)則,表示中一)導(dǎo)出比較的

31、表示:結(jié)果可以是表、圖或規(guī)則,表示中一般包括對比的度量(如般包括對比的度量(如count%)姓名姓名性別性別專業(yè)專業(yè)籍貫籍貫出身日期出身日期信用情況信用情況電話電話學(xué)歷學(xué)歷張清張清男男計算機(jī)應(yīng)用計算機(jī)應(yīng)用南京南京78。01良良4316111研研李玫李玫女女生物生物蘇州蘇州76。02優(yōu)優(yōu)4315111研研李山李山男男高分子化學(xué)高分子化學(xué)鹽城鹽城77。02良良4315808研研.王寧王寧男男計算機(jī)軟件計算機(jī)軟件鎮(zhèn)江鎮(zhèn)江78。04一般一般4315807研研例:例:姓名姓名性別性別專業(yè)專業(yè)籍貫籍貫出身日期出身日期信用情況信用情況電話電話學(xué)歷學(xué)歷張明張明男男計算機(jī)科學(xué)計算機(jī)科學(xué)揚州揚州81。01良良43

32、16201本本王梅王梅女女法律法律重慶重慶82。02一般一般4315171本本李山李山男男自動控制自動控制鹽城鹽城80。02中中4315669本本.王民王民男男微波微波上海上海80。04一般一般4315887本本初始目標(biāo)類關(guān)系:研究生初始目標(biāo)類關(guān)系:研究生初始對比類關(guān)系:本科生初始對比類關(guān)系:本科生目標(biāo)類主概化關(guān)系(研究生)目標(biāo)類主概化關(guān)系(研究生)對比類主概化關(guān)系(本科生)對比類主概化關(guān)系(本科生)專業(yè)專業(yè)年齡段年齡段信用情況信用情況Count%科學(xué)科學(xué)21-25良良5.53科學(xué)科學(xué)26-30良良5.02科學(xué)科學(xué)3030以上以上優(yōu)優(yōu)5.86.商務(wù)商務(wù)3030以上以上優(yōu)優(yōu)4.68專業(yè)專業(yè)年齡段年齡段信用情況信用情況Count%科學(xué)科學(xué)16-20一般一般5.53科學(xué)科學(xué)16-20良良4.53科學(xué)科學(xué)26-3026-30良良2.32.商務(wù)商務(wù)3030以上以上優(yōu)優(yōu)0.68 比較表示:比較表示:年齡在年齡在26到到30之間、選擇科學(xué)類專業(yè)且信用良之間、選擇科學(xué)類專業(yè)且信用良的研究生占整個研究生人數(shù)的的研究生占整個研究生人數(shù)的5.02%,而同樣的情況,本科生,而同樣的情況,本科生只

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論