數(shù)據(jù)挖掘?qū)д摿?xí)題答案(中文版)_第1頁(yè)
數(shù)據(jù)挖掘?qū)д摿?xí)題答案(中文版)_第2頁(yè)
數(shù)據(jù)挖掘?qū)д摿?xí)題答案(中文版)_第3頁(yè)
數(shù)據(jù)挖掘?qū)д摿?xí)題答案(中文版)_第4頁(yè)
數(shù)據(jù)挖掘?qū)д摿?xí)題答案(中文版)_第5頁(yè)
已閱讀5頁(yè),還剩161頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、介紹數(shù)據(jù)挖掘教師的解決方案手冊(cè)陳甘美華Pang-NingMichael教授Vipin Kumar版權(quán)所有2006年P(guān)earson Addison-Wesley。 保留所有權(quán)利。內(nèi)容。TOC o 1-2 h z u HYPERLINK l _Toc318808 1 IntroductionPAGEREF _Toc318808 h1PAGEREF _Toc318808 h HYPERLINK l _Toc318809 2 DataPAGEREF _Toc318809 h5PAGEREF _Toc318809 h HYPERLINK l _Toc318810 3 Exploring DataPAGE

2、REF _Toc318810 h19PAGEREF _Toc318810 h HYPERLINK l _Toc318811 4 Classification: Basic Concepts, Decision Trees, and ModelPAGEREF _Toc318811 hPAGEREF _Toc318811 h HYPERLINK l _Toc318812 EvaluationPAGEREF _Toc318812 h25PAGEREF _Toc318812 h HYPERLINK l _Toc318813 5 Classification: Alternative Technique

3、sPAGEREF _Toc318813 h45PAGEREF _Toc318813 h HYPERLINK l _Toc318814 6 Association Analysis: Basic Concepts and AlgorithmsPAGEREF _Toc318814 h71PAGEREF _Toc318814 h HYPERLINK l _Toc318815 7 Association Analysis: Advanced ConceptsPAGEREF _Toc318815 h95PAGEREF _Toc318815 h HYPERLINK l _Toc318816 8 Clust

4、er Analysis: Basic Concepts and AlgorithmsPAGEREF _Toc318816 h125PAGEREF _Toc318816 h HYPERLINK l _Toc318817 9 Cluster Analysis: Additional Issues and AlgorithmsPAGEREF _Toc318817 h147PAGEREF _Toc318817 h HYPERLINK l _Toc318818 10 Anomaly DetectionPAGEREF _Toc318818 h157PAGEREF _Toc318818 h三1介紹討論是否執(zhí)

5、行下列每項(xiàng)活動(dòng)的是一種數(shù)據(jù)miningtask。把客戶的公司根據(jù)他們的性別。否。 這是一種簡(jiǎn)單的數(shù)據(jù)庫(kù)查詢。把客戶的公司根據(jù)他們的盈利能力。第 這是一種會(huì)計(jì)計(jì)算、應(yīng)用程序的門限值。 然而,預(yù)測(cè)盈利的一種新的客戶將數(shù)據(jù)挖掘。計(jì)算的總銷售公司。否。 這又是簡(jiǎn)單的會(huì)計(jì)工作。排序的學(xué)生數(shù)據(jù)庫(kù)基于學(xué)生的身份證號(hào)碼。第 再次,這是一種簡(jiǎn)單的數(shù)據(jù)庫(kù)查詢。預(yù)測(cè)結(jié)果丟(公平)的一對(duì)骰子。否。 既然死是公正的,這是一種概率的計(jì)算。 如果死是不公平的,我們需要估計(jì)的概率對(duì)每個(gè)結(jié)果的數(shù)據(jù),那么這更象研究的問(wèn)題數(shù)據(jù)挖掘。 然而,在這種特定的情況下,要解決這一問(wèn)題是由數(shù)學(xué)家很長(zhǎng)一段時(shí)間前,因此,我們不認(rèn)為它是數(shù)據(jù)挖掘。預(yù)

6、測(cè)未來(lái)股價(jià)的公司使用。historicalrecords是的。 我們將試圖創(chuàng)建的模型,可以預(yù)測(cè)未來(lái)的持續(xù)價(jià)值的股票價(jià)格。 這是一例的2第1章介紹領(lǐng)域的數(shù)據(jù)挖掘預(yù)測(cè)模型。 我們可以使用回歸分析。這一建模,盡管研究人員在許多領(lǐng)域已經(jīng)開(kāi)發(fā)了多種技術(shù)來(lái)預(yù)測(cè)時(shí)間序列。監(jiān)控在患者心率異常。是的。 我們將構(gòu)建一種型號(hào)的正常行為的心率和提高報(bào)警當(dāng)尋常心的行為發(fā)生。 這將涉及領(lǐng)域的數(shù)據(jù)挖掘被稱為異常檢測(cè)。 這也可以看作是一種分類的問(wèn)題如果我們的例子兩個(gè)正常和不正常的心的行為。監(jiān)測(cè)地震波地震活動(dòng)。是的。 在這種情況下,我們將構(gòu)建模型的不同類型的地震波的行為與地震活動(dòng)和提高報(bào)警時(shí),這些不同類型的地震活動(dòng)。 這一例子

7、說(shuō)明,在區(qū)域的數(shù)據(jù)挖掘已知的分級(jí)。解壓的頻率的聲音波形。否。 這是信號(hào)處理。假設(shè)您是作為一種數(shù)據(jù)挖掘咨詢顧問(wèn)的互聯(lián)網(wǎng)搜索引擎公司。 介紹如何將數(shù)據(jù)挖掘可以幫助該公司的具體的例子,說(shuō)明技術(shù),如群集、分類、關(guān)聯(lián)規(guī)則挖掘和異常檢測(cè)可以被應(yīng)用。下面的示例將可能的答案。群集可以組的結(jié)果與類似的主題和現(xiàn)在的他們的用戶以更精簡(jiǎn)的形式,例如,報(bào)告了10個(gè)最常見(jiàn)的詞集。分類可以將結(jié)果以預(yù)定義的類別如“體育”、“政治”等。連續(xù)的關(guān)聯(lián)分析可以檢測(cè)到這種特定的查詢按照某些其他的查詢使用的概率很高,從而更有效的高速緩存。異常檢測(cè)技術(shù)可以發(fā)現(xiàn)不尋常的模式的用戶流量,例如,一主題已突然變得更受歡迎。 廣告策略可以調(diào)整,以利

8、用這種事態(tài)發(fā)展。3對(duì)于下面的每個(gè)數(shù)據(jù)集說(shuō)明數(shù)據(jù)是否privacyis一項(xiàng)重要的問(wèn)題。普查數(shù)據(jù)的收集從1900年1950年。 無(wú)IP地址和訪問(wèn)次數(shù)的Web用戶訪問(wèn)你的網(wǎng)站。單擊“是”圖像從地球軌道運(yùn)行的衛(wèi)星。 無(wú)名字和地址的人從電話通訊簿。 無(wú)姓名和電子郵件地址收集網(wǎng)。 無(wú) 2數(shù)據(jù)在最初的例子第2章、統(tǒng)計(jì)師說(shuō):“是的,字段2和3基本上是相同的。您能告訴我從三條線的樣本數(shù)據(jù)所顯示的為什么她說(shuō)嗎?7對(duì)所顯示的值。 雖然它可以是危險(xiǎn)的結(jié)論從這樣的小樣本,兩個(gè)字似乎包含基本相同的信息。分類以下屬性為Binary、離散或連續(xù)的。 還將其歸為質(zhì)量(名義或序數(shù))或數(shù)量(時(shí)間間隔或比例)。 某些情況下可能會(huì)有多

9、個(gè)解釋,簡(jiǎn)要說(shuō)明你的理由如果您認(rèn)為可能有某些含糊不清之處。例如:年齡。答:獨(dú)立的、定量的、比率時(shí)間在上午或下午。 Binary、定性、序號(hào)亮度計(jì)測(cè)量光度計(jì)。持續(xù)不斷的、定量的、比率亮度測(cè)量人的判決。 離散的、定性的、序號(hào)角度以度為單位0和360。 持續(xù)不斷的、定量的、比率銅牌、銀牌和金牌頒發(fā)的獎(jiǎng)項(xiàng)在奧運(yùn)會(huì)上。 離散的、定性的、序號(hào)高度海平面以上。 持續(xù)不斷的、定量的、間隔/比例(取決于海一級(jí)被認(rèn)為是一種任意的來(lái)源)。多的病人在醫(yī)院里。 離散的、定量的、比率ISBN號(hào)的書(shū)籍。 (查找格式在Web上的)離散的、定性的、名義上的(ISBN號(hào)碼沒(méi)有訂單信息,雖然)第2章數(shù)據(jù)可以通過(guò)指示燈的以下值:不透

10、明、半透明、透明。 離散的、定性的、序號(hào)軍銜。 離散的、定性的、序號(hào)中心的距離園區(qū)。 持續(xù)不斷的、定量的、間隔/比例(取決于)密度的物質(zhì)以克每立方厘米。 離散的、定量的、比率檢查涂層的編號(hào)。 (當(dāng)你參加活動(dòng),你可以常常giveyour衣的人將為您提供的號(hào)碼,您可以使用要求您的外套當(dāng)你離開(kāi)。)離散的、定性的、名義您接觸的營(yíng)銷總監(jiān),當(dāng)?shù)匾患夜?他認(rèn)為他已設(shè)計(jì)出一種簡(jiǎn)易的方法來(lái)衡量客戶的滿意度。 他解釋了他的計(jì)劃:“它是如此的簡(jiǎn)單,我不相信沒(méi)有人想過(guò)。 我只是保持跟蹤客戶投訴的每個(gè)產(chǎn)品。 我讀的是數(shù)據(jù)挖掘的圖書(shū),計(jì)數(shù)率的屬性,因此,我國(guó)的產(chǎn)品滿意度必須是比特性。 但當(dāng)我的產(chǎn)品都是基于我的新的客戶滿

11、意度測(cè)量和顯示出他們對(duì)我的老板,他告訴我,我忽略了很明顯的,我的措施是毫無(wú)價(jià)值的。 我認(rèn)為他是瘋了,因?yàn)槲覀冏顣充N的產(chǎn)品,最滿意的,因?yàn)樗耐对V最多。 你可以幫我把他直嗎?”誰(shuí)是誰(shuí)的營(yíng)銷總監(jiān)或老板嗎? 如果您的回答,hisboss你將如何修復(fù)措施的滿意度?老板是正確的。 一種更好的衡量標(biāo)準(zhǔn)是由投訴的產(chǎn)品滿意地注意到產(chǎn)品)=”。總數(shù)銷售的產(chǎn)品你能說(shuō)什么關(guān)于屬性的類型的原始productsatisfaction屬性?沒(méi)有什么可以說(shuō)的屬性類型的原始度量。 例如,兩個(gè)產(chǎn)品具有相同的客戶滿意度的級(jí)別會(huì)有不同的投訴數(shù)目和反之亦然。幾個(gè)月后,你會(huì)再次接觸相同的營(yíng)銷directoras行使3。 這一次,他已經(jīng)

12、設(shè)計(jì)出一種更好的方法來(lái)衡量在多大程度上對(duì)客戶更喜歡一種產(chǎn)品在其他類似的產(chǎn)品。 他解釋說(shuō),“當(dāng)我們開(kāi)發(fā)新的產(chǎn)品,我們通常要?jiǎng)?chuàng)建幾個(gè)變量和評(píng)估這一客戶的喜歡。 我們的標(biāo)準(zhǔn)程序,以使我們的測(cè)試主體所有的產(chǎn)品變化在一段時(shí)間,然后讓他們排的變型產(chǎn)品。 然而,我們的測(cè)試科目有很優(yōu)柔寡斷的,尤其是當(dāng)有兩個(gè)以上的產(chǎn)品。 結(jié)果,測(cè)試永遠(yuǎn)需要的。 我建議,我們執(zhí)行的比較成對(duì)的然后使用這些比較獲得的排名。 因此,如果我們有三個(gè)產(chǎn)品的變化,我們的客戶比較不同1和2、2和3,和最后3和1。 我們的測(cè)試時(shí)間與我的新程序是第三,什么是舊的程序,但雇員在測(cè)試的抱怨說(shuō)他們無(wú)法拿出排名的結(jié)果。 和我的老板想要的最新的產(chǎn)品的評(píng)價(jià),

13、昨天。 我還要提到的是他的人了老產(chǎn)品的評(píng)價(jià)辦法。 您能幫助我嗎?”是營(yíng)銷總監(jiān)的麻煩嗎? 將他的方法工作的生成順序排列的變型產(chǎn)品的客戶的首選項(xiàng)? 解釋一下。是的,營(yíng)銷總監(jiān)是有麻煩了。 客戶可能會(huì)不穩(wěn)定的排名。 例如,客戶可能更喜歡1,2,2,3,但3到1。有什么方法可以修復(fù)的營(yíng)銷總監(jiān)的做法? 更普遍的是,你能說(shuō)什么來(lái)創(chuàng)建順序測(cè)量基于規(guī)模的成對(duì)比較的嗎?解決方案之一:三個(gè)項(xiàng)目,只做前兩個(gè)比較。 一種更通用的解決方案:將選擇的客戶之一,訂購(gòu)產(chǎn)品,但仍然只允許配對(duì)比較的。 總的創(chuàng)建順序測(cè)量基于規(guī)模的成對(duì)比較是很困難的,因?yàn)榭赡艿拿苤?。?duì)于原來(lái)的產(chǎn)品評(píng)估計(jì)劃的整體排名eachproduct變化中發(fā)現(xiàn)

14、的計(jì)算其平均在所有測(cè)試的科目。 評(píng)論你是否認(rèn)為這是一種合理的辦法。 有什么其他的辦法可能您考慮嗎?第一,存在的問(wèn)題是分?jǐn)偙阮~表是不可能有時(shí)間間隔或比例分?jǐn)偙阮~表。 但實(shí)際上,平均可能不夠好。 更重要的是,少數(shù)幾個(gè)極端的評(píng)級(jí)可能會(huì)導(dǎo)致在總的評(píng)級(jí),是一種誤導(dǎo)。 因此,中值或修剪指(請(qǐng)參閱第3章)可能是更好的選擇。您能想到的情況的識(shí)別號(hào)碼將usefulfor預(yù)測(cè)嗎?例如:學(xué)生ID是一種良好的“調(diào)頭預(yù)警”功能的畢業(yè)日期。一名教育心理學(xué)家想要使用關(guān)聯(lián)分析方法來(lái)分析。testresults 測(cè)試包括100個(gè)問(wèn)題有四個(gè)可能的答案。第2章數(shù)據(jù)你將如何將此類數(shù)據(jù)轉(zhuǎn)換成適合于associationanalysis

15、嗎?關(guān)聯(lián)規(guī)則分析工程使用binary屬性,因此您必須將原始數(shù)據(jù)轉(zhuǎn)化為Binary格式如下所示:Q1=AQ1=BQ1=CQ1=D.Q100=AQ100=BQ100=CQ100=D1000.10000010.0100特別是,什么類型的屬性將您和howmany,他們有嗎?400不對(duì)稱的二元屬性。以下哪一項(xiàng)的數(shù)量很可能會(huì)表現(xiàn)出更多的時(shí)間自動(dòng)關(guān)聯(lián):雨量或每日的溫度嗎? 為什么?一種功能顯示的空間自動(dòng)關(guān)聯(lián)如果位置更接近每個(gè)其他的更多的類似的值的功能比位置更遠(yuǎn)的地方。 這是更為常見(jiàn)的物理關(guān)閉位置有類似的溫度比類似的降雨量降雨量以來(lái)可以非常本地化;,即降雨量可更改突然從一處向另一處。 因此,每日溫度顯示了更多

16、的空間自相關(guān)性然后每天的降雨量。討論為什么有的文檔的列表是一種數(shù)據(jù)集hasasymmetric離散或連續(xù)的非對(duì)稱性的特點(diǎn)。Ijth的項(xiàng)的文檔的列表的次數(shù),長(zhǎng)期j出現(xiàn)在我的文檔”。 大多數(shù)文檔所包含的只是一小部分的所有可能的條件,因此,零條目并沒(méi)有很大的意義,不論是在描述或比較文檔。 因此,文檔的矩陣有不對(duì)稱的離散特性。 如果我們應(yīng)用了TFIDF正常化的條件和歸檔到二級(jí)緩存的規(guī)范1、然后這將會(huì)創(chuàng)建一個(gè)文檔矩陣與連續(xù)的功能。 然而,功能仍然是不對(duì)稱的,因?yàn)檫@些變化并不創(chuàng)建非零的條目中的所有條目,以前是0,因此,零條目仍沒(méi)有很大的意義。許多科學(xué)依賴于觀察而不是(或除了)設(shè)計(jì)實(shí)驗(yàn)。 比較的數(shù)據(jù)質(zhì)量問(wèn)題

17、的參與觀測(cè)的科學(xué)與實(shí)驗(yàn)科學(xué)和數(shù)據(jù)挖掘。觀測(cè)科學(xué)的問(wèn)題,不能夠完全控制數(shù)據(jù)的質(zhì)量,他們獲得的。 例如,直到地球軌道運(yùn)行的衛(wèi)星,測(cè)量,海洋表面的溫度依賴的測(cè)量船。 同樣的,天氣的測(cè)量往往采取從站位于城鎮(zhèn)或城市。 因此,有必要與所提供的數(shù)據(jù),而不是數(shù)據(jù)從精心設(shè)計(jì)的實(shí)驗(yàn)。 在這種意義上說(shuō),數(shù)據(jù)分析的科學(xué)觀測(cè)類似的數(shù)據(jù)挖掘。討論之間的差值的精度測(cè)量和termssingle和雙精度,因?yàn)樗鼈兪怯脕?lái)在計(jì)算機(jī)科學(xué)中,通常為代表的浮點(diǎn)數(shù)字,需要32位和64位的分別。精度的浮點(diǎn)數(shù)字的最大精度。 更明確地規(guī)定,精度通常表示的有效數(shù)字的位數(shù)來(lái)表示的值。 因此,單精度數(shù)只能代表值與多達(dá)32位、9位小數(shù)位數(shù)的精確。 然而

18、,往往的精度值使用32位(64 bits)是遠(yuǎn)遠(yuǎn)少于32位數(shù)(64位)。提供至少兩個(gè)優(yōu)點(diǎn)與數(shù)據(jù)存儲(chǔ)在文本文件中insteadof a binary格式。文本文件可以很容易的檢查鍵入的文件或查看它的文本編輯器。文本文件是更便攜的binary文件、兩個(gè)跨越多個(gè)系統(tǒng)和方案。文本文件可以更方便地進(jìn)行修改,例如,使用文本編輯器或perl。區(qū)分噪音和異常值。 請(qǐng)務(wù)必考慮。followingquestions噪音是以往任何時(shí)候都更加令人感興趣的或需要? 異常值沒(méi)有任何的定義。 是的。 (請(qǐng)參閱第10章。)可以噪音對(duì)象異常值?是的。 隨機(jī)的數(shù)據(jù)失真通常負(fù)責(zé)為離群值。有噪音的對(duì)象總是異常值?第 隨機(jī)的失真會(huì)導(dǎo)致

19、對(duì)象或值更象是正常的。都是異常值總是發(fā)出噪音的對(duì)象嗎?第 往往離群值僅僅是類的對(duì)象,是不同于正常的對(duì)象??梢允乖肼暤湫椭挡粚こ5囊环N,或反之亦然?是的。 考慮的問(wèn)題是找出K近鄰的數(shù)據(jù)對(duì)象。 程序員在設(shè)計(jì)算法2.1來(lái)執(zhí)行這項(xiàng)任務(wù)。算法2.1算法查找K最接近的鄰居。1:fori=1的數(shù)據(jù)對(duì)象2:查找距離的對(duì)象的所有其他對(duì)象。3:排序這些距離遞減的順序。(跟蹤對(duì)象所關(guān)聯(lián)的每個(gè)距離)。4:返回的關(guān)聯(lián)對(duì)象的第一次K的距離,經(jīng)過(guò)排序的列表。5:結(jié)束。描述了可能出現(xiàn)的問(wèn)題與此算法如果有重復(fù)的對(duì)象的數(shù)據(jù)集。 假設(shè)距離函數(shù)將僅返回的距離為0的對(duì)象是相同的。有幾個(gè)問(wèn)題。 第一,重復(fù)的對(duì)象在最近的鄰居列表將取決于細(xì)

20、節(jié)的算法和對(duì)象的順序數(shù)據(jù)集。 第二,如果有足夠的重復(fù)的、最近的鄰居列表中可能包含重復(fù)的記錄。 第三,對(duì)象可能不是自己的最接近的鄰居。您將如何解決此問(wèn)題?有多個(gè)方法這取決于具體情況。 一種方法是只保留某個(gè)對(duì)象的每個(gè)組對(duì)象重復(fù)。 在這種情況下,每個(gè)鄰居都可以是單一的對(duì)象或一組對(duì)象重復(fù)。以下屬性用于衡量成員對(duì)一群亞洲象:重量、高度、象牙的長(zhǎng)度、中繼線的長(zhǎng)度,和耳區(qū)。 基于這些測(cè)量值,什么種類的相似性測(cè)量從2.4節(jié)您會(huì)使用比較或組這些大象? 證明您的答案和解釋的任何特殊情況。這些屬性中的所有數(shù)字,但可以具有完全不同的值的范圍內(nèi),取決于所使用的比額表對(duì)它們進(jìn)行測(cè)量。 此外,該特性沒(méi)有不對(duì)稱和規(guī)模的屬性問(wèn)

21、題。 這后者的兩個(gè)事實(shí)消除了余弦和相關(guān)措施。 歐幾里德距離、應(yīng)用進(jìn)行標(biāo)準(zhǔn)化后的屬性要有平均的0和標(biāo)準(zhǔn)偏差為1,將是適當(dāng)?shù)?。你是給定一組m對(duì)象分為K的群體,其中的組的大小美。 如果我們的目標(biāo)是要獲得的樣本大小n99.9%的遺傳因子相同。)兩人共享99.9%的相同基因。 如果我們想要比較的遺傳組成的兩個(gè)人,我們應(yīng)把重點(diǎn)放在它們之間的分歧。 因此,Hamming距離更適合這種情況。對(duì)于下面的引導(dǎo)程序、x和y,計(jì)算出所示的相似性或距離的措施。X=(1、1、1、1)、y=(2”、“2”、“2”、“2)余弦、關(guān)聯(lián)、歐幾里德的cos(x,y)=1、更正(x,y)=0/0(未定義)、歐幾里德(x,y)=2X=

22、(0、1、0、1)、y=(1、0、1、0)余弦、關(guān)聯(lián)、歐幾里德,雅卡爾cos(x,y)=0、更正(x,y)=-1、歐幾里德(x,y)=2、雅卡爾(x,y)=0X=(0、-1、0、1)、y=(1、0、1、0)余弦、關(guān)聯(lián)、歐幾里德的cos(x,y)=0、更正(x,y)=0、歐幾里德(x,y)=2X=(1、1、0、1、0、1)、y=(1、1、1、0、0、1)余弦、關(guān)聯(lián)、雅卡爾cos(x,y)=0.75、更正(x,y)=0.25的Jaccard(x,y)=0.6X=(2-1”、“0”、“2”、“0、3),y=(-1、1-1、0、0、-1)余弦、關(guān)聯(lián)的cos(x,y)=0、更正(x,y)=0在這里,我們

23、深入探討和余弦的相互關(guān)系的措施。什么是值的范圍,均可用于測(cè)量角度的余弦值?1、1。 許多倍的數(shù)據(jù)只有積極的條目。在這種情況下該值的范圍是0,1。如果兩個(gè)對(duì)象具有角度的余弦值的測(cè)量1、他們是相同的嗎? 解釋一下。不一定。 所有我們知道的是,屬性數(shù)值相差恒定的因素。是一種什么樣的關(guān)系的角度的余弦值為測(cè)量的相關(guān)性,如果有條提示:查看統(tǒng)計(jì)的措施,例如平均值和標(biāo)準(zhǔn)偏差的情況下,余弦和關(guān)聯(lián)是相同的和不同的。)對(duì)于兩個(gè)向量x和y的值為0、更正(x,y)=cos(x、y)。圖2.1(a)顯示了這種關(guān)系的角度的余弦值為測(cè)量的Euclideandistance 100000隨機(jī)生成點(diǎn)已標(biāo)準(zhǔn)化的有L 2的長(zhǎng)度為1。

24、 何總的意見(jiàn)可以使之間關(guān)系的歐幾里德距離和余弦相似性當(dāng)引導(dǎo)程序具有L 2規(guī)范1?因?yàn)樗械?00000點(diǎn)落在曲線上,有一種功能關(guān)系歐幾里德距離和余弦相似性的標(biāo)準(zhǔn)化數(shù)據(jù)。 更具體地說(shuō),是一種逆向的關(guān)系余弦相似性和歐幾里德距離。 例如,如果兩個(gè)數(shù)據(jù)點(diǎn)都是相同的,它們的余弦相似性是一種和他們的歐幾里德距離為零,但如果兩個(gè)數(shù)據(jù)點(diǎn)都有很高的歐幾里德距離、他們的余弦值是接近于零。 注意的是,所有的樣例數(shù)據(jù)點(diǎn)是從積極的象限,即僅有積極的價(jià)值。 這意味著所有的余弦(和關(guān)聯(lián)值將是積極的。圖2.1(b)顯示了這種關(guān)系的關(guān)聯(lián)到歐幾里德10萬(wàn)distancefor隨機(jī)生成的點(diǎn)都已標(biāo)準(zhǔn)化,有的意思是0,標(biāo)準(zhǔn)差為1。 何

25、總的意見(jiàn)可以使之間關(guān)系的歐幾里德距離和關(guān)聯(lián)當(dāng)引導(dǎo)程序已經(jīng)標(biāo)準(zhǔn)化的意思0、標(biāo)準(zhǔn)偏差為1?同先前的答覆,但與關(guān)聯(lián)取代余弦。源之間的數(shù)學(xué)關(guān)系余弦相似性和歐幾里德距離每個(gè)數(shù)據(jù)對(duì)象都有L 2的長(zhǎng)度為1。讓x和y是兩個(gè)向量的每個(gè)引導(dǎo)程序已有L 2的長(zhǎng)度為1。 對(duì)于這種媒介的差異僅僅是n次的總和,其方形的屬性值和兩者之間的媒介是他們點(diǎn)的產(chǎn)品除以n。源之間的數(shù)學(xué)關(guān)系的關(guān)聯(lián)和Euclideandistance在每個(gè)數(shù)據(jù)點(diǎn)都已進(jìn)行了標(biāo)準(zhǔn)化,減去它的意思和除以其標(biāo)準(zhǔn)偏差。讓x和y是兩個(gè)向量的每個(gè)向量的平均值為0,標(biāo)準(zhǔn)偏差為1。 對(duì)于這種媒介的差異(標(biāo)準(zhǔn)偏差的平方)是n次的總和,其方形的屬性值和兩者之間的媒介是他們點(diǎn)

26、的產(chǎn)品除以n。更正(x,y)顯示設(shè)置的不同度量的D(A,B)=(A-B)的大小+(B-A)符合指標(biāo)定理給出第70頁(yè)上。A和B是設(shè)置和A-B的差值。00.20.40.610.8余弦相似性1.41.210.80.60.40.20歐幾里德距離00.81關(guān)聯(lián)1.41.210.80.60.40.20歐幾里德距離。(一)關(guān)系輾轉(zhuǎn)相除(b)之間的關(guān)系歐幾里德距離和角度的余弦值測(cè)量距離和關(guān)聯(lián)。圖2.1。圖為演習(xí)20日。第1條)。 這是因?yàn)橐唤M是大于或等于0,d(x,y)0。B、A)焊接鋼管.-C)因?yàn)榇笮?AB)大小(B)和大小(BC)大小(B)、D A、BD B CCBB討論您可能如何映射關(guān)聯(lián)值的時(shí)間間隔1

27、對(duì)的時(shí)間間隔0、1。 注意類型的轉(zhuǎn)換,可以使用取決于應(yīng)用程序的,您所想到的。 因此,考慮兩個(gè)應(yīng)用程序:群集時(shí)間序列和預(yù)測(cè)行為的一次系列一。對(duì)于時(shí)間序列的群集、時(shí)間序列具有較高的正相關(guān)關(guān)系應(yīng)放在一起。 為此,以下的轉(zhuǎn)變將是適當(dāng)?shù)?對(duì)于預(yù)測(cè)的行為的一種時(shí)間序列從另一,有必要考慮強(qiáng)烈的負(fù)面影響,以及強(qiáng)烈的積極的、相互關(guān)聯(lián)的。 在這種情況下,下面的轉(zhuǎn)換、sim=|更正|可能是適當(dāng)?shù)摹?請(qǐng)注意,這一假定您只想要預(yù)測(cè)的規(guī)模,而不是方向。給定的一種相似性測(cè)量值的時(shí)間間隔0、1介紹兩個(gè)waysto轉(zhuǎn)換這一相似性值的差異值在時(shí)間間隔0,。和d=-logs。近距離通常定義對(duì)之間的對(duì)象。定義了兩個(gè)方法,你可能定義的

28、接近在海灣小組的對(duì)象。兩個(gè)例子如下:(一)基于輪換的感應(yīng),即最小成對(duì)的相似性或成對(duì)的最大差異,或(ii)在歐幾里德空間計(jì)算質(zhì)心(意味著所有的點(diǎn)請(qǐng)參閱第8.2節(jié))然后計(jì)算的總和或平均值的點(diǎn)的距離的中點(diǎn)。您如何定義兩點(diǎn)之間的距離的點(diǎn)的集合在歐幾里德空間嗎?一種方法是計(jì)算距離質(zhì)心之間的兩個(gè)點(diǎn)集的。您如何定義接近兩個(gè)數(shù)據(jù)集對(duì)象?(作出任何假設(shè)的數(shù)據(jù)對(duì)象,但一近距離測(cè)量的定義任何一對(duì)對(duì)象。)一種方法是計(jì)算得到的平均成對(duì)近距離的對(duì)象的一組對(duì)象中的對(duì)象組。 其他的辦法都是采取最小或最大距離。請(qǐng)注意,凝聚力的群集相關(guān)的概念接近的一組對(duì)象之間的分離的群集相關(guān)的概念接近,兩個(gè)組的對(duì)象。 (請(qǐng)參閱8.4節(jié)。)此外,

29、靠近兩個(gè)群集是一種重要的概念在種種機(jī)遇的分層結(jié)構(gòu)的群集。 (請(qǐng)參閱第8.2節(jié))。你是給定的一組點(diǎn)的歐幾里德空間,以及遠(yuǎn)距離的每個(gè)點(diǎn)在S點(diǎn)的x。 (不要緊如果xS。)如果我們的目標(biāo)是要找到所有的點(diǎn)指定距離內(nèi)的點(diǎn)y、Y=X、解釋如何可以使用三角上的不平等和已計(jì)算的距離為x,可能減少距離計(jì)算的需要嗎? 提示:在三角地的不平等現(xiàn)象,d(x,z)d(x,y)+d(y,x)、可重寫(xiě)為d(x,y)d(x、z)d(y,z)。不幸的是,有的打字錯(cuò)誤,缺乏明確的提示。 提示應(yīng)如下所示:提示:如果z是一種任意點(diǎn)的S,然后是三角的不平等現(xiàn)象,d(x,y)d(x,z)+d(y,z),可以寫(xiě)成d(y、z)d(x,y)d(

30、x、z)。另一應(yīng)用程序的三角不平等從d(x,z)d(x,y)+d(y,z)顯示,d(y,z)d(x、z)-d(x,y)。 如果下限,d(y,z)從這些不平等現(xiàn)象是大于,然后d(y、z)不需要計(jì)算。 另外,如果上面的綁定,d(y,z)獲得的不平等d(y,z)d(y,x)+d(x、z)的值小于或等于,則d(x、z)不需要計(jì)算??偟?如何將之間的距離x軸和y軸的數(shù)量產(chǎn)生影響的距離計(jì)算?如果x=y然后沒(méi)有任何計(jì)算都是必要的。 作為x變到更遠(yuǎn)的地方,通常更多的遠(yuǎn)距離的計(jì)算是有需要的。假設(shè),你可以找到一小部分點(diǎn)S,從原始的數(shù)據(jù)集,每點(diǎn)的數(shù)據(jù)集指定距離內(nèi),至少有一點(diǎn)在S和,你也有成對(duì)的距離矩陣。 介紹了一種

31、使用此信息來(lái)計(jì)算最短的距離計(jì)算,設(shè)置的所有接入點(diǎn)的距離范圍內(nèi)的的指定點(diǎn)的數(shù)據(jù)集。讓x和y是兩個(gè)點(diǎn)并讓x和y的點(diǎn)在S中最接近的兩個(gè)點(diǎn),分別。 如果我們可以有把握地?cái)喽╠(x,y)。 同樣的,如果我們可以有把握地?cái)喽╠(x,y)。 這些公式都是派生的,考慮的情況下x和y是遠(yuǎn)的x和y作為遠(yuǎn)或接近的。顯示1個(gè)減號(hào)Jaccard相似性是一種距離測(cè)量twodata之間的對(duì)象的x和y滿足指標(biāo)定理給出第70頁(yè)上。 具體來(lái)說(shuō),d(x,y)=1-J(x,y)。第1條)。 因?yàn)镴(x,y)1,d(x,y)0。1(b)。 因?yàn)镴(x,x)=1,d(x,x)=02個(gè)。 因?yàn)镴(x,y)=J(y,x),d(x,y)=d(

32、y,x)3。 (證明由于Jeffrey Ullman)minhash(x)是索引的第一非零項(xiàng)的xProb(minhash(x)=k)上的概率tha minhash(x)=k當(dāng)x為隨機(jī)交換。請(qǐng)注意,prob(minhash(x)=minhash(y)=J(x,y)(minhash lemma)。因此,d(x,y)=1prob(minhash(x)=minhash(y)=prob(minhashminhash函數(shù)(y)我們要表明,Prob(minhash函數(shù)=minhash(z)prob(minhash函數(shù)=minhash(y)+prob(minhash函數(shù)=minhash(Z)但是請(qǐng)注意,每當(dāng)m

33、inhash(x)=Minhash(z),那么至少一minhash(x)=Minhash(y和minhash函數(shù)=minhash(z)必須是真的。顯示距離測(cè)量定義的角度在兩個(gè)數(shù)據(jù)引導(dǎo)程序、x和y滿足指標(biāo)定理給出第70頁(yè)上。 具體來(lái)說(shuō),d(x,y)=arccos(cos(x,y)。注意角度的范圍為0至180。第1條)。 由于0cos(x,y)1,d(x,y)0。1(b)。 因?yàn)閏os(x,x)=1,d(x,x)=arccos(1)=0因?yàn)閏os(x,y)=cos(y,x),d(x,y)=d(y,x)如果這三個(gè)矢量的飛機(jī)然后很明顯的是,角度之間的x和z的值必須小于或等于之間的角度x、y、y和z。

34、如果y是投影的y到定義的平面的X和Z,然后注意之間的角度x、y、y和z是更多比的x和y、y和z。解釋為什么計(jì)算接近兩個(gè)屬性通常simplerthan計(jì)算之間的相似性兩個(gè)對(duì)象??偟膶?duì)象可以是記錄的字段(屬性)是不同的類型。 計(jì)算全部相似的,這兩個(gè)對(duì)象在這種情況下,我們需要決定如何計(jì)算相似性對(duì)于每個(gè)屬性,然后將這些類似之處。 這是可以做到很干脆的使用方程2.15或2.16,但仍是有點(diǎn)特設(shè)的,至少相比較接近的措施如歐幾里德距離或關(guān)聯(lián),這在數(shù)學(xué)上是有理的。 相比之下,中屬性的值都是相同的類型,因此,如果另一特性是同一類型,然后計(jì)算相似度的概念和計(jì)算非常簡(jiǎn)單。 Chapter 3Exploring Da

35、ta3探索數(shù)據(jù)。獲得某個(gè)數(shù)據(jù)集在UCI機(jī)器學(xué)習(xí)的應(yīng)用Repositoryand盡可能多的不同的可視化技術(shù)的章節(jié)中所述。 有的書(shū)目注釋和本書(shū)的Web站點(diǎn)提供了可視化的軟件。MATLAB和R具有卓越的設(shè)施來(lái)實(shí)現(xiàn)可視化。 大部分的數(shù)字在本章中的創(chuàng)建使用MATLAB。 R是可從/。至少確定兩個(gè)優(yōu)點(diǎn)和兩個(gè)缺點(diǎn),使用顏色tovisually表示信息。優(yōu)點(diǎn):顏色非常容易直觀區(qū)分可視元素。 例如,3組二維點(diǎn)更容易判別如果標(biāo)記代表該點(diǎn)具有不同的顏色,而不是僅在不同的形狀。 另外,數(shù)字的顏色是更有趣的。缺點(diǎn):有些人是色盲,可能無(wú)法正確地解釋了彩色圖。 灰度圖可以顯示更多的細(xì)節(jié)在某些情況下。 顏色可以是硬盤(pán)的正確使

36、用。 例如,一種顏色較差可那俗氣的或可以把注意力集中在不重要的元素。有什么安排的問(wèn)題,產(chǎn)生的三個(gè)dimensionalplots嗎?它將會(huì)被更好地為國(guó)家的這一更為普遍,“有什么問(wèn)題.”因?yàn)檫x擇、以及安排方面發(fā)揮了關(guān)鍵的問(wèn)題是顯示三維圖。關(guān)鍵的問(wèn)題三維繪圖是如何顯示的資料,以便盡可能少的信息變得模糊不清。 如果土地是一種二維的表面上,然后選擇新的觀點(diǎn)是至關(guān)重要的。 但是,如果圖形是以電子的形式,然后它有時(shí)可能是交互式地改變的觀點(diǎn)以獲得完整的表面上。 三維固體的情況就更加具有挑戰(zhàn)性的。 通常情況下,部分信息必須省略,以提供必要的信息。 例如,一層或跨部分的三維對(duì)象通常是如圖所示。 在某些情況下,透

37、明度也可以被使用。 再次,能力改變這項(xiàng)安排的可視元素的交互方式可以是有幫助的。討論的優(yōu)點(diǎn)和缺點(diǎn),使用的采樣,減少thenumber的數(shù)據(jù)對(duì)象,需要將其顯示出來(lái)。 將簡(jiǎn)單的隨機(jī)抽樣(無(wú)需更換)是個(gè)好辦法嗎?采樣 為什么可以或不可以嗎?簡(jiǎn)單隨機(jī)抽樣并不是最好的辦法,因?yàn)樗梢韵蟛糠值狞c(diǎn)在稀疏區(qū)域。 這是更好地在k-t因子區(qū)域數(shù)據(jù)對(duì)象太密集的同時(shí)保持大多數(shù)或所有數(shù)據(jù)對(duì)象的稀疏區(qū)域。說(shuō)明您如何創(chuàng)建可視化效果的顯示信息thatdescribes以下類型的系統(tǒng)。一定要解決以下問(wèn)題:代表性。您將如何將地圖對(duì)象、屬性和關(guān)系的可視化元素?安排的。是否有任何特別的考慮,需要考慮到如何的視覺(jué)元素的顯示嗎? 具體

38、的示例可能選擇的角度來(lái)看,使用透明度、或分隔的某些組的對(duì)象。選擇。你將會(huì)如何處理大量的屬性和數(shù)據(jù)對(duì)象?下面的解決方案供圖示。計(jì)算機(jī)網(wǎng)絡(luò)的網(wǎng)絡(luò)。 一定要包括兩個(gè)靜態(tài)方面close,諸如連接性、和動(dòng)態(tài)的方面,如交通。網(wǎng)絡(luò)的連通性,最好是將表示為圖中的節(jié)點(diǎn)的路由器、網(wǎng)關(guān)或其他通信設(shè)備和鏈路的連接。 網(wǎng)絡(luò)連接的帶寬可以表示的寬度的鏈接。 顏色可以用來(lái)顯示使用率的鏈路和節(jié)點(diǎn)。分發(fā)特定的植物和動(dòng)物物種的worldfor特定的時(shí)刻。最簡(jiǎn)單的方法是將顯示每個(gè)物種在單獨(dú)的世界地圖和陰魂的世界各地區(qū)的物種出現(xiàn)。 如果有好幾個(gè)品種的一次顯示的圖標(biāo)用于每個(gè)物種可以被放置在一張世界地圖。21使用計(jì)算機(jī)上的資源,例如處理

39、器時(shí)間、主內(nèi)存和磁盤(pán)的一組基準(zhǔn)測(cè)試的數(shù)據(jù)庫(kù)程序。資源的使用情況,每個(gè)程序可顯示為一條圖的三個(gè)數(shù)量。 因?yàn)檫@三個(gè)的數(shù)量將會(huì)有不同的分?jǐn)偙阮~表的適當(dāng)比例的資源是必要的,這能起到很大的作用。 例如,資源的使用情況都可以顯示總數(shù)的比例。 或者,我們可以使用三個(gè)條形圖,一種類型的資源的使用情況。 在其中的每個(gè)塊有一欄的高度表示使用相應(yīng)的程序。 這種方法不需要任何擴(kuò)展。 另一選項(xiàng)將會(huì)顯示一條線圖的每個(gè)應(yīng)用程序的資源使用情況。 對(duì)于每個(gè)程序,一條線將建成的(1)考慮到處理器時(shí)間、主內(nèi)存和磁盤(pán)作為不同的x位置(2)允許該比例的資源使用的特定方案的三個(gè)數(shù)量的y值與x的值,然后(3)繪制一條線來(lái)連接這三個(gè)點(diǎn)。 請(qǐng)

40、注意,訂購(gòu)的三份量需要指定的,但是都是任意的。 對(duì)于這種方法,使用的資源,所有的方案都可以被顯示在相同的圖。改變職業(yè)的工人在特定國(guó)家/地區(qū)的逾thelast 30多年的歷史。 假設(shè)您有每年的信息每個(gè)人,也包括性別和教育水平。對(duì)于每個(gè)性別、職業(yè)細(xì)分可顯示為陣列中的餅圖,其中每一行的餅圖表示某一特定的教育水平和每個(gè)列指示特定的一年。 為方便起見(jiàn),在時(shí)間上的差距每一列可以是5年或10年。或者,我們可以在職業(yè)和然后對(duì)每個(gè)性別、計(jì)算累積成就業(yè)的每一種職業(yè)。 如果此數(shù)量是繪制的每個(gè)性別,然后之間的兩個(gè)連續(xù)的行顯示了就業(yè)這種占領(lǐng)。 如果顏色是與每個(gè)占領(lǐng),然后之間的地區(qū),每個(gè)設(shè)置的行也可色的顏色與每個(gè)職業(yè)。

41、類似的方式來(lái)顯示相同的信息將是使用順序堆疊的條形圖。描述一種優(yōu)勢(shì)和缺點(diǎn)之一的干細(xì)胞和葉圖withrespect標(biāo)準(zhǔn)的直方圖。莖和葉圖顯示了你的實(shí)際值的分布。 在酬金方面的干細(xì)胞和葉的陰謀變得相當(dāng)笨拙的很大數(shù)量的值。如何解決這一問(wèn)題,一種直方圖取決于numberand位置的容器嗎?最好的辦法是什么的估計(jì)實(shí)際的分布函數(shù)的數(shù)據(jù)看起來(lái)就像使用內(nèi)核密度估計(jì)。 這一分支機(jī)構(gòu)的數(shù)據(jù)分析是比較發(fā)達(dá)的,更多的是合適的如果廣泛提供,但簡(jiǎn)單的辦法,一直方圖是不足夠的。描述如何使用框圖可以給信息的值是否是anattribute對(duì)稱分布。 你能說(shuō)什么關(guān)于的對(duì)稱性分布的屬性顯示在圖3.11的嗎?如果該行占入息中位數(shù)的數(shù)據(jù)

42、中間,thebox,然后數(shù)據(jù)是對(duì)稱分布,至少在75個(gè)以上的數(shù)據(jù)之間的第一和第三個(gè)四分位。 其余的數(shù)據(jù)長(zhǎng)度、毛刺和異常數(shù)據(jù)也顯示,雖然,因?yàn)檫@些功能不需要更多的點(diǎn),它們可能是誤導(dǎo)的。Sepal寬度和長(zhǎng)度似乎較為對(duì)稱分布,花瓣長(zhǎng)度似乎是歪斜的,花瓣寬度有點(diǎn)歪斜。比較sepal length、sepal width、花瓣長(zhǎng)度和寬度的花瓣、usingFigure 3.12。對(duì)于Setosa、sepal lengthsepal width花瓣長(zhǎng)度花瓣寬度。 對(duì)于鮮屑型、糜爛型足和Virginiica、sepal lengthsepal width和花瓣長(zhǎng)度花瓣寬度,但sepal length花瓣長(zhǎng)度、花

43、瓣長(zhǎng)度sepal width。評(píng)論使用的框圖來(lái)探索數(shù)據(jù)集與四個(gè)屬性:年齡、體重、身高、和收入。大量的信息可通過(guò)查找(1)”框中每個(gè)plotsfor屬性、和(2)框圖的特定屬性的各種類別的第二個(gè)屬性。 例如,如果我們比較一下框圖的年齡的不同類別的年齡,我們就會(huì)看到,重量隨年齡增加而上升。給出一種可能的解釋,說(shuō)明為什么大多數(shù)值的花瓣長(zhǎng)度andwidth落在桶沿對(duì)角的圖3.9。我們希望這種分布的三個(gè)品種的綜合注冊(cè)資訊系統(tǒng)可以根據(jù)它們的大小,如果花瓣長(zhǎng)度和寬度都是相關(guān)關(guān)系,廠的規(guī)模和每個(gè)其他。使用數(shù)字3.14和3.15到識(shí)別的特點(diǎn),和petalwidth花瓣長(zhǎng)度屬性。23有一種相對(duì)平坦的曲線上的經(jīng)驗(yàn)性

44、的民防部隊(duì)和分位點(diǎn)別出心裁的兩片花瓣長(zhǎng)度和寬度的花瓣。 這表示一組鮮花,這些屬性都有相對(duì)穩(wěn)定的值。簡(jiǎn)單的線圖,如圖2.12的56頁(yè)的、兩個(gè)whichshows時(shí)間序列,可以用來(lái)有效地顯示高維數(shù)據(jù)。 例如,在圖56很容易判斷的頻率的兩個(gè)時(shí)間序列是不同的。 有什么特點(diǎn)的時(shí)間系列允許的有效可視化高維數(shù)據(jù)嗎?該屬性的值是有序的。描述的各種情況下產(chǎn)生稀疏或密集數(shù)據(jù)的多維數(shù)據(jù)集文件中說(shuō)明的例子以外使用的通訊簿。任何的數(shù)據(jù)集的所有組合的價(jià)值是不大可能發(fā)生的將會(huì)產(chǎn)生稀疏的多維數(shù)據(jù)集。 這將包括集的連續(xù)屬性的一組對(duì)象的屬性并不占據(jù)整個(gè)數(shù)據(jù)空間,但只有其中的一小部分,以及離散的屬性,其中的許多組合值不發(fā)生。密集的

45、多維數(shù)據(jù)集將會(huì)出現(xiàn),當(dāng)幾乎所有的測(cè)試項(xiàng)目組合”類別中的基本屬性會(huì)發(fā)生、或總的水平足夠高,以便所有的組合都可能有值的。 例如,考慮一種數(shù)據(jù)集包含類型的交通意外,以及它的位置和日期。 原始數(shù)據(jù)的多維數(shù)據(jù)集將會(huì)十分稀疏,但如果它是聚合的類別包括單一的或多個(gè)車禍,意外的發(fā)生,在這個(gè)月里發(fā)生,然后我們就會(huì)獲得一種密集的多維數(shù)據(jù)集。您如何延長(zhǎng)的概念的多層面數(shù)據(jù)的分析,以便使該目標(biāo)變量是一種定性的變量? 換句話說(shuō),什么類型的摘要統(tǒng)計(jì)信息或數(shù)據(jù)的可視化效果會(huì)有興趣嗎?摘要統(tǒng)計(jì)信息,將有利于將頻率值withwhich或組合的價(jià)值、目標(biāo)和其他形式的出現(xiàn)。 從這我們可以從條件之間相互關(guān)系的不同的值。 反過(guò)來(lái),這些關(guān)

46、系可以顯示使用的圖形相似,用于顯示貝葉斯算法的網(wǎng)絡(luò)。構(gòu)建多維數(shù)據(jù)集的表3.1。 這是密集或稀疏數(shù)據(jù)立方體”。如果它是稀疏的、確定的單元格均為空?!岸嗑S數(shù)據(jù)集的表3.2。 它是一種高密度的多維數(shù)據(jù)集;只有兩個(gè)單元格都是空的。表3.1。事實(shí)表的練習(xí)16。表3.2。多維數(shù)據(jù)集的練習(xí)16。產(chǎn)品標(biāo)識(shí)號(hào)位置識(shí)別號(hào)。銷售數(shù)量11101362152222123總11006162522027總1522643ProductID位置識(shí)別號(hào)。17日。 討論之間的差別維度性減少基于聚合和維度性減少基于技術(shù)如PCA和SVD。的維度性PCA或SVD可以被視為一種投影的數(shù)據(jù)放到縮小的尺寸。 在聚合、團(tuán)體的層面是結(jié)合在一起的。

47、 在某些情況下,如當(dāng)天都匯聚到個(gè)月或六個(gè)月的銷售一種產(chǎn)品的匯總,存儲(chǔ)位置的聚合可以被視為一種改變分?jǐn)偙阮~表。 相比之下,維度性減少提供的PCA和SVD沒(méi)有作出這種解釋。4分類:基本概念、決策樹(shù)、和型號(hào)。評(píng)價(jià)繪制完整的決策樹(shù)的奇偶校驗(yàn)功能的四個(gè)布爾屬性,A、B、C和D。 它可以簡(jiǎn)化的樹(shù)嗎?圖4.1。決策樹(shù)用于奇偶校驗(yàn)功能的四個(gè)布爾型屬性。 前面的樹(shù)不能簡(jiǎn)化的??紤]培訓(xùn)的例子如表4.1所示的binary classificationproblem。表4.1。數(shù)據(jù)集的練習(xí)2??蛻魳?biāo)識(shí)性別車型襯衫尺寸類別1M家庭小C 02M體育中等C 03M體育中等C 04M體育大C 05M體育超大C 06M體育超大

48、C 07F體育小C 08F體育小C 09F體育中等C 010F豪華大C 011M家庭大C 112M家庭超大C 113M家庭中等C 114M豪華超大C 115F豪華小C 116F豪華小C 117F豪華中等C 118F豪華中等C 119F豪華中等C 120F豪華大C 1計(jì)算的基尼指數(shù)全面收集培訓(xùn)的例子。答:基尼系數(shù)=1-2 0.52=0.5。計(jì)算的基尼指數(shù)為“客戶標(biāo)識(shí)”屬性。答:堅(jiān)尼對(duì)于每個(gè)客戶ID的值為0。 因此,總的來(lái)說(shuō)基尼系數(shù)的客戶ID為0。計(jì)算的基尼指數(shù)的性別屬性。答:堅(jiān)尼的男性為1-2 0.52=0.5。 堅(jiān)尼女也0.5。 因此,總的來(lái)說(shuō)基尼系數(shù)的性別0.5 0.5+0.5 0.5=0.

49、5。表4.2。數(shù)據(jù)集的練習(xí)3。實(shí)例123目標(biāo)類1TT1.0+2TT6.0+34T FFF5.04.0-+5678FFFTTTF F7.03.08.07.0-+9FT5.0-計(jì)算的基尼指數(shù)車型屬性使用的多路分離。答:堅(jiān)尼的家庭車0.375、體育汽車0、豪華車是0.2188。 總的基尼系數(shù)為0.1625。計(jì)算的基尼指數(shù)襯衫尺寸屬性使用的多路分離。答:堅(jiān)尼的小襯衫的尺寸是0.48,中等尺寸的襯衫是0.4898、寬大的T恤尺寸是0.5,和超大的T恤尺寸是0.5。 總的堅(jiān)尼的球衣大小屬性為0.4914。哪些屬性是更好的、性別、車型、或襯衫的尺寸?答:車型,因?yàn)樗幕嵯禂?shù)最低的三個(gè)屬性。解釋為什么客戶標(biāo)

50、識(shí)不應(yīng)被用作屬性測(cè)試條件即使它具有最低的基尼系數(shù)。答:該特性沒(méi)有預(yù)測(cè)能力,因?yàn)樾驴蛻舴峙浣o新的客戶ID??紤]培訓(xùn)的例子中所示的表4.2的binary classificationproblem。什么是熵的這一收集培訓(xùn)的例子respectto積極的類?答:有四個(gè)正面的例子和五個(gè)負(fù)面的例子。 因此,第9。 熵的訓(xùn)練實(shí)例29)=0.二一一二九九一一。什么是信息增益的1和2相對(duì)這些培訓(xùn)的例子嗎?答:對(duì)于屬性1、相應(yīng)的計(jì)數(shù)和概率是:1+-T31F14熵的1是”。因此,信息增益的1是0.二一一二九九一一-0.第12條健康權(quán)203-22153=022942557。對(duì)于屬性2、相應(yīng)的計(jì)數(shù)和概率是:2+-T23

51、F22熵的2”。因此,信息增益的20。二一一二九九一一-0.9839=0.0072。3、這是一種連續(xù)的屬性、計(jì)算信息增益為每個(gè)可能的分拆。答:3類的標(biāo)簽。拆分點(diǎn)熵。信息增益1.0+2.00.84840.14273.0-3.50.9885零點(diǎn)零零二六4.0+4.50.91830.07285.0-5.0-5.50.98390.00726.0+6.50.97280.01837.0+7.0-7.50.88890.1022最好的拆分為3個(gè)時(shí)拆分點(diǎn)等于2。什么是最好的拆分(a1、a2、a3)根據(jù)信息的獲得?答:根據(jù)信息的增益、1產(chǎn)生最佳的拆分。什么是最好的拆分之間(a1和a2)的分類錯(cuò)誤率?答:對(duì)于屬性1

52、:錯(cuò)誤率=2/9。 對(duì)于屬性2:錯(cuò)誤率=4/9。因此,根據(jù)錯(cuò)誤的發(fā)生率,1產(chǎn)生最佳的拆分。什么是最好的拆分之間(a1和a2)根據(jù)基尼指數(shù)?答:對(duì)于屬性1的基尼指數(shù)是”。對(duì)于屬性2、基尼指數(shù)是”。自在基尼指數(shù)為1是小,但它產(chǎn)生的更好地分割。4個(gè)。 顯示熵的節(jié)點(diǎn)永遠(yuǎn)不會(huì)增加后拆分成更小的后繼路由器的節(jié)點(diǎn)。答:讓Y=y1,y2,yc表示c類和X=x1,x2,xk表示k的屬性值的屬性的X。 在節(jié)點(diǎn)上的拆分X,熵是:”(4.1)在那里我們用的是,從法的總的概率。拆分后的X、熵的每個(gè)子節(jié)點(diǎn)X=xi:)(4.2)其中P(yj|xi)是小部分的示例與X=xi,屬于類yj。 熵分割之后在X的加權(quán)平均信息量的子節(jié)

53、點(diǎn):(4.3)我們?cè)谀抢镉靡阎氖聦?shí)是從概率論,P(xi,yj)=)。 請(qǐng)注意,E(Y|X)也稱為有條件的熵。要回答這個(gè)問(wèn)題,我們需要證明E(Y|X)E(Y)。 讓我們的計(jì)算之間的區(qū)別后entropies分割和分割之前,即E(Y|X)-E(Y)、使用方程4.1和4.3:(4.4)為證明這一等式4.4非積極的,我們可以使用以下屬性一種對(duì)數(shù)函數(shù):”(4.5)但條件是=1。 此屬性是一種特殊的情況下具有更普遍的定理涉及外接功能(其中包括對(duì)數(shù)函數(shù))稱為詹森的不平等。通過(guò)應(yīng)用Jensen的不平等、等式4.4可以在限定范圍內(nèi),如下所示:因?yàn)镋(Y|X)-E(Y)0,因此熵從來(lái)沒(méi)有增加分裂后的屬性??紤]以下

54、的一組數(shù)據(jù)的binary類的問(wèn)題。AB類的標(biāo)簽。TF+TT+TT+TTF T-+FFFTTFFFT F-計(jì)算信息增益當(dāng)分裂的A和B。 該屬性將決策樹(shù)算法入門課程選擇的?答:應(yīng)急表格拆分后的屬性上A和B是:A=TA=FB=TB=F+40+313315-總的熵分割之前是:Eorig=-0.4登錄0.40.6登錄0.6=0.9710信息獲得后分裂的是:信息增益分裂后的B是:因此,屬性將選擇要分割的節(jié)點(diǎn)。計(jì)算的基尼指數(shù)當(dāng)分裂的A和B。 該屬性將決策樹(shù)算法入門課程選擇的?答:總體基尼系數(shù)的分割之前是:格里希=1-0.42-0.62=0.48增益在基尼系數(shù)的拆分后的是:增益在基尼系數(shù)的拆分后的B是:因此,

55、屬性B將選擇要拆分的節(jié)點(diǎn)。圖4.13顯示了熵的基尼指數(shù)都monotonouslyincreasing的范圍0,0.5和他們兩位都是單調(diào)減少的范圍0.5,1。 可能是信息的獲得和增益的基尼指數(shù)支持不同的屬性嗎? 解釋一下。答:是的,盡管這些措施具有相似的范圍和單調(diào)的行為、其各自的性別問(wèn)題認(rèn)識(shí)信息和聯(lián)網(wǎng)系統(tǒng)、,這是按比例縮小的差別的措施,不一定是相同的行為方式,如圖所示的結(jié)果在零件(a)和(b)。考慮以下的一組訓(xùn)練的例子。XYZ編號(hào)類別C 1的示例。編號(hào)類別C 2示例。000540001015010105011450100105101250110520111015(一)計(jì)算兩級(jí)決策樹(shù)使用貪婪的方法

56、本章所述。 使用分類錯(cuò)誤率為準(zhǔn)則來(lái)拆分。 什么是總體錯(cuò)誤率引起的樹(shù)嗎?答:屬性拆分為1級(jí)。要確定測(cè)試條件的根節(jié)點(diǎn),我們需要計(jì)算的錯(cuò)誤率特性的X、Y和Z。 對(duì)于屬性X、相應(yīng)的計(jì)數(shù):XC 1C 20606014040因此,錯(cuò)誤率使用屬性的X是(60+40)/200=0.5。對(duì)于屬性Y對(duì)應(yīng)的計(jì)數(shù):YC 1C 20406016040因此,錯(cuò)誤率使用特性的Y是(40+40)/200=0.4。對(duì)于屬性Z、相應(yīng)的計(jì)數(shù):ZC 1C 20307017030因此,錯(cuò)誤率使用特性的Y是(30+30)/200=0.3。自Z使最小的錯(cuò)誤率,它的選擇被選擇為分割的屬性在1級(jí)。屬性拆分為2級(jí)。拆分后的屬性Z、隨后的測(cè)試條件

57、可能涉及屬性“X”或“Y”。 這在很大程度上取決于培訓(xùn)的例子分布到Z=0及Z=1的子節(jié)點(diǎn)。對(duì)于Z=0,相應(yīng)的計(jì)數(shù)屬性X和Y是相同的,如下表所示。XC 1C 2YC 1C 201545015451152511525錯(cuò)誤的發(fā)生率在這兩個(gè)案件(X和Y)(15+15)/100=0.3。對(duì)于Z=1,相應(yīng)的計(jì)數(shù)屬性X和Y都顯示在下面的表中。XC 1C 2YC 1C 204515025151251514515雖然數(shù)略有不同,他們的錯(cuò)誤率仍然是相同的,(15+15)/100=0.3。對(duì)應(yīng)的兩個(gè)一級(jí)的決策樹(shù)是如下圖所示。ZX或YC 2010011C 2C 1C 1X或Y總體錯(cuò)誤率引起的樹(shù)(15第15天第15天第

58、15天)/200=0.3。(二)重復(fù)第(一)部分使用X作為第一次分裂的屬性然后選擇最佳的其余屬性的拆分每個(gè)后繼節(jié)點(diǎn)。 什么是錯(cuò)誤的發(fā)生率,引起的樹(shù)嗎?答:在選擇屬性X的第一分割特性、隨后的測(cè)試條件可能涉及或特性的Y軸或Z軸的屬性。對(duì)于X=0,相應(yīng)的計(jì)數(shù)特性Y和Z如下表所示。YC 1C 2ZC 1C 2055501545155514515錯(cuò)誤率使用特性的Y軸和Z軸都是10/120、30/120、分別。 因?yàn)閷傩訷會(huì)導(dǎo)致較小的錯(cuò)誤率,它提供了一種更好的分離。對(duì)于X=1,相應(yīng)的計(jì)數(shù)特性的Y軸和Z軸都顯示在下面的表中。YC 1C 2ZC 1C 2035501525153512515錯(cuò)誤率使用特性的Y軸

59、和Z軸都是10/80、30/80、分別。 因?yàn)閷傩訷會(huì)導(dǎo)致較小的錯(cuò)誤率,它提供了一種更好的分離。對(duì)應(yīng)的兩個(gè)一級(jí)的決策樹(shù)是如下圖所示。XC 2010011C 1C 1C 2YY總體錯(cuò)誤率引起的樹(shù)是(10+10)/200=0.1。(c)對(duì)結(jié)果進(jìn)行比較的部分(一)和(二)。 評(píng)論適用性貪婪的啟發(fā)式用于拆分屬性的選擇。答:從上述結(jié)果的錯(cuò)誤率為零件(一)遠(yuǎn)遠(yuǎn)大于零件(b)。 此示例顯示了貪婪的啟發(fā)并不總是產(chǎn)生最佳的解決方案。第7。 下表概述了數(shù)據(jù)集的三個(gè)屬性的A、B、C和兩類標(biāo)注的“+”、“-”。 構(gòu)建兩級(jí)的決策樹(shù)。ABC數(shù)量實(shí)例+-TTT50FTT020TFT200FFT05TTF00FTF250TF

60、F00FFF025(一)根據(jù)分類錯(cuò)誤率,屬性將被選為第一次拆分的屬性嗎? 對(duì)于每個(gè)屬性,顯示應(yīng)變表和性別問(wèn)題認(rèn)識(shí)信息和聯(lián)網(wǎng)系統(tǒng)的分類錯(cuò)誤率。答:錯(cuò)誤率的數(shù)據(jù)而不進(jìn)行分區(qū)的任何屬性”。拆分后的屬性”中的增益錯(cuò)誤率為:2500EA=T=1-最大值)”)=0=TA=F25 25252525050+E=F=1-最大值(25、50)=2575 7575-257525A=E電影原聲大碟-EA=T-E=F=100100拆分后的屬性B中的增益錯(cuò)誤率為:3020203020502050EB=T=TB=F+EB=F=-505010B=E電影原聲大碟-EB=T-EB=F=100100拆分后的屬性C中的增益錯(cuò)誤率為:

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論