




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1.數(shù)據(jù)、信息和知識(shí)是廣義數(shù)據(jù)表現(xiàn)的不同形式。2.主要知識(shí)模式類型有:廣義知識(shí),關(guān)聯(lián)知識(shí),類知識(shí),預(yù)測型知識(shí),特異型知識(shí)3.web挖掘研究的主要流派有:Web結(jié)構(gòu)挖掘、Web使用挖掘、Web內(nèi)容挖掘4.一般地說,KDD是一個(gè)多步驟的處理過程,一般分為問題定義、數(shù)據(jù)抽取、數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘以及模式評估等基本階段。5.數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)處理過程模型有:階梯處理過程模型,螺旋處理過程模型,以用戶為中心的處理結(jié)構(gòu)模型,聯(lián)機(jī)KDD模型,支持多數(shù)據(jù)源多知識(shí)模式的KDD處理模型。6.粗略地說,知識(shí)發(fā)現(xiàn)軟件或工具的發(fā)展經(jīng)歷了獨(dú)立的知識(shí)發(fā)現(xiàn)軟件、橫向的知識(shí)發(fā)現(xiàn)工具集和縱向的知識(shí)發(fā)現(xiàn)解決方案三個(gè)主要階段,其中后面兩種反映了目前知識(shí)發(fā)現(xiàn)軟件的兩個(gè)主要發(fā)展方向。7.決策樹分類模型的建立通常分為兩個(gè)步驟:決策樹生成,決策樹修剪。8.從使用的主要技術(shù)上看,可以把分類方法歸結(jié)為四種類型:基于距離的分類方法決策樹分類方法貝葉斯分類方法規(guī)則歸納方法9.關(guān)聯(lián)規(guī)則挖掘問題可以劃分成兩個(gè)子問題:發(fā)現(xiàn)頻繁項(xiàng)目集:通過用戶給定Minsupport,尋找所有頻繁項(xiàng)目集或者最大頻繁項(xiàng)目集。生成關(guān)聯(lián)規(guī)則:通過用戶給定Minconfidence,在頻繁項(xiàng)目集中,尋找關(guān)聯(lián)規(guī)則。10.數(shù)據(jù)挖掘是相關(guān)學(xué)科充分發(fā)展的基礎(chǔ)上被提出和發(fā)展的,主要的相關(guān)技術(shù):數(shù)據(jù)庫等信息技術(shù)的發(fā)展統(tǒng)計(jì)學(xué)深入應(yīng)用人工智能技術(shù)的研究和應(yīng)用11.衡量關(guān)聯(lián)規(guī)則挖掘結(jié)果的有效性,應(yīng)該從多種綜合角度來考慮:準(zhǔn)確性:挖掘出的規(guī)則必須反映數(shù)據(jù)的實(shí)際情況。實(shí)用性:挖掘出的規(guī)則必須是簡潔可用的。新穎性:挖掘出的關(guān)聯(lián)規(guī)則可以為用戶提供新的有價(jià)值信息。12.約束的常見類型有:單調(diào)性約束;反單調(diào)性約束;可轉(zhuǎn)變的約束;簡潔性約束.13.根據(jù)規(guī)則中涉及到的層次,多層次關(guān)聯(lián)規(guī)則可以分為:同層關(guān)聯(lián)規(guī)則:如果一個(gè)關(guān)聯(lián)規(guī)則對應(yīng)的項(xiàng)目是同一個(gè)粒度層次,那么它是同層關(guān)聯(lián)規(guī)則。層間關(guān)聯(lián)規(guī)則:如果在不同的粒度層次上考慮問題,那么可能得到的是層間關(guān)聯(lián)規(guī)則。14.按照聚類分析算法的主要思路,聚類方法可以被歸納為如下幾種。劃分法:基于一定標(biāo)準(zhǔn)構(gòu)建數(shù)據(jù)的劃分。屬于該類的聚類方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。層次法:對給定數(shù)據(jù)對象集合進(jìn)行層次的分解。密度法:基于數(shù)據(jù)對象的相連密度評價(jià)。網(wǎng)格法:將數(shù)據(jù)空間劃分成為有限個(gè)單元(Cell)的網(wǎng)格結(jié)構(gòu),基于網(wǎng)格結(jié)構(gòu)進(jìn)行聚類。模型法:給每一個(gè)簇假定一個(gè)模型,然后去尋找能夠很好的滿足這個(gè)模型的數(shù)據(jù)集。15.類間距離的度量主要有:最短距離法:定義兩個(gè)類中最靠近的兩個(gè)元素間的距離為類間距離。最長距離法:定義兩個(gè)類中最遠(yuǎn)的兩個(gè)元素間的距離為類間距離。中心法:定義兩類的兩個(gè)中心間的距離為類間距離。類平均法:它計(jì)算兩個(gè)類中任意兩個(gè)元素間的距離,并且綜合他們?yōu)轭愰g距離:離差平方和。16.層次聚類方法具體可分為:凝聚的層次聚類:一種自底向上的策略,首先將每個(gè)對象作為一個(gè)簇,然后合并這些原子簇為越來越大的簇,直到某個(gè)終結(jié)條件被滿足。分裂的層次聚類:采用自頂向下的策略,它首先將所有對象置于一個(gè)簇中,然后逐漸細(xì)分為越來越小的簇,直到達(dá)到了某個(gè)終結(jié)條件。層次凝聚的代表是AGNES算法。層次分裂的代表是DIANA算法。17.文本挖掘(TD)的方式和目標(biāo)是多種多樣的,基本層次有:關(guān)鍵詞檢索:最簡單的方式,它和傳統(tǒng)的搜索技術(shù)類似。挖掘項(xiàng)目關(guān)聯(lián):聚焦在頁面的信息(包括關(guān)鍵詞)之間的關(guān)聯(lián)信息挖掘上。信息分類和聚類:利用數(shù)據(jù)挖掘的分類和聚類技術(shù)實(shí)現(xiàn)頁面的分類,將頁面在一個(gè)更到層次上進(jìn)行抽象和整理。自然語言處理:揭示自然語言處理技術(shù)中的語義,實(shí)現(xiàn)Web內(nèi)容的更精確處理。18.在web訪問挖掘中常用的技術(shù):路徑分析:路徑分析最常用的應(yīng)用是用于判定在一個(gè)Web站點(diǎn)中最頻繁訪問的路徑,這樣的知識(shí)對于一個(gè)電子商務(wù)網(wǎng)站或者信息安全評估是非常重要的。關(guān)聯(lián)規(guī)則發(fā)現(xiàn):使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法可以從Web訪問事務(wù)集中,找到一般性的關(guān)聯(lián)知識(shí)。序列模式發(fā)現(xiàn):在時(shí)間戳有序的事務(wù)集中,序列模式的發(fā)現(xiàn)就是指找到那些如“一些項(xiàng)跟隨另一個(gè)項(xiàng)”這樣的內(nèi)部事務(wù)模式。分類:發(fā)現(xiàn)分類規(guī)則可以給出識(shí)別一個(gè)特殊群體的公共屬性的描述。這種描述可以用于分類新的項(xiàng)。聚類:可以從WebUsage數(shù)據(jù)中聚集出具有相似特性的那些客戶。在Web事務(wù)日志中,聚類顧客信息或數(shù)據(jù)項(xiàng),就能夠便于開發(fā)和執(zhí)行未來的市場戰(zhàn)略。19.根據(jù)功能和側(cè)重點(diǎn)不同,數(shù)據(jù)挖掘語言可以分為三種類型:數(shù)據(jù)挖掘查詢語言:希望以一種像SQL這樣的數(shù)據(jù)庫查詢語言完成數(shù)據(jù)挖掘的任務(wù)。數(shù)據(jù)挖掘建模語言:對數(shù)據(jù)挖掘模型進(jìn)行描述和定義的語言,設(shè)計(jì)一種標(biāo)準(zhǔn)的數(shù)據(jù)挖掘建模語言,使得數(shù)據(jù)挖掘系統(tǒng)在模型定義和描述方面有標(biāo)準(zhǔn)可以遵循。通用數(shù)據(jù)挖掘語言:通用數(shù)據(jù)挖掘語言合并了上述兩種語言的特點(diǎn),既具有定義模型的功能,又能作為查詢語言與數(shù)據(jù)挖掘系統(tǒng)通信,進(jìn)行交互式挖掘。通用數(shù)據(jù)挖掘語言標(biāo)準(zhǔn)化是目前解決數(shù)據(jù)挖掘行業(yè)出現(xiàn)問題的頗具吸引力的研究方向。20.規(guī)則歸納有四種策略:減法、加法,先加后減、先減后加策略。減法策略:以具體例子為出發(fā)點(diǎn),對例子進(jìn)行推廣或泛化,推廣即減除條件(屬性值)或減除合取項(xiàng)(為了方便,我們不考慮增加析取項(xiàng)的推廣),使推廣后的例子或規(guī)則不覆蓋任何反例。加法策略:起始假設(shè)規(guī)則的條件部分為空(永真規(guī)則),如果該規(guī)則覆蓋了反例,則不停地向規(guī)則增加條件或合取項(xiàng),直到該規(guī)則不再覆蓋反例。先加后減策略:由于屬性間存在相關(guān)性,因此可能某個(gè)條件的加入會(huì)導(dǎo)致前面加入的條件沒什么作用,因此需要減除前面的條件。先減后加策略:道理同先加后減,也是為了處理屬性間的相關(guān)性。21.數(shù)據(jù)挖掘定義有廣義和狹義之分。從廣義的觀點(diǎn),數(shù)據(jù)挖掘是從大型數(shù)據(jù)集(可能是不完全的、有噪聲的、不確定性的、各種存儲(chǔ)形式的)中,挖掘隱含在其中的、人們事先不知道的、對決策有用的知識(shí)的過程。從這種狹義的觀點(diǎn)上,我們可以定義數(shù)據(jù)挖掘是從特定形式的數(shù)據(jù)集中提煉知識(shí)的過程。22.web挖掘的含義:針對包括Web頁面內(nèi)容、頁面之間的結(jié)構(gòu)、用戶訪問信息、電子商務(wù)信息等在內(nèi)的各種Web數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘方法以幫助人們從因特網(wǎng)中提取知識(shí),為訪問者、站點(diǎn)經(jīng)營者以及包括電子商務(wù)在內(nèi)的基于因特網(wǎng)的商務(wù)活動(dòng)提供決策支持。23.K-近鄰分類算法(KNearestNeighbors,簡稱KNN)的定義:通過計(jì)算每個(gè)訓(xùn)練數(shù)據(jù)到待分類元組的距離,取和待分類元組距離最近的K個(gè)訓(xùn)練數(shù)據(jù),K個(gè)數(shù)據(jù)中哪個(gè)類別的訓(xùn)練數(shù)據(jù)占多數(shù),則待分類元組就屬于哪個(gè)類別。24.K-means算法的性能分析:主要優(yōu)點(diǎn):是解決聚類問題的一種經(jīng)典算法,簡單、快速;對處理大數(shù)據(jù)集,該算法是相對可伸縮和高效率的;當(dāng)結(jié)果簇是密集的,它的效果較好。主要缺點(diǎn):在簇的平均值被定義的情況下才能使用,可能不適用于某些應(yīng)用;必須事先給出k(要生成的簇的數(shù)目),而且對初值敏感,對于不同的初始值,可能會(huì)導(dǎo)致不同結(jié)果;不適合于發(fā)現(xiàn)非凸面形狀的簇或者大小差別很大的簇。而且,它對于“躁聲”和孤立點(diǎn)數(shù)據(jù)是敏感的。25.ID3算法的性能分析:ID3算法的假設(shè)空間包含所有的決策樹,它是關(guān)于現(xiàn)有屬性的有限離散值函數(shù)的一個(gè)完整空間。所以ID3算法避免了搜索不完整假設(shè)空間的一個(gè)主要風(fēng)險(xiǎn):假設(shè)空間可能不包含目標(biāo)函數(shù)。ID3算法在搜索的每一步都使用當(dāng)前的所有訓(xùn)練樣例,大大降低了對個(gè)別訓(xùn)練樣例錯(cuò)誤的敏感性。因此,通過修改終止準(zhǔn)則,可以容易地?cái)U(kuò)展到處理含有噪聲的訓(xùn)練數(shù)據(jù)。ID3算法在搜索過程中不進(jìn)行回溯。所以,它易受無回溯的爬山搜索中的常見風(fēng)險(xiǎn)影響:收斂到局部最優(yōu)而不是全局最優(yōu)。26.Apriori算法有兩個(gè)致命的性能瓶頸:多次掃描事務(wù)數(shù)據(jù)庫,需要很大的I/O負(fù)載對每次k循環(huán),侯選集Ck中的每個(gè)元素都必須通過掃描數(shù)據(jù)庫一次來驗(yàn)證其是否加入Lk。假如有一個(gè)頻繁大項(xiàng)目集包含10個(gè)項(xiàng)的話,那么就至少需要掃描事務(wù)數(shù)據(jù)庫10遍。可能產(chǎn)生龐大的侯選集由Lk-1產(chǎn)生k-侯選集Ck是指數(shù)增長的,例如104個(gè)1-頻繁項(xiàng)目集就有可能產(chǎn)生接近107個(gè)元素的2-侯選集。如此大的侯選集對時(shí)間和主存空間都是一種挑戰(zhàn)。a基于數(shù)據(jù)分割的方法:基本原理是“在一個(gè)劃分中的支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”。27.改善Apriori算法適應(yīng)性和效率的主要的改進(jìn)方法有:基于數(shù)據(jù)分割(Partition)的方法:基本原理是“在一個(gè)劃分中的支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”?;谏⒘械姆椒ǎ夯驹硎恰霸谝粋€(gè)hash桶內(nèi)支持度小于最小支持度的k-項(xiàng)集不可能是全局頻繁的”。基于采樣的方法:基本原理是“通過采樣技術(shù),評估被采樣的子集中,并依次來估計(jì)k-項(xiàng)集的全局頻度”。其他:如,動(dòng)態(tài)刪除沒有用的事務(wù):“不包含任何Lk的事務(wù)對未來的掃描結(jié)果不會(huì)產(chǎn)生影響,因而可以刪除”。28.面向Web的數(shù)據(jù)挖掘比面向數(shù)據(jù)庫和數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復(fù)雜得多:異構(gòu)數(shù)據(jù)源環(huán)境:Web網(wǎng)站上的信息是異構(gòu):每個(gè)站點(diǎn)的信息和組織都不一樣;存在大量的無結(jié)構(gòu)的文本信息、復(fù)雜的多媒體信息;站點(diǎn)使用和安全性、私密性要求各異等等。數(shù)據(jù)的是復(fù)雜性:有些是無結(jié)構(gòu)的(如Web頁),通常都是用長的句子或短語來表達(dá)文檔類信息;有些可能是半結(jié)構(gòu)的(如Email,HTML頁)。當(dāng)然有些具有很好的結(jié)構(gòu)(如電子表格)。揭開這些復(fù)合對象蘊(yùn)涵的一般性描述特征成為數(shù)據(jù)挖掘的不可推卸的責(zé)任。動(dòng)態(tài)變化的應(yīng)用環(huán)境:Web的信息是頻繁變化的,像新聞、股票等信息是實(shí)時(shí)更新的。這種高變化也體現(xiàn)在頁面的動(dòng)態(tài)鏈接和隨機(jī)存取上。Web上的用戶是難以預(yù)測的。Web上的數(shù)據(jù)環(huán)境是高噪音的。29.簡述知識(shí)發(fā)現(xiàn)項(xiàng)目的過程化管理I-MIN過程模型。MIN過程模型把KDD過程分成IM1、IM2、…、IM6等步驟處理,在每個(gè)步驟里,集中討論幾個(gè)問題,并按一定的質(zhì)量標(biāo)準(zhǔn)來控制項(xiàng)目的實(shí)施。IM1任務(wù)與目的:它是KDD項(xiàng)目的計(jì)劃階段,確定企業(yè)的挖掘目標(biāo),選擇知識(shí)發(fā)現(xiàn)模式,編譯知識(shí)發(fā)現(xiàn)模式得到的元數(shù)據(jù);其目的是將企業(yè)的挖掘目標(biāo)嵌入到對應(yīng)的知識(shí)模式中。IM2任務(wù)與目的:它是KDD的預(yù)處理階段,可以用IM2a、IM2b、IM2c等分別對應(yīng)于數(shù)據(jù)清洗、數(shù)據(jù)選擇和數(shù)據(jù)轉(zhuǎn)換等階段。其目的是生成高質(zhì)量的目標(biāo)數(shù)據(jù)。IM3任務(wù)與目的:它是KDD的挖掘準(zhǔn)備階段,數(shù)據(jù)挖掘工程師進(jìn)行挖掘?qū)嶒?yàn),反復(fù)測試和驗(yàn)證模型的有效性。其目的是通過實(shí)驗(yàn)和訓(xùn)練得到濃縮知識(shí)(KnowledgeConcentrate),為最終用戶提供可使用的模型。IM4任務(wù)與目的:它是KDD的數(shù)據(jù)挖掘階段,用戶通過指定數(shù)據(jù)挖掘算法得到對應(yīng)的知識(shí)。IM5任務(wù)與目的:它是KDD的知識(shí)表示階段,按指定要求形成規(guī)格化的知識(shí)。IM6任務(wù)與目的:它是KDD的知識(shí)解釋與使用階段,其目的是根據(jù)用戶要求直觀地輸出知識(shí)或集成到企業(yè)的知識(shí)庫中。30.改善Apriori算法適應(yīng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025河北省安全員《A證》考試題庫及答案
- 二零二五年度智能制造入股合同協(xié)議書
- 2025年度農(nóng)業(yè)科技企業(yè)員工借調(diào)與農(nóng)業(yè)技術(shù)推廣合同
- 2025年度個(gè)體工商戶合伙協(xié)議范文與投資融資及財(cái)務(wù)規(guī)劃協(xié)議
- 2025年度征收城市老舊危房房屋拆遷補(bǔ)償協(xié)議
- 2025年度人事專員勞動(dòng)合同(附員工培訓(xùn)服務(wù)內(nèi)容)
- 2025年度文化產(chǎn)業(yè)發(fā)展勞動(dòng)合同法規(guī)范與創(chuàng)意人才合同
- 2025年度個(gè)人租賃市場租賃合同電子簽名合同
- 2025年度健康養(yǎng)生館店鋪承包合作協(xié)議
- 2025年度太陽能光伏發(fā)電站機(jī)電安裝服務(wù)協(xié)議
- 上肢功能訓(xùn)練法
- 《3ds Max動(dòng)畫制作實(shí)例教程》教學(xué)教案
- 加油站操作員(高級)理論考試題庫大全-單選題
- 人教版六年級下冊小學(xué)數(shù)學(xué)全冊課時(shí)練(一課一練)
- LY/T 2749-2016桉樹速豐林配方施肥技術(shù)規(guī)程
- GB/T 5130-1997電氣用熱固性樹脂工業(yè)硬質(zhì)層壓板試驗(yàn)方法
- GB/T 2975-2018鋼及鋼產(chǎn)品 力學(xué)性能試驗(yàn)取樣位置及試樣制備
- GB/T 21254-2017呼出氣體酒精含量檢測儀
- 邀請函模板完整
- IP系列操作手冊(中文)
評論
0/150
提交評論