




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
DataMiningByYaoLi-xiuxyao@Outline:IntroductionDataPreprocessingConceptDescriptionAssociationRulesClassificationandRegressionClusteringChapter1IntroductionAI、ML、PR、DMFunction&Applicaton
定義1人工智能是一種使計(jì)算機(jī)能夠思維,使機(jī)器具有智力的激動(dòng)人心的新嘗試。定義2人工智能是那些與人的思維、決策、問(wèn)題求解和學(xué)習(xí)等有關(guān)活動(dòng)的自動(dòng)化。定義3人工智能是用計(jì)算模型研究智力行為。定義4人工智能是研究那些使理解、推理和行為成為可能的計(jì)算。人工智能的定義定義5人工智能是一種能夠執(zhí)行需要人的智能的創(chuàng)造性機(jī)器的技術(shù)。定義6人工智能研究如何使計(jì)算機(jī)做事讓人過(guò)得更好。定義7人工智能是一門(mén)通過(guò)計(jì)算過(guò)程力圖理解和模仿智能行為的學(xué)科。定義8人工智能是計(jì)算機(jī)科學(xué)中與智能行為的自動(dòng)化有關(guān)的一個(gè)分支。其中,定義1和定義2涉及擬人思維;定義3和定義4與理性思維有關(guān);定義5和定義6涉及擬人行為;定義7和定義8與擬人理性行為有關(guān)。人工智能的定義Russell&Norvig的定義SystemsthatthinklikehumansSystemsthatthinkrationallySystemsthatactlikehumansSystemsthatactrationally
人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,是研究使計(jì)算機(jī)表現(xiàn)出人類(lèi)智能的學(xué)科。它涉及邏輯學(xué)、計(jì)算機(jī)科學(xué)、腦科學(xué)、神經(jīng)生理學(xué)、心理學(xué)、哲學(xué)、語(yǔ)言學(xué)、信息論、控制論等多個(gè)學(xué)科,是一門(mén)綜合性的交叉和邊緣學(xué)科。人工智能的定義
人工智能學(xué)科的誕生經(jīng)歷了漫長(zhǎng)的歷史過(guò)程。歷史上一些偉大的科學(xué)家和思想家對(duì)此作出了巨大的貢獻(xiàn),為今天的人工智能研究作了長(zhǎng)足和充分的準(zhǔn)備。人工智能的誕生人工智能的誕生(1)由大前提和小前提推出結(jié)論。如‘凡金屬(M)都能導(dǎo)電(P)’(大前提),‘銅(S)是金屬(M)’(小前提),‘所以銅(S)能導(dǎo)電(P)’(結(jié)論)。演繹:從普遍性結(jié)論或一般性事理推導(dǎo)出個(gè)別性結(jié)論亞里士多德(Aristotle)(公元前384—322)古希臘偉大的哲學(xué)家、思想家,研究人類(lèi)思維規(guī)律的鼻祖,為形式邏輯奠定了基礎(chǔ),提出了推理方法,給出了形式邏輯的一些基本定律,創(chuàng)造了三段論法。FrancisBacon(1561—1626)英國(guó)哲學(xué)家和自然科學(xué)家,系統(tǒng)提出了歸納法,成為和亞里士多德的演繹法相輔相成的思維法則。他強(qiáng)調(diào)了知識(shí)的重要作用,指出“知識(shí)就是力量”。人工智能的誕生(2)歸納:從個(gè)別性知識(shí),引出一般性知識(shí)的推理,是由已知真的前提,引出可能真的結(jié)論
萊布尼茨(Leibnitz)(1646—1716)德國(guó)數(shù)學(xué)家和哲學(xué)家,提出了關(guān)于數(shù)理邏輯的思想,即把形式邏輯符號(hào)化,從而對(duì)人的思維進(jìn)行運(yùn)算和推理的思想。人工智能的誕生(3)-3,-2,5,(?),61,122-3-252461122他們的差是1,7,19,37,61,后五數(shù)的差是6,2*6,3*64*64
布爾(Boole)(1815—1864)英國(guó)數(shù)學(xué)家、邏輯學(xué)家。他的主要貢獻(xiàn)是初步實(shí)現(xiàn)了萊布尼茨關(guān)于思維符號(hào)化和數(shù)學(xué)化的思想,提出了一種嶄新的代數(shù)系統(tǒng)——布爾代數(shù),凡是傳統(tǒng)邏輯能處理的問(wèn)題,布爾代數(shù)都能處理。符號(hào)邏輯
對(duì)于邏輯代數(shù),布爾的方法是著重于外延邏輯,即類(lèi)的邏輯。其中類(lèi)或集合用x,y,z,…表示,而符號(hào)X,Y,Z,…則代表個(gè)體元素.用1表示萬(wàn)有類(lèi),用0表示空類(lèi)或零類(lèi).他用xy表示兩個(gè)集合的交[他稱(chēng)這個(gè)運(yùn)算為選拔(election)],即x與y所有共同元素的集合…
人工智能的誕生(4)歌德?tīng)枺℅?del)(1906—1978)美籍奧地利數(shù)理邏輯學(xué)家,他研究數(shù)理邏輯中的一些帶根本性的問(wèn)題,即不完全性定理和連續(xù)假設(shè)的相對(duì)協(xié)調(diào)性證明
,指出了把人的思維形式化和機(jī)械化的某些極限,在理論上證明了有些事情是機(jī)器做不到的。人工智能的誕生(5)圖靈(Turing)(1912—1954)英國(guó)數(shù)學(xué)家。他于1936年提出了一種理想計(jì)算機(jī)的數(shù)學(xué)模型(圖靈機(jī))?,F(xiàn)已公認(rèn),所有可計(jì)算函數(shù)都能用圖靈機(jī)計(jì)算,這為電子計(jì)算機(jī)的構(gòu)建提供了理論根據(jù)。
1950年,他還提出了著名的“圖靈實(shí)驗(yàn)”,給智能的標(biāo)準(zhǔn)提供了明確的定義:
把人和計(jì)算機(jī)分兩個(gè)房間,并且相互對(duì)話(huà),如果作為人的一方不能判斷對(duì)方是人還是計(jì)算機(jī),那這臺(tái)計(jì)算機(jī)就達(dá)到了人的智能。人工智能的誕生(6)莫克利(J.W.Mauchly)(1907—1980)美國(guó)數(shù)學(xué)家,和他的學(xué)生埃克特(J.P.Eckert),于1946年研制成功了世界上第一臺(tái)通用電子數(shù)字計(jì)算機(jī)ENIAC。人工智能的誕生(7)
馮·諾依曼(JohnvonNeumann)(1903—1957)
美籍匈牙利數(shù)學(xué)家,提出了以二進(jìn)制和程序存儲(chǔ)控制為核心的通用電子數(shù)字計(jì)算機(jī)體系結(jié)構(gòu)原理,奠定了現(xiàn)代電子計(jì)算機(jī)體系結(jié)構(gòu)的基礎(chǔ)。1946——EDVAC。人工智能的誕生(8)由五個(gè)基本部分組成:
1)運(yùn)算器
2)控制器
3)存儲(chǔ)器
4)輸入裝置
5)輸出裝置
麥卡錫(JohnMcCarthy),美國(guó)數(shù)學(xué)家、計(jì)算機(jī)科學(xué)家,“人工智能之父”。
人工智能的誕生(9)首次提出“人工智能”
(AI)概念;發(fā)明Lisp語(yǔ)言;研究不尋常的常識(shí)推理;發(fā)明“情景演算”。
1956年夏,在美國(guó)的達(dá)特茅斯學(xué)院,由McCarthy(斯坦福大學(xué))、Minsky(哈佛大學(xué))、Lochester(IBM公司)、Shannon(貝爾實(shí)驗(yàn)室)四人共同發(fā)起,邀請(qǐng)IBM公司的More、Samuel,MIT的Selfridge、Solomonff,還有Simon、Newell等人參加學(xué)術(shù)討論班,在一起共同學(xué)習(xí)和探討用機(jī)器模擬智能的各種問(wèn)題。在會(huì)上,經(jīng)McCarthy提議,決定使用“人工智能”一詞來(lái)概括該研究方向。這次具有歷史意義的會(huì)議標(biāo)志著人工智能這個(gè)學(xué)科的正式誕生。人工智能的誕生(10)
1956年夏季,人類(lèi)歷史上第一次人工智能研討會(huì)在美國(guó)的達(dá)特茅斯(Dartmouth)大學(xué)舉行,標(biāo)志著人工智能學(xué)科的誕生。
1969年召開(kāi)了第一屆國(guó)際人工智能聯(lián)合會(huì)議(InternationalJointConferenceonAI,IJCAI),此后每?jī)赡暾匍_(kāi)一次。
1970年《人工智能》國(guó)際雜志(InternationalJournalofAI)創(chuàng)刊。這些對(duì)開(kāi)展人工智能?chē)?guó)際學(xué)術(shù)活動(dòng)和交流、促進(jìn)人工智能的研究和發(fā)展起到積極作用。人工智能的研究及應(yīng)用領(lǐng)域
人工智能研究及應(yīng)用領(lǐng)域很多,主要研究領(lǐng)域包括問(wèn)題求解、機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)、模式識(shí)別、自動(dòng)定理證明、自然語(yǔ)言理解等。
第1章人工智能概述
第2章確定性知識(shí)表示
第3章確定性推理
第4章搜索策略
第5章計(jì)算智能
第6章不確定性推理
第7章機(jī)器學(xué)習(xí)
第8章自然語(yǔ)言理解
第9章分布智能
第10章新型專(zhuān)家系統(tǒng)
機(jī)器學(xué)習(xí)
學(xué)習(xí)是人類(lèi)智能的主要標(biāo)志和獲得知識(shí)的基本手段;要使機(jī)器象人一樣擁有知識(shí)和智能,就必須使機(jī)器具有獲得知識(shí)的能力。計(jì)算機(jī)獲得知識(shí)的兩種途徑:直接獲得;學(xué)習(xí)獲得(機(jī)器學(xué)習(xí))。學(xué)習(xí)是一個(gè)有特定目的的知識(shí)獲取過(guò)程,其內(nèi)部表現(xiàn)為新知識(shí)結(jié)構(gòu)的不斷建立和修改,而外部表現(xiàn)為性能的改善。
第1章引言
第2章概念學(xué)習(xí)和一般到特殊序
第3章決策樹(shù)學(xué)習(xí)
第4章人工神經(jīng)網(wǎng)絡(luò)
第5章評(píng)估假設(shè)
第6章貝葉斯學(xué)習(xí)
第7章計(jì)算學(xué)習(xí)理論
第8章基于實(shí)例的學(xué)習(xí)
第9章遺傳算法
第10章學(xué)習(xí)規(guī)則集合
第11章分析學(xué)習(xí)
第12章歸納和分析學(xué)習(xí)的結(jié)合
第13章增強(qiáng)學(xué)習(xí)周志華數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)數(shù)據(jù)挖掘是在人工智能(AI)和統(tǒng)計(jì)分析基礎(chǔ)上發(fā)展起來(lái)的,這兩門(mén)學(xué)科都致力于模式發(fā)現(xiàn)和預(yù)測(cè)。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)。相反,他是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。數(shù)據(jù)挖掘就是利用了統(tǒng)計(jì)和人工智能技術(shù)的應(yīng)用程序,他把這些高深復(fù)雜的技術(shù)封裝起來(lái),使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專(zhuān)注于自己所要解決的問(wèn)題。WhyDataMining?TheExplosiveGrowthofData:fromterabytestopetabytesDatacollectionanddataavailabilityAutomateddatacollectiontools,databasesystems,Web,computerizedsocietyMajorsourcesofabundantdataBusiness:Web,e-commerce,transactions,stocks,…Science:Remotesensing,bioinformatics,scientificsimulation,…Societyandeveryone:news,digitalcameras,YouTubeWearedrowningindata,butstarvingforknowledge!
Majorreason:Thewidelyavailabilityofhugeamountsofdataandtheimminentneedforturningsuchdataintousefulinformationandknowledge.數(shù)據(jù)挖掘技術(shù)是1、必然:網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)2、數(shù)據(jù)挖掘技術(shù)的動(dòng)力:數(shù)據(jù)爆炸但知識(shí)貧乏3、數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)基礎(chǔ):計(jì)算機(jī)技術(shù)的發(fā)展WhyDataMining?一、數(shù)據(jù)挖掘的概念
二、數(shù)據(jù)挖掘技術(shù)的發(fā)展三、功能與應(yīng)用四、DM的處理流程五、一些流行的數(shù)據(jù)挖掘軟件
數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘的歷史雖然較短,但從20世紀(jì)90年代以來(lái),它的發(fā)展速度很快,加之它是多學(xué)科綜合的產(chǎn)物,目前還沒(méi)有一個(gè)完整的定義,人們提出了多種數(shù)據(jù)挖掘的定義,例如:
SAS研究所(1997):“在大量相關(guān)數(shù)據(jù)基礎(chǔ)之上進(jìn)行數(shù)據(jù)探索和建立相關(guān)模型的先進(jìn)方法”。
Bhavani(1999):“使用模式識(shí)別技術(shù)、統(tǒng)計(jì)和數(shù)學(xué)技術(shù),在大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的新關(guān)系、模式和趨勢(shì)的過(guò)程”。關(guān)鍵詞:大量數(shù)據(jù)挖掘的定義——韓家煒簡(jiǎn)單的說(shuō),DM就是從大量數(shù)據(jù)(Largeamountdata)里挖掘或提取有用的知識(shí)。廣義的說(shuō),DM是一個(gè)從存儲(chǔ)在Database/datawarehouse或其它介質(zhì)里的大量數(shù)據(jù)中識(shí)別有效的、新穎的、有潛在價(jià)值的以及最終可理解的模式的非常規(guī)的過(guò)程。技術(shù)上的定義,DM就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。
Bigdata數(shù)據(jù):Staticnumericdata:1,2,3…(Time)SeriesData(thedatarelatedtotimechange)
Stockanalysis,Bankaccount,Sensordataetc.BioinformaticsSpatialData(thedatarelatedtospatialorgeographicalinformation,GIS)RemoteSensing,CensusTextData(word,sentence,journaletc.)
Weblogmining,MachinetranslateMultimediaData(figure,image,hyper-text,soundetc.)
Content-basedImageRetrieval
一、數(shù)據(jù)挖掘的概念
二、數(shù)據(jù)挖掘技術(shù)的發(fā)展三、功能與應(yīng)用四、DM的處理流程五、一些流行的數(shù)據(jù)挖掘軟件
1、1989年,USADetroit,召開(kāi)的11th國(guó)際人工智能聯(lián)合會(huì)議的專(zhuān)題討論會(huì)上,首次提出KDD的概念2、1995年在Canada蒙特利爾召開(kāi)的第一屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國(guó)際學(xué)術(shù)會(huì)議,作為人們重新認(rèn)識(shí)數(shù)據(jù)、認(rèn)識(shí)存儲(chǔ)、認(rèn)識(shí)數(shù)據(jù)統(tǒng)計(jì)和分析的新的起點(diǎn),喚來(lái)了知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘理論及應(yīng)用研究的熱潮。美國(guó)計(jì)算機(jī)學(xué)會(huì)(ACM)于當(dāng)年提出了數(shù)據(jù)挖掘的概念時(shí)間會(huì)議名稱(chēng)會(huì)議地址August20.1989KDD-1989WorkshopDetroit,MI,USAJuly.31-Aug.11994KDD-1994WorkshopSeattle,WA,USAAugust20-21,1995ThefirstinternationalconferenceonKnowledgeDiscoveryandDataMining(KDD-95)Montreal,Canada.August2-4,1996TheSecondInternationalConferenceon
KnowledgeDiscoveryandDataMining(KDD-96)Portland,Oregon,USAAugust14-17,19973rdInternationalConferenceon
KnowledgeDiscoveryandDataMining(KDD-97)Newportbeach,California,USAAugust19984thInternationalConferenceon
KnowledgeDiscoveryandDataMining(KDD-98)NewYork,USA。。。。。。。。。August21-24,201117thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMiningSanDiego,CAAugust12-16,201218thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMiningBeijing,ChinaAugust9-10,201319thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMiningChicago,USAAugust24-27,201420thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMiningNewYork,USAAugust10-13,201521thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMiningSydney,Australia摘自/DataMining國(guó)際頂級(jí)會(huì)議ACMKDDcup
KDDCup是由美國(guó)計(jì)算機(jī)協(xié)會(huì)(ACM)組織的知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國(guó)際競(jìng)賽;向Data
Mining領(lǐng)域的學(xué)術(shù)界和工業(yè)界開(kāi)放,其目標(biāo)是找出最有創(chuàng)新性和最有效的Data
Mining方法。
在每年的ACMSIGKDD會(huì)議舉行之前的三四個(gè)月,組織者在網(wǎng)站上公布比賽任務(wù),參賽者必須在指定日期前提交結(jié)果。經(jīng)組織者評(píng)審后,在SIGKDD會(huì)議上公布比賽結(jié)果,并邀請(qǐng)優(yōu)勝者作報(bào)告。競(jìng)賽題目通常都是當(dāng)前各個(gè)學(xué)科中實(shí)際的熱門(mén)數(shù)據(jù)挖掘問(wèn)題,具有較高的挑戰(zhàn)性。往年的題目和數(shù)據(jù)來(lái)源于經(jīng)濟(jì)、制藥、生物、信息等領(lǐng)域。ACMKDDcupKDD-Cup2014,PredictfundingrequeststhatdeserveanA+KDD-Cup2013,author與paper的對(duì)應(yīng)關(guān)系KDD-Cup2012,社交網(wǎng)絡(luò)中的個(gè)性化推薦系統(tǒng)(ACM班)KDD-Cup2011,音樂(lè)評(píng)分預(yù)測(cè)KDD-Cup2010,Studentperformanceevaluation
KDD-Cup2009,FastScoringonaLargeDatabase
KDD-Cup2008,BreastcancerKDD-Cup2007,Consumerrecommendations……KDD-Cup1999,ComputernetworkintrusiondetectionKDD-Cup1998,DirectmarketingforprofitoptimizationKDD-Cup1997,Directmarketingforliftcurveoptimization
摘自/kddcup/index.phpConferencesACMSIGKDDInt.Conf.onKnowledgeDiscoveryinDatabasesandDataMining(KDD)SIAMDataMiningConf.(SDM)IEEEInt.Conf.onDataMining(ICDM)Conf.onPrinciplesandpracticesofKnowledgeDiscoveryandDataMining(PKDD)Pacific-AsiaConf.onKnowledgeDiscoveryandDataMining(PAKDD)數(shù)據(jù)挖掘的其他國(guó)際會(huì)議一、數(shù)據(jù)挖掘的概念
二、數(shù)據(jù)挖掘技術(shù)的發(fā)展三、功能與應(yīng)用四、DM的處理流程五、一些流行的數(shù)據(jù)挖掘軟件
1.面向?qū)傩缘臍w納學(xué)習(xí)歸納學(xué)習(xí)旨在從大量的經(jīng)驗(yàn)數(shù)據(jù)中歸納抽取出一般的規(guī)則和模式。面向?qū)傩缘臍w納學(xué)習(xí)通過(guò)歸納學(xué)習(xí),使得屬性域取值的抽象程度提高,從而得到較精練的數(shù)據(jù)集合,大大提高了規(guī)則的學(xué)習(xí)效率??捎糜陬A(yù)處理階段的屬性約簡(jiǎn)。也可用于規(guī)則的提取。2.關(guān)聯(lián)分析就是從給定的數(shù)據(jù)集發(fā)現(xiàn)頻繁出現(xiàn)的項(xiàng)集模式知識(shí),即發(fā)現(xiàn)各屬性之間的關(guān)聯(lián)關(guān)系并用關(guān)聯(lián)規(guī)則描述出來(lái)
不用很絕對(duì)的數(shù)字,只是提供一種大概的規(guī)則——多數(shù)準(zhǔn)則
常見(jiàn)表現(xiàn)形式:orWhere,areattribute-valuepares.ande.g.1
Givenarelationaldatabase,adataminingsystemmayfindassociationrules:
最流行的就是貨籃分析(啤酒/尿布)主要功能:市場(chǎng)定位消費(fèi)者分析預(yù)測(cè)銷(xiāo)售趨勢(shì)優(yōu)化營(yíng)銷(xiāo)策略(根據(jù)居民消費(fèi)習(xí)慣采取相應(yīng)的策略)價(jià)格分析分析庫(kù)存需求建立合理的物流供應(yīng)鏈3.分類(lèi)、回歸Classification/Regression:
根據(jù)一系列已知樣本(訓(xùn)練樣本),用各種算法訓(xùn)練產(chǎn)生一套能描述或區(qū)別數(shù)據(jù)的類(lèi)別或概念的模型,并能夠根據(jù)這個(gè)模型或函數(shù)來(lái)預(yù)測(cè)未知類(lèi)別樣本(測(cè)試樣本)的分類(lèi)結(jié)果。
e.g.Facerecognition,fingerprintrecognition兩者的區(qū)別可視為預(yù)報(bào)的目標(biāo)不同Classification:離散型的Regression:數(shù)量型的,連續(xù)型的一個(gè)是類(lèi)別,一個(gè)是目標(biāo)值,而類(lèi)別一般是依據(jù)目標(biāo)值來(lái)分類(lèi)的。常見(jiàn)算法:PCA、DT、ANN、BN、SVM
最經(jīng)典的數(shù)據(jù)挖掘方法:模式分類(lèi)圖像分析工業(yè)診斷金融數(shù)據(jù)分析生物數(shù)據(jù)信息……4.聚類(lèi)分析unsupervisedclassification(analyzesdataobjectsunknowingabouttheclasslabel)
根據(jù)屬性標(biāo)識(shí)對(duì)樣本聚類(lèi),從數(shù)據(jù)集中找出相似的數(shù)據(jù)并組成不同的組。聚類(lèi)的準(zhǔn)則:聚類(lèi)后,同一類(lèi)之間的樣本具有很強(qiáng)的相似性而非同類(lèi)之間的樣本具有很強(qiáng)的非相似性。相似性的度量:一般用的是距離。之后還有人根據(jù)具體數(shù)據(jù)格式加上別的一些度量方式,如對(duì)稱(chēng)性。MeasurementofSimilarity1)distance2)distance+otherother:symmetry,weight,etc.Distance1、MenkowskyDistance
2、EuclideanDistance3、WeightedDistance4、MahalanobisDistance5、HamingDistance(ForthedatawithBooleanvariable)6、GeodesicDistance
測(cè)地距離當(dāng)數(shù)據(jù)集中樣本分布在高維空間且滿(mǎn)足某一特定曲面時(shí),歐氏距離則不能反映樣本間的真實(shí)距離。此時(shí),應(yīng)該將樣本分布的形狀信息考慮在內(nèi)來(lái)衡量樣本間的相似性。測(cè)地距離的基本思想:對(duì)于近鄰樣本,歐氏距離近似反映樣本間沿?cái)?shù)據(jù)分布曲面間的距離;對(duì)于相隔較遠(yuǎn)的樣本,樣本間的距離為樣本分布曲面上連接兩樣本點(diǎn)間的最短空間曲線(xiàn)的長(zhǎng)度。J.B.Tenenbaum,V.D.Silva,andJ.C.Langford,Aglobalgeometricframeworkfornonlineardimensionalityreduction,Science,2000,vol.290:2319-23235.序列分析、趨勢(shì)分析
對(duì)隨時(shí)間變化的數(shù)據(jù)對(duì)象的變化規(guī)律和趨勢(shì)進(jìn)行建模描述,可根據(jù)前一段時(shí)間的運(yùn)動(dòng)預(yù)測(cè)下一個(gè)時(shí)間點(diǎn)的狀態(tài)。解決的問(wèn)題一般可以分為下面兩類(lèi):總結(jié)數(shù)據(jù)的序列或者變化趨勢(shì);(股票/期貨交易,網(wǎng)頁(yè)點(diǎn)擊順序記錄)檢測(cè)數(shù)據(jù)隨時(shí)間變化的變化;(自來(lái)水廠(chǎng)用水量的日、周、月、年等周期變化)流程圖預(yù)測(cè)存/貸款趨勢(shì)預(yù)測(cè)股票趨勢(shì)分析客戶(hù)的要求、信譽(yù)客戶(hù)類(lèi)型分析客戶(hù)流失報(bào)警優(yōu)化存/貸款利率識(shí)別欺詐行為
序列分析的應(yīng)用對(duì)金融數(shù)據(jù)的自身發(fā)展規(guī)律進(jìn)行的預(yù)測(cè),對(duì)參與其中的可客戶(hù)有用對(duì)與客戶(hù)行為有關(guān)的數(shù)據(jù)記錄進(jìn)行建模和預(yù)測(cè),對(duì)經(jīng)營(yíng)者有用Web挖掘6.離異點(diǎn)分析:噪聲還是例外
是實(shí)際生活中的反常行為的寫(xiě)照。包括:噪聲(刪除):實(shí)驗(yàn)錯(cuò)誤…
特例(格外關(guān)注,建立案例庫(kù)):工業(yè)生產(chǎn)中的特例…
離異點(diǎn)的檢測(cè)被廣泛用于調(diào)查商業(yè)欺詐,偷稅漏稅等行為一、數(shù)據(jù)挖掘的概念
二、數(shù)據(jù)挖掘技術(shù)的發(fā)展三、功能與應(yīng)用四、DM的處理流程五、一些流行的數(shù)據(jù)挖掘軟件
1.待發(fā)掘的目標(biāo)(例如提高證券交易的收入)Target(howtogetmoremoneyfromstockmarket)2.發(fā)掘的工具(例如統(tǒng)計(jì)方法)Tools(statisticmethods)4.挖掘結(jié)果的使用(例如明天我要..)Application(TomorrowIwill..)
3.發(fā)掘結(jié)果的評(píng)估(例如這個(gè)結(jié)果看來(lái)…)Evaluation(thisresultseemstobe…)4.1數(shù)據(jù)挖掘環(huán)境4.2數(shù)據(jù)挖掘流程圖
同時(shí)考慮可靠性、繁簡(jiǎn)程度、可理解性等數(shù)據(jù)挖掘的主要步驟:數(shù)據(jù)準(zhǔn)備。(問(wèn)題的提出和數(shù)據(jù)的選?。?shù)據(jù)預(yù)處理,包括:數(shù)據(jù)填充。針對(duì)不完備信息系統(tǒng)。數(shù)據(jù)清洗。清除數(shù)據(jù)噪聲和與挖掘主題明顯無(wú)關(guān)的數(shù)據(jù)。數(shù)據(jù)集成。將來(lái)自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)組合到一起。數(shù)據(jù)轉(zhuǎn)換。將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲(chǔ)形式。數(shù)據(jù)消減??s小所挖掘數(shù)據(jù)的規(guī)模,但卻不影響最終的結(jié)果。包括:數(shù)據(jù)立方、維數(shù)消減、數(shù)據(jù)壓縮、數(shù)據(jù)塊消減、離散化與概念層次生成等。數(shù)據(jù)挖掘(datamining)。算法設(shè)計(jì)與知識(shí)獲取,利用智能方法挖掘數(shù)據(jù)模式或規(guī)律知識(shí)。模式評(píng)估(patternevaluation)。根據(jù)一定評(píng)估標(biāo)準(zhǔn),從挖掘結(jié)果篩選出有意義的模式知識(shí)。知識(shí)表示(knowledgepresentation)。利用可視化和知識(shí)表達(dá)技術(shù),向用戶(hù)展示所挖掘出的相關(guān)知識(shí)一、數(shù)據(jù)挖掘的概念
二、數(shù)據(jù)挖掘技術(shù)的發(fā)展三、功能與應(yīng)用四、DM的處理流程五、一些流行的數(shù)據(jù)挖掘算法與軟件
2006年ICDM會(huì)議選出了10大經(jīng)典算法
Classification#1.C4.5:Quinlan,J.R.C4.5:ProgramsforMachineLearning.MorganKaufmann.,1993.#2.CART:L.Breiman,J.Friedman,R.Olshen,andC.Stone.ClassificationandRegressionTrees.Wadsworth,1984.#3.KNearestNeighbours(kNN):Hastie,T.andTibshirani,R.1996.DiscriminantAdaptiveNearestNeighborClassification.TPAMI.18(6)#4.NaiveBayes:
Hand,D.J.,Yu,K.,2001.Idiot'sBayes:NotSoStupidAfterAll?Internat.Statist.Rev.69,385-398.StatisticalLearning#5.SVM:Vapnik,V.N.1995.TheNatureofStatisticalLearningTheory.Springer-Verlag.#6.EM:McLachlan,G.andPeel,D.(2000).FiniteMixtureModels.J.Wiley,NewYork.AssociationAnalysis#7.Apriori:RakeshAgrawalandRamakrishnanSrikant.FastAlgorithmsforMiningAssociationRules.InVLDB'94.#8.FP-Tree:Han,J.,Pei,J.,andYin,Y.2000.Miningfrequentpatternswithoutcandidategeneration.InSIGMOD'00.一些流行的算法與軟件
LinkMining#9.PageRank:Brin,S.andPage,L.1998.Theanatomyofalarge-scalehypertextualWebsearchengine.InWWW-7,1998.#10.HITS:Kleinberg,J.M.1998.Authoritativesourcesinahyperlinkedenvironment.SODA,1998.Clustering#11.K-Means:MacQueen,J.B.,Somemethodsforclassificationandanalysisofmultivariateobservations,inProc.5thBerkeleySymp.MathematicalStatisticsandProbability,1967.#12.BIRCH:Zhang,T.,Ramakrishnan,R.,andLivny,M.1996.BIRCH:anefficientdataclusteringmethodforverylargedatabases.InSIGMOD'96.BaggingandBoosting#13.AdaBoost:Freund,Y.andSchapire,R.E.1997.Adecision-theoreticgeneralizationofon-linelearningandanapplicationtoboosting.J.Comput.Syst.Sci.55,1(Aug.1997),119-139.一些流行的算法與軟件
SequentialPatterns#14.GSP:Srikant,R.andAgrawal,R.1996.MiningSequentialPatterns:GeneralizationsandPerformanceImprovements.InProceedingsofthe5thInternationalConferenceonExtendingDatabaseTechnology,1996.#15.PrefixSpan:J.Pei,J.Han,B.Mortazavi-Asl,H.Pinto,Q.Chen,U.DayalandM-C.Hsu.PrefixSpan:MiningSequentialPatternsEfficientlybyPrefix-ProjectedPatternGrowth.InICDE'01.IntegratedMining#16.CBA:Liu,B.,Hsu,W.andMa,Y.M.Integratingclassificationandassociationrulemining.KDD-98.RoughSets#17.Findingreduct:ZdzislawPawlak,RoughSets:TheoreticalAspectsofReasoningaboutData,KluwerAcademicPublishers,Norwell,MA,1992GraphMining#18.gSpan:Yan,X.andHan,J.2002.gSpan:Graph-BasedSubstructurePatternMining.InICDM'02.一些流行的算法與軟件
#1:C4.5(61votes)#2:K-Means(60votes)#3:SVM(58votes)#4:Apriori(52votes)#5:EM(48votes)#6:PageRank(46votes)#7:AdaBoost(45votes)#7:kNN(45votes)#7:NaiveBayes(45votes)#10
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025股票發(fā)行合同范本下載
- 2024年有機(jī)磷系阻燃劑資金申請(qǐng)報(bào)告代可行性研究報(bào)告
- 智能教育機(jī)器人展示屏幕租賃與智能教學(xué)方案設(shè)計(jì)服務(wù)協(xié)議
- 高端市場(chǎng)汽車(chē)LED車(chē)燈模組定制合作協(xié)議
- 2025年中國(guó)鉍業(yè)行業(yè)市場(chǎng)前景預(yù)測(cè)及投資價(jià)值評(píng)估分析報(bào)告
- 抖音數(shù)字孿生虛擬偶像培養(yǎng)與推廣協(xié)議
- 股權(quán)質(zhì)押補(bǔ)充協(xié)議實(shí)施細(xì)則
- 獨(dú)家網(wǎng)絡(luò)播放權(quán)授權(quán)協(xié)議及衍生品開(kāi)發(fā)合同
- 2025年中國(guó)辦公平臺(tái)行業(yè)市場(chǎng)前景預(yù)測(cè)及投資價(jià)值評(píng)估分析報(bào)告
- 氫能源加注站建設(shè)項(xiàng)目股權(quán)合作與氫能安全防護(hù)協(xié)議
- 體育旅游課件第二章體育旅游資源
- 2023年科技特長(zhǎng)生招生考試試卷
- 超聲波清洗機(jī)日常點(diǎn)檢表
- 無(wú)刷雙饋電機(jī)的功率因數(shù)控制
- 公司員工借款合同
- 國(guó)家開(kāi)放大學(xué)《財(cái)務(wù)管理#》章節(jié)測(cè)試參考答案
- 記賬憑證的填制方法和要求教案
- 光伏電站組件清洗方案說(shuō)明
- DL-T 2226-2021 電力用閥控式鉛酸蓄電池組在線(xiàn)監(jiān)測(cè)系統(tǒng)技術(shù)條件
- GB/T 5650-1985擴(kuò)口式管接頭空心螺栓
- GB/T 39239-2020無(wú)損檢測(cè)超聲檢測(cè)不連續(xù)的特征和定量
評(píng)論
0/150
提交評(píng)論