




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 學術講座筆記 題 目:基于云計算的大數(shù)據(jù)挖掘 院 (系): 信息與通信學院 專 業(yè): 通信工程 學生姓名: 學 號: 主 講 人: 史忠植 職 稱: 研究員 2012年 10 月11日隨著信息技術的發(fā)展,云計算和大數(shù)據(jù)成為信息科技最新的亮點,云計算提供數(shù)據(jù)處理和信息共享的平臺,而大數(shù)據(jù)考慮分析算法和系統(tǒng)的效率?;ヂ?lián)網(wǎng)使得信息成為數(shù)據(jù)庫,搜索引擎從海量語料庫中發(fā)現(xiàn)知識。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電視網(wǎng)、電信網(wǎng)、數(shù)字家庭等廣泛應用與普及,以及生命科學、天文、地理等領域的發(fā)展,數(shù)據(jù)量將達到Terabyte、Petabyte、甚至Exabyte級。如何快速、準確、實時、方便地從如此龐大的、分散的大數(shù)據(jù)中獲
2、取所需要的知識,是當前面臨的重要問題,是科學技術及產業(yè)領域研究的前沿課題之一。1 數(shù)據(jù)挖掘軟件的發(fā)展代特征數(shù)據(jù)挖掘算法集成分布計算模型數(shù)據(jù)模型第一代作為一個獨立的應用支持一個或者多個算法獨立的系統(tǒng)單個機器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個算法:能夠挖掘一次不能放進內存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質、局部區(qū)域的計算機群集有些系統(tǒng)支持對象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預言模型系統(tǒng)集成多個算法數(shù)據(jù)管理和預言模型系統(tǒng)intranet/extranet網(wǎng)絡計算支持半結構化數(shù)據(jù)和web數(shù)據(jù)第四代和移動數(shù)據(jù)/各種計算設備的數(shù)據(jù)聯(lián)合多個算法數(shù)據(jù)管理、預言模型、移動系統(tǒng)移動和各種計算設備普
3、遍存在的計算模型1.1 第一代數(shù)據(jù)挖掘軟件特點: 支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法; 挖掘向量數(shù)據(jù)(vector-valued data); 數(shù)據(jù)一般一次性調進內存進行處理; 典型的系統(tǒng)如Salford Systems公司早期的CART系統(tǒng)。缺陷:如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術進行管理,第一代系統(tǒng)顯然不能滿足需求。新加坡國立大學?;陉P聯(lián)規(guī)則的分類算法,能從關系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關聯(lián)規(guī)則,使用關聯(lián)規(guī)則進行分類和預測。1.2 第二代數(shù)據(jù)挖掘軟件特點: 與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成; 支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性; 能夠挖
4、掘大數(shù)據(jù)集、以及更復雜的數(shù)據(jù)集; 通過支持數(shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性; 典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進行挖掘操作。缺陷:只注重模型的生成,如何和預言模型系統(tǒng)集成導致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)。1.3 第三代數(shù)據(jù)挖掘軟件特點: 和預言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產生的模型的變化能夠及時反映到預言模型系統(tǒng)中; 由數(shù)據(jù)挖掘軟件產生的預言模型能夠自動地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預言模型相聯(lián)合提供決策支持的功能; 能夠挖掘網(wǎng)絡環(huán)境下(Internet/Extranet)的分布式和高度異質的數(shù)據(jù)
5、,并且能夠有效地和操作型系統(tǒng)集成。缺陷:不能支持移動環(huán)境。第三代軟件SPSS lementine以PMML的格式提供與預言模型系統(tǒng)的接口。1.4 第四代數(shù)據(jù)挖掘軟件特點: 目前移動計算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動計算相結合是當前的一個研究領域; 第四代軟件能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計算設備產生的各種類型的數(shù)據(jù)。2 云計算的特點云計算具有以下特點:(1)服務器規(guī)模巨大?!霸啤本哂邢喈?shù)囊?guī)模,Google云計算已經擁有上百萬臺服務器,Amazon、IBM、微軟、Yahoo等的“云”均擁有50多萬臺服務器?!霸啤蹦苜x予用戶超強的計算能力。(2)資源虛擬化。云計
6、算支持用戶在不同地理位置、使用各種終端獲取服務。所請求的資源,是動態(tài)且無形的。應用在“云”中某處運行,但實際上用戶不必關系它的具體位置。(3)可靠性較高。為了使用云計算更可靠,“云”采用了數(shù)據(jù)多副本容錯等措施來保障其高可靠性的服務。(4)較強的通用性。由于在“云”的支撐下可以構造出于變萬化的應用,所以,云計算針對的是變化的應用,而對于不同的應用運行可以由同一個“云”支撐。(5)可擴展性。盡管應用和用戶規(guī)模在不斷的增長。“云”的規(guī)模也可以通過動態(tài)伸縮而滿足的這些需要。(6)按需服務。云可以象自來水,電,煤氣那樣計費,因此,用戶可以按自已的需要進行購買。(7)價格低廉。因為“云”可以由極其廉價的節(jié)
7、點來構成,所以“云”無需負擔越來越高的數(shù)據(jù)中心管理成本。用戶在享受“云”的低成本優(yōu)勢的同時。傳統(tǒng)系統(tǒng)的資源利用率也因為“云”得到了提高。3 基于云計算的數(shù)據(jù)挖掘的優(yōu)勢用云計算的方式來處理海量數(shù)據(jù)進行挖掘的優(yōu)勢有以下三個方面:(1)由于數(shù)據(jù)挖掘處理的數(shù)據(jù)足海量的,要從海量的數(shù)據(jù)中挖掘出理解的知識,大規(guī)模的數(shù)據(jù)挖掘足必須的。并且隨著互聯(lián)網(wǎng)上數(shù)據(jù)的快速增長,數(shù)據(jù)挖掘的任務遠比搜索任務要復雜,導致了在挖掘過程中需要有很好的開發(fā)環(huán)境和應用環(huán)境。這種情況下,基于云計算的方式是比較合適的。(2)基于云計算實現(xiàn)低成本分布式并行計算環(huán)境,因此,企業(yè)的數(shù)據(jù)處理成本大大的降低,同時也不再依存于高性能的機器。(3)基
8、于云計算的數(shù)據(jù)挖掘開發(fā)方便,屏蔽了底層。在并行化條件下。云計算能夠利用原有設備提高對大規(guī)模數(shù)據(jù)的處理能力和速度,既保證了容錯性,也增加結點。4 基于云計算數(shù)據(jù)挖掘面臨的問題和挑戰(zhàn)云計算技術雖然已經有了很多成功的應用。但是其技術還不成熟。云計算還處于初級階段。所以,用云計算的方式來處理數(shù)據(jù)挖掘必然還存在很多的問題與挑戰(zhàn)。這些問題和挑戰(zhàn)主要有:(1)基于云計算數(shù)據(jù)挖掘算法的并行性存在一些挑戰(zhàn)。用什么樣的算法來處理目前的數(shù)據(jù)挖掘,這是一個首要的問題并不是所有算法都能夠用云計算的方式完成目前的任務,我們需要選擇合適的算法。并采取適當?shù)牟⑿胁呗?,然后才能提高并行效率。?)不確定性。數(shù)據(jù)挖掘當中有很多不
9、確定性,之所以說數(shù)據(jù)挖掘,實際上就是要克服不確定性帶來的影響。首先數(shù)據(jù)挖掘任務的描述具有小確定性,數(shù)據(jù)采集和預處理也是帶有很多的不確定性。(3)數(shù)據(jù)挖掘的方法和結果具有不確定性。什么樣的方法和結果是吻合目標的?還需要在做數(shù)據(jù)挖掘過程中,把不確定性確定下來。(4)挖掘結果的評價也是不確定的。因為每一個用戶所關注的最終的挖掘目標不一樣,這就導致了對挖掘結果的評價它也有不確定性。(5)軟件、服務可信方面的問題與挑戰(zhàn)。在云計算環(huán)境下實現(xiàn)數(shù)據(jù)挖掘,就導致了數(shù)據(jù)挖掘云服務軟件的可信性問題變得比較突出。首先,是服務的正確性。其次,足服務的安全性。再次,是服務的質量。對于上面的問題和挑戰(zhàn),有以下一些對策:(1
10、)基礎建設方面,要建設數(shù)據(jù)挖掘云服務的平臺。要根據(jù)個性化和多樣化而談,在云服務平臺上,爭業(yè)人士可以提供服務,大眾和各種組織成為服務的受益方,而且這個平臺要按領域、行業(yè)來構建。(2)數(shù)據(jù)挖掘云服務要依賴于虛擬化技術需要計算資源,需要自主分配和調度,虛擬化技術足數(shù)據(jù)挖掘云服務技術的支撐。(3)需求方面,對個性化、多樣化需求,需要大眾參與,有了大眾的參與個性化和多樣化的需求就能夠更好的得到滿足。(4)可信性方面。算法要通用,要可查,可調,可視。(5)安全方面,隱私數(shù)據(jù)可以加密來保護,可以有一些安全措施。史忠植:中國人工智能領域的開拓者,長期從事計算機科學和智能科學領域的研究工作。主持完成了多項國家重點科技攻關、國家973、國家863、國家自然科學基金重點等項目,發(fā)表著作14部、學術論文450多篇。曾獲國家科技進步二等獎、中國科學院科技進步二等獎、中國科學院科技進步特等獎。擔任世界科技出版社智能科學系列叢書(Series on Intelligence Science)主編,Informatics、International Journal of Computational Intelligenc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 道路車救援管理制度
- 鄭州車輛段管理制度
- 酒店浴足部管理制度
- 酒店營銷員管理制度
- 酒店預定部管理制度
- 醬鹵肉運輸管理制度
- 2025至2030年中國平漿式攪拌機行業(yè)投資前景及策略咨詢報告
- 2025至2030年中國帶網(wǎng)方絲弓頰面管行業(yè)投資前景及策略咨詢報告
- 鐵路分界站管理制度
- 銷售與售后管理制度
- 與總包等的協(xié)調配合措施
- 新世紀健康飲食課件
- 在深化糾正“四風”和提高工作效率專題研討會上的發(fā)言
- 上海市2013年基準地價更新成果
- 道德與法治四年級(下)第二單元單元備課
- 小學音樂 花城版 二年級《稻草里的火雞》課件
- 物質安全數(shù)據(jù)表(MSDS)84消毒液
- 蘇州市吳江區(qū)2021-2022蘇教版五年級數(shù)學下冊期末試卷真題
- “363生態(tài)課堂”模式及流程
- (高清版)建筑工程風洞試驗方法標準JGJ_T 338-2014
- 鋼構車棚施工組織方案
評論
0/150
提交評論