下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 大數(shù)據(jù)時代的信息處理 周勝利【摘 要】信息時代的特征之一就是數(shù)據(jù)的密集爆發(fā),人們積累的數(shù)據(jù)越來越多,而這種數(shù)據(jù)的變化沒有一個循序漸進(jìn)的過程,而是呈現(xiàn)跨越式的特征,因此傳統(tǒng)的查詢、報表工具無法滿足挖掘有效信息的需求。從而就需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,即數(shù)據(jù)挖掘技術(shù)。本文深入淺出地闡述了數(shù)據(jù)挖掘技術(shù)的產(chǎn)生,概念以及數(shù)據(jù)挖掘的常用技術(shù)。【關(guān)鍵詞】信息時代;數(shù)據(jù);挖掘;分析一、大數(shù)據(jù)的定義所謂“大數(shù)據(jù)”,一般具有幾個特點(diǎn):首先是數(shù)據(jù)量很大,已經(jīng)從tb級躍升至pb級;其次是區(qū)別于傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu),“大數(shù)據(jù)”時代的數(shù)
2、據(jù)結(jié)構(gòu)比較復(fù)雜,超過80%都是非結(jié)構(gòu)化數(shù)據(jù),比如道路上的視頻監(jiān)控數(shù)據(jù)、網(wǎng)上的流媒體數(shù)據(jù)、物聯(lián)網(wǎng)中rfid的感應(yīng)數(shù)據(jù),以及社交網(wǎng)絡(luò)上產(chǎn)生的各種數(shù)據(jù)等。這兩個特點(diǎn),給數(shù)據(jù)存儲、管理和挖掘帶來了困難。第三,數(shù)據(jù)更新快,比如視頻監(jiān)控每秒鐘都在進(jìn)行,微博隨時都有人在更新;最后,是對數(shù)據(jù)的隨機(jī)訪問,這些更個人化的數(shù)據(jù)在存儲后被再次訪問的時間是不確定的。這兩點(diǎn)就要求新的it系統(tǒng)更夠更快地處理數(shù)據(jù),并且能夠更智能地保存和管理數(shù)據(jù)。比如在某一天,你需要從監(jiān)控錄像中找出某個人,那么就需要能夠迅速地查找、調(diào)用、分析之前保存的海量數(shù)據(jù)。“大數(shù)據(jù)”的這些特點(diǎn),對數(shù)據(jù)搜索及管理提出了更高要求,因?yàn)樵凇按髷?shù)據(jù)”時代只有經(jīng)過
3、分析提煉的關(guān)鍵數(shù)據(jù)才有價值。二、數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程,它是一門涉及面很廣的交叉性新興學(xué)科,涉及到數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等領(lǐng)域。數(shù)據(jù)挖掘是一種新的信息處理技術(shù),其主要特點(diǎn)是對數(shù)據(jù)庫中的大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,并從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程中的一個特定步驟,它用專門算法從數(shù)據(jù)中抽取模式,它并不是
4、用規(guī)范的數(shù)據(jù)庫查詢語言進(jìn)行查詢,而是對查詢的內(nèi)容進(jìn)行模式的總結(jié)和內(nèi)在規(guī)律的搜索。傳統(tǒng)的查詢和報表處理只是得到事件發(fā)生的結(jié)果,并沒有深入研究發(fā)生的原因,而數(shù)據(jù)挖掘則主要了解發(fā)生的原因,并且以一定的置信度對未來進(jìn)行預(yù)測,用來為決策行為提供有利的支持。(1)統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué)在數(shù)據(jù)樣本選擇、數(shù)據(jù)預(yù)處理及評價抽取知識的步驟中有非常重要的作用。以往許多統(tǒng)計(jì)學(xué)的工作是針對數(shù)據(jù)和假設(shè)檢驗(yàn)的模型進(jìn)行評價,很明顯也包括了評價數(shù)據(jù)挖掘的結(jié)果。在數(shù)據(jù)預(yù)處理步驟中,統(tǒng)計(jì)學(xué)提出了估計(jì)噪聲參數(shù)過程中要用的平滑處理的技術(shù),在一定程度上對補(bǔ)足丟失數(shù)據(jù)有相當(dāng)?shù)淖饔?。統(tǒng)計(jì)學(xué)對檢測數(shù)據(jù)分析、聚類和實(shí)驗(yàn)數(shù)據(jù)參數(shù)設(shè)計(jì)上也有用。但統(tǒng)計(jì)學(xué)研究的
5、焦點(diǎn)是在于處理小規(guī)模數(shù)據(jù)樣本采集和小規(guī)模數(shù)據(jù)集處理的問題上。統(tǒng)計(jì)學(xué)的工作大多是針對技術(shù)和模型的理論方面。于是許多工作是著眼于線性模型、遞增的高斯噪聲模型、參數(shù)估計(jì)和嚴(yán)格分類參數(shù)模型上。只有在進(jìn)行相近模式區(qū)別時才強(qiáng)調(diào)尋優(yōu)。(2)模式識別在模式識別工作中,傳統(tǒng)上是把注意力集中在符號形式化直接結(jié)合實(shí)際技術(shù)的工作過程中。模式識別主要用于分類技術(shù)和數(shù)據(jù)的聚類技術(shù)上。模式識別中的分類和含義分析是對數(shù)據(jù)挖掘概念形成的開端。多數(shù)模式識別的算法和方法對降維、變換和設(shè)置都有直接的參考意義。在數(shù)據(jù)挖掘的步驟中,模式識別比統(tǒng)計(jì)學(xué)更為重要,因?yàn)樗鼜?qiáng)調(diào)了計(jì)算機(jī)算法、更加復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和更多的搜索。典型的數(shù)據(jù)分類是用一定的
6、分類技術(shù)把數(shù)據(jù)從一個向量空間映射到另外一個向量空間。但這種映射并不總是有意義的。比如,形狀上“方”與“圓”的差別就很難說比性別上“男”與“女”的差別大。顯然,這其中應(yīng)當(dāng)注重其語言的含義。(3)人工智能人工智能對于數(shù)據(jù)挖掘來說原來一直是在符號的層次上處理數(shù)據(jù),而對于連續(xù)變量注意較少。在機(jī)器學(xué)習(xí)和基于案例的推理中,分類和聚類算法著重于啟發(fā)式搜索和非參數(shù)模型。對于其結(jié)果,并不象模式識別和統(tǒng)計(jì)學(xué)在數(shù)學(xué)上的精確和要求嚴(yán)格分析。隨著計(jì)算機(jī)學(xué)習(xí)理論的發(fā)展。人工智能把注意力集中在了表達(dá)廣義分類的模糊邊緣上。機(jī)器學(xué)習(xí)主要是對數(shù)據(jù)挖掘過程中的數(shù)據(jù)變量選擇處理極有幫助,在通過大量搜索表達(dá)式和選擇變量上有很大作用。另
7、外,機(jī)器學(xué)習(xí)對于發(fā)現(xiàn)數(shù)據(jù)結(jié)構(gòu),特別是人工智能中的不確定推理技術(shù)和基于貝葉斯模型推理是統(tǒng)計(jì)學(xué)意義上的分布密度估計(jì)的強(qiáng)有力的工具。人工智能技術(shù)建立了關(guān)于特定領(lǐng)域知識和數(shù)據(jù)的已有知識的相對容易理解和自然的框架。人工智能的其他技術(shù),包括知識獲取技術(shù)、知識搜索和知識表達(dá)在數(shù)據(jù)挖掘的數(shù)據(jù)變換、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理等步驟中都有作用。(4)數(shù)據(jù)庫數(shù)據(jù)庫及其相關(guān)技術(shù)顯然與數(shù)據(jù)挖掘有直接的關(guān)系。數(shù)據(jù)庫是原始數(shù)據(jù)的處理、儲存和操作的基礎(chǔ)。隨著平行和分布式數(shù)據(jù)庫的使用,對數(shù)據(jù)錄入和檢索有更高的要求。數(shù)據(jù)挖掘中很重要的一個問題是對數(shù)據(jù)庫中數(shù)據(jù)的在線分析,主要是如何利用多種方法對數(shù)據(jù)進(jìn)行實(shí)時處理和分析。一般來說,通過相關(guān)
8、數(shù)據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)化可以克服要求特殊存取數(shù)據(jù)的困難。在數(shù)據(jù)挖掘中為了對數(shù)據(jù)進(jìn)行特定的統(tǒng)計(jì)和計(jì)數(shù),則要對各個特征屬性進(jìn)行組合形成新的數(shù)據(jù)庫。其中,對于數(shù)據(jù)挖掘所得知識支持率的研究是個新領(lǐng)域。三、數(shù)據(jù)挖掘技術(shù)的方法數(shù)據(jù)挖掘涉及的學(xué)科領(lǐng)域和方法很多,如多種分類法。根據(jù)開采任務(wù)分,可分為分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等等;根據(jù)開采對象分,有關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及環(huán)球網(wǎng)web;根據(jù)開采方法分,可粗分為:機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。機(jī)器
9、學(xué)習(xí)中,可細(xì)分為:歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等。統(tǒng)計(jì)方法中,可細(xì)分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)等。神經(jīng)網(wǎng)絡(luò)方法中,可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)(bp算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習(xí)等)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或olap方法,另外還有面向?qū)傩缘臍w納方法。四、結(jié)束語數(shù)據(jù)挖掘技術(shù)是一個發(fā)展十分快的領(lǐng)域,隨著對數(shù)據(jù)挖掘技術(shù)在各領(lǐng)域日益廣泛的應(yīng)用,實(shí)現(xiàn)了數(shù)據(jù)資源共享及技術(shù)發(fā)展的跨域,從而大大提高了工作效率,并帶來巨大的成功。21世紀(jì)是信息時代的社會,“信息不僅是資源,更是財富”,要實(shí)現(xiàn)經(jīng)濟(jì)的騰飛,需依賴高新尖科技的發(fā)展,故利用提供的信息,充分進(jìn)行數(shù)據(jù)挖掘,則將為數(shù)據(jù)庫的應(yīng)用開辟了廣闊的前景,也為人類的文明開辟了一個嶄新的時代。數(shù)據(jù)挖掘技術(shù)及其應(yīng)用是目前國際上的一個研究熱點(diǎn),并在許多行業(yè)中得到了很好的應(yīng)用,尤其是在市場營銷中獲得了成功,初步體現(xiàn)了其優(yōu)越性和發(fā)展?jié)摿?。在信息管理領(lǐng)域,綜合應(yīng)用數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù),獲取用戶知識、文獻(xiàn)知識等各類知識,將是實(shí)現(xiàn)知識檢索和知識管理發(fā)展的必經(jīng)之路。參考文獻(xiàn):1韓家煒,堪博著,范明,孟小峰譯數(shù)據(jù)挖掘概念與技術(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)藥分公司藥品研發(fā)管理規(guī)范
- 校車的應(yīng)急預(yù)案
- 建筑工程工法管理辦法
- IT行業(yè)外包安全管理辦法
- 《Excel數(shù)據(jù)獲取與處理實(shí)戰(zhàn)》 課件 第8章 宏和VBA
- 2022年大學(xué)心理學(xué)專業(yè)大學(xué)物理二期中考試試卷-附解析
- 2022年大學(xué)法醫(yī)學(xué)專業(yè)大學(xué)物理下冊期中考試試題-含答案
- 2022年大學(xué)能源動力專業(yè)大學(xué)物理下冊開學(xué)考試試卷D卷-附解析
- 2022年大學(xué)動物醫(yī)學(xué)專業(yè)大學(xué)物理下冊期中考試試卷D卷-含答案
- 腦血管病介入診療護(hù)理
- 中藥項(xiàng)目投資合同范例
- 2024-2025學(xué)年上海市普陀區(qū)八年級(上)期中數(shù)學(xué)試卷
- 假期補(bǔ)課協(xié)議書
- 電子商務(wù)支付結(jié)算系統(tǒng)開發(fā)合同
- 服務(wù)質(zhì)量、保證措施
- (必練)廣東省軍隊(duì)文職(經(jīng)濟(jì)學(xué))近年考試真題試題庫(含答案)
- 含羞草天氣課件
- 2024年安全生產(chǎn)知識競賽考試題庫及答案(共五套)
- 22《鳥的天堂》課件
- 農(nóng)業(yè)灌溉裝置市場環(huán)境與對策分析
- 新疆烏魯木齊市第十一中學(xué)2024-2025學(xué)年八年級上學(xué)期期中道德與法治試卷
評論
0/150
提交評論