文本挖掘_數(shù)據(jù)挖掘和知識(shí)管理_二十一世紀(jì)的智能信息處理_第1頁(yè)
文本挖掘_數(shù)據(jù)挖掘和知識(shí)管理_二十一世紀(jì)的智能信息處理_第2頁(yè)
文本挖掘_數(shù)據(jù)挖掘和知識(shí)管理_二十一世紀(jì)的智能信息處理_第3頁(yè)
文本挖掘_數(shù)據(jù)挖掘和知識(shí)管理_二十一世紀(jì)的智能信息處理_第4頁(yè)
文本挖掘_數(shù)據(jù)挖掘和知識(shí)管理_二十一世紀(jì)的智能信息處理_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第20卷 第1期2001年2月情 報(bào) 學(xué) 報(bào)Vol.20, 1February,2001文本挖掘、數(shù)據(jù)挖掘和知識(shí)管理二十一世紀(jì)的智能信息處理韓客松 王永成(上海交通大學(xué),上海200030)1)摘要 本文首先介紹了數(shù)據(jù)挖掘、文本挖掘和知識(shí)管理等概念,然后從技術(shù)角度出發(fā),將知識(shí)管理劃分為知識(shí)庫(kù)、知識(shí)共享和知識(shí)發(fā)現(xiàn)三個(gè)階段,分析了作為最高階段的知識(shí)發(fā)現(xiàn)的關(guān)鍵技術(shù)和意義,最后指出在文本中進(jìn)行知識(shí)發(fā)現(xiàn)是新世紀(jì)智能信息處理的重要方向。關(guān)鍵詞 文本挖掘 數(shù)據(jù)挖掘 知識(shí)管理 知識(shí)發(fā)現(xiàn)TextMining,DataMiningvs.KnowledgeManagement:theIntelligentInform

2、ationProcessinginthe21stCenturyHanKesongandWangYongcheng(ShanghaiJiaoTongUniversity,Shanghai200030)Abstract BasedontheintroductiontoDataMining,TextMiningandKnowledgeManagement,wedividetheknowledgemanagementintothreephases,KnowledgeRepository,KnowledgeSharingandKnowledgeDiscoveryrespectively,fromthev

3、iew pointoftechnicaldevelopment.Weanalysethekeycomponentoftextmining,andpointoutthatitisthemaintrendofintelligentinformationprocessinginthecomingnewcentury.Keywords textmining,datamining,knowledgemanagement,knowledgediscovery.1 引 言20世紀(jì)90年代不同于以往任何一個(gè)時(shí)代的顯著特征之一是信息的產(chǎn)生、傳播速度更快,信息的交流量日益增加。Internet、Intranet、

4、Email和群件系統(tǒng)大大增加了人們接觸數(shù)字信息的機(jī)會(huì)。但是,我們已經(jīng)面臨另一個(gè)新問(wèn)題:雖然我們接觸信息的絕對(duì)數(shù)量在增加,但比重在下降,也就是信息的含金量在下降,新知識(shí)的增長(zhǎng)并沒有同步。收稿日期:2000年4月17日作者簡(jiǎn)介:韓客松,男,1973年生,博士研究生,研究方向?yàn)橹形男畔⑻幚?。王永?男,1939年生,教授、博士生導(dǎo)師,研究方向?yàn)榫W(wǎng)絡(luò)信息智能處理。1)本課題研究受國(guó)家863計(jì)劃資助(合同號(hào):863 306 ZD03 04 11期文本挖掘、數(shù)據(jù)挖掘和知識(shí)管理101對(duì)于什么是信息,什么是知識(shí),恐怕迄今還沒有一個(gè)精確的定義來(lái)描述它們,但可以用這樣一個(gè)例子來(lái)說(shuō)明什么是信息,什么是知識(shí),例如:!

5、我吃了一個(gè)蘋果應(yīng)該只能算是信息,而!蘋果是可以吃的就是一條知識(shí)。信息和知識(shí)的關(guān)系,正如Churchman早在1971年就明確地指出:!知識(shí)并不是簡(jiǎn)單地存在于信息集合中。因此,從大量的信息中挖掘出有用知識(shí),變成了一個(gè)具有重要意義的研究領(lǐng)域。90年代初,數(shù)據(jù)庫(kù)的應(yīng)用已經(jīng)比較廣泛,很多數(shù)據(jù)庫(kù)的應(yīng)用積累了大量的數(shù)據(jù),由此引發(fā)了研究者對(duì)這些以GB、TB計(jì)的數(shù)據(jù)的興趣,數(shù)據(jù)挖掘(DataMining)在國(guó)內(nèi)外逐漸熱門起來(lái)。但是,ForrestResearch的統(tǒng)計(jì)資料指出,80%以上的數(shù)據(jù)以非結(jié)構(gòu)化的形式存在,如文檔、手冊(cè)、Email、技術(shù)報(bào)告、專家陳述等。因此,對(duì)這些信息進(jìn)行知識(shí)發(fā)現(xiàn),盡管可能難度更大一

6、些,但意義也更加重大,這就是文本挖掘(TextMining)。IBM也樂觀地估計(jì),處理無(wú)結(jié)構(gòu)文本信息的軟件將在下一個(gè)世紀(jì)充分展示其魅力。對(duì)于許多企業(yè)和公司,如何合理高效地管理知識(shí),掌握企業(yè)的業(yè)務(wù)流程,加強(qiáng)企業(yè)內(nèi)部的溝通以及企業(yè)和外部的溝通,已經(jīng)成為企業(yè)增強(qiáng)自身競(jìng)爭(zhēng)力的又一個(gè)新的增長(zhǎng)點(diǎn)。知識(shí)管理(KnowledgeManagement)作為一個(gè)新的理念,已經(jīng)為很多企業(yè)所接受,并正在付諸實(shí)施。GartnerGroup的調(diào)查報(bào)告指出,全球公司用于知識(shí)管理咨詢的費(fèi)用已達(dá)15億美元,估計(jì)到2001年累計(jì)可以達(dá)到50億美元。本文首先簡(jiǎn)單介紹什么是數(shù)據(jù)挖掘、文本挖掘和知識(shí)管理,然后將人們處理和利用知識(shí)的發(fā)展

7、過(guò)程分為三個(gè)階段,指出文本挖掘作為信息處理的新方向,應(yīng)該引起研究者的重視。2 數(shù)據(jù)挖掘、文本挖掘和知識(shí)管理數(shù)據(jù)挖掘:數(shù)據(jù)挖掘主要是從大量的結(jié)構(gòu)化的數(shù)據(jù)中發(fā)現(xiàn)潛在的、可能的數(shù)據(jù)模式、內(nèi)在聯(lián)系、規(guī)律、發(fā)展趨勢(shì)等,而這些數(shù)據(jù)經(jīng)常是以結(jié)構(gòu)化的靜態(tài)數(shù)據(jù)庫(kù)(數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)商店)的形式存儲(chǔ)的。作為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘有幾種模型,例如UsamaM.Fayyad等人提出的多階段處理模型1,GeorgeH.John在其博士論文中提出的多階段處理模型2和Brachman和Anand的以用戶為中心的處理模型3等。# 文本挖掘:從發(fā)現(xiàn)數(shù)據(jù)間的相互關(guān)系這一點(diǎn)上來(lái)看,文本挖掘和數(shù)據(jù)挖掘有很大的相似性,但文本挖掘處理的

8、對(duì)象主要是大量的、無(wú)結(jié)構(gòu)的文本信息。# 知識(shí)管理:管理學(xué)專家對(duì)知識(shí)管理有很多詮釋。韓國(guó)的Malhotra博士解釋知識(shí)管理為4:!知識(shí)管理是滿足企業(yè)在持續(xù)變化的競(jìng)爭(zhēng)環(huán)境中尋求生存和發(fā)展的關(guān)鍵問(wèn)題。本質(zhì)上看,它包含了利用IT技術(shù)進(jìn)行數(shù)據(jù)和信息處理,從而增強(qiáng)企業(yè)和人的創(chuàng)造和創(chuàng)新能力。這是一個(gè)從信息技術(shù)和企業(yè)行為的戰(zhàn)略角度出發(fā)的定義。如果單純從信息技術(shù)角度來(lái)看,知識(shí)管#理的本質(zhì)是我們?nèi)绾潍@取、加工、利用信息。3 知識(shí)管理的三個(gè)階段人們利用知識(shí)的過(guò)程是一個(gè)由低級(jí)向高級(jí)不斷發(fā)展的過(guò)程。下面的圖1給出了我們從技術(shù)發(fā)展的角度為知識(shí)管理劃分的幾個(gè)階段。102情 報(bào) 學(xué) 報(bào)20卷知識(shí)庫(kù)(你知道你有什么)知識(shí)共享(

9、你知道你沒有什么)知識(shí)發(fā)現(xiàn)(你不知道你有什么)文件系統(tǒng)數(shù)據(jù)庫(kù)聯(lián)機(jī)檢索搜索引擎圖1 知識(shí)管理各個(gè)階段文件挖掘挖掘引擎數(shù)據(jù)挖掘計(jì)算機(jī)出現(xiàn)后,人們處理和利用知識(shí)大致可以劃分為如下三個(gè)階段:知識(shí)庫(kù)階段、知識(shí)共享階段、知識(shí)發(fā)現(xiàn)階段。這三個(gè)階段是以使用的技術(shù)為基準(zhǔn)的,并不是到了知識(shí)發(fā)現(xiàn)階段我們不再用知識(shí)庫(kù),不再需要知識(shí)共享了。從知識(shí)利用的角度看,這三個(gè)階段是從低級(jí)向高級(jí)發(fā)展的過(guò)程5。在知識(shí)庫(kù)階段,手工處理好的知識(shí)被放入到預(yù)先定義好的知識(shí)庫(kù)中,手工處理的成分比較高,因此,可以說(shuō),我們至少是建設(shè)和維護(hù)知識(shí)庫(kù)的那些人,是知道我們有什么樣的知識(shí)的。而這個(gè)階段,實(shí)現(xiàn)的技術(shù)主要是文件系統(tǒng)和簡(jiǎn)單的單機(jī)數(shù)據(jù)庫(kù)。數(shù)據(jù)共享階

10、段,我們知道自己需要什么知識(shí),但沒有,因此搜索成了必須。早期人們使用的是聯(lián)機(jī)檢索,用終端通過(guò)電話線等登錄到主機(jī)上,檢索主機(jī)數(shù)據(jù)庫(kù)。隨著Internet的發(fā)展,網(wǎng)絡(luò)上的信息日新月異的發(fā)展,搜索引擎為用戶在浩瀚的信息海洋中尋找對(duì)自己有用的信息提供了一個(gè)快捷的工具。但是,搜索引擎,即便是象Yahoo!,Infoseek,Lycos這樣的著名的搜索引擎,仍不能完美地解決問(wèn)題。事實(shí)上,很多人并沒有真正理解搜索引擎的能力,只是在In ternet上簡(jiǎn)單地通過(guò)Yahoo!,Infoseek,WebCrawler以及另外一些公司W(wǎng)eb站點(diǎn)所自帶的站點(diǎn)引導(dǎo)功能下進(jìn)行搜索,使用最復(fù)雜的也不過(guò)是布爾查詢而已。但是,

11、據(jù)統(tǒng)計(jì),Internet上平均使用的查詢表達(dá)式的長(zhǎng)度僅僅為2個(gè)單詞(Word),而這樣的長(zhǎng)度顯然在很多情況下都沒有能力描述用戶真正需要的信息,于是結(jié)果中就出現(xiàn)了大量與查詢關(guān)系不大的文獻(xiàn)。為了能詳盡描述人們所需的信息,用戶不得不采用布爾查詢,而不經(jīng)過(guò)專門培訓(xùn)的普通用戶是很難構(gòu)造出高質(zhì)量的、無(wú)查詢歧義的布爾查詢的。另外,企業(yè)對(duì)完全利用搜索技術(shù)的解決方案也缺乏足夠的熱情,其中一個(gè)重要的原因是許多搜索引擎有復(fù)雜的API和查詢語(yǔ)言,這一方面使得使用困難,另一方面使得企業(yè)的二次開發(fā)難度較大,而很少有直接滿足用戶特定需要的搜索引擎。另一個(gè)重要原因是企業(yè)不能真正理解如何設(shè)計(jì)這類解決方案,在實(shí)施、運(yùn)行和維護(hù)時(shí)還

12、會(huì)涉及許多技術(shù)和成本的問(wèn)題。到了知識(shí)發(fā)現(xiàn)階段,人們開始意識(shí)到,前面兩個(gè)階段中,!知識(shí)在更多情況下只是!信息,而且人們已經(jīng)不再滿足于得到信息,而是希望學(xué)習(xí)知識(shí)。最初是希望從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)一些知識(shí),因?yàn)閿?shù)據(jù)庫(kù)中結(jié)構(gòu)化的記錄比較好處理,然后,對(duì)事實(shí)上大量存在的非結(jié)構(gòu)化的文本信息,人們也有了知識(shí)發(fā)現(xiàn)的期望。這也許就是文本挖掘產(chǎn)生的內(nèi)因。當(dāng)然,我們都十分清楚地知道,現(xiàn)代計(jì)算機(jī)只能處理數(shù)字,或者說(shuō),是由0,1組合的代碼串。所以,非結(jié)構(gòu)化的文本信息最終似乎還需要轉(zhuǎn)換到結(jié)構(gòu)信息才能真正進(jìn)行挖掘和發(fā)現(xiàn)。1期文本挖掘、數(shù)據(jù)挖掘和知識(shí)管理1034 搜索引擎和挖掘引擎的比較從技術(shù)上來(lái)說(shuō),搜索引擎和挖掘引擎是互補(bǔ)的、有一

13、定的相同之處。但是,正如美國(guó)SearchCafe公司的首席執(zhí)行官PatriciaSoto女士指出,挖掘引擎超越了搜索技術(shù),并正在將搜索技術(shù)推向一個(gè)新層次6。搜索引擎和挖掘引擎處理的都是字串和文本,從這一點(diǎn)上它們是相同的。但是,如前面解釋,搜索引擎提供的功能是單一的,主要是查找定位符合用戶查詢需要的文獻(xiàn)的位置,尤其是在網(wǎng)絡(luò)上的位置,因此它需要用戶提供由一個(gè)或若干關(guān)鍵字串組成的查詢表達(dá)式。它開始于用戶的查詢表達(dá)式,結(jié)束于一個(gè)按照某種方式(大部分是相關(guān)程度)排序的文獻(xiàn)以及文獻(xiàn)位置的列表(List),基本是一個(gè)簡(jiǎn)單的順序過(guò)程。支持這一過(guò)程的核心技術(shù)是數(shù)據(jù)庫(kù)和索引,而Agent技術(shù)為它的智能化提供了有力

14、的幫助。盡管挖掘引擎的確也提供定位文獻(xiàn)位置的功能,但這不是它的主要功能。好的挖掘引擎自動(dòng)地提取相關(guān)文獻(xiàn)之間的有價(jià)值的關(guān)系知識(shí),并且將這些知識(shí)以可視的、動(dòng)態(tài)改變的方式反饋給用戶??梢暦绞浇o用戶以直觀的、易于快速理解的知識(shí)掌握途徑,而動(dòng)態(tài)改變特性提供用戶以及時(shí)性。因此,挖掘引擎開始于一些文本(最好是已經(jīng)具有一定的物理相似性,如相同的文本格式等),結(jié)束于文本之間的潛在關(guān)系知識(shí),而這個(gè)過(guò)程一般是一個(gè)需要不斷反饋和調(diào)整的復(fù)雜過(guò)程。支持這一過(guò)程的核心技術(shù)是特征提取、分類、聚類和關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、知識(shí)評(píng)價(jià)等??梢杂脠D2簡(jiǎn)單描述搜索引擎和挖掘引擎的關(guān)系。圖2 搜索引擎和挖掘引擎按圖2所示,我們或許可以認(rèn)為搜索引擎

15、的結(jié)果往往可以作為挖掘引擎的輸入,也就是說(shuō),搜索引擎在一定程度上可以被認(rèn)為是挖掘引擎的前處理。5 結(jié) 論IBM公司在其一份白皮書中指出7:當(dāng)前許多文本挖掘工具只能看成是信息的抽取器。104情 報(bào) 學(xué) 報(bào)20卷 這說(shuō)明,文本挖掘離其真正的目標(biāo)還有一定的距離。針對(duì)漢語(yǔ)處理的文本挖掘工具的研究力度尤其需要加強(qiáng)。我們實(shí)驗(yàn)室,在863專家組支持下,!中英文自動(dòng)摘要研究已取得了可喜的成就。引用倪光南院士的話,自動(dòng)摘要就是一種知識(shí)挖掘。我們?cè)谘芯窟^(guò)程中同時(shí)積累的自動(dòng)分詞和抽詞、主題自動(dòng)抽取和標(biāo)引、自動(dòng)文獻(xiàn)分類、全文檢索等關(guān)鍵技術(shù),恰恰就是進(jìn)行文本挖掘的必備技術(shù)。我們認(rèn)為,只要在預(yù)處理、處理對(duì)象(如國(guó)外十分重

16、視的Email)的特性和可視、動(dòng)態(tài)顯示上再做一定的研究,我們遞交中英文雙語(yǔ)文本挖掘的工具軟件為期已經(jīng)不遠(yuǎn)了。因此,作為21世紀(jì)的智能信息處理,文本挖掘以及相關(guān)研究,已迫在眉睫。參考文獻(xiàn)1 W.Frawley,G.piatetsky Shapiro,andC.Matheus.KnowledgeDiscoveryinDatabases:AnOverview.AIMagazine,Fall1992.2 GeorgeH.John,EnhancementstotheDataMiningProcess.Ph.DthesisofStanfordUniversity,19973 RonaldJ.BrachmanandTejAnand.TheProcessofKnowledgeDiscoveryinDatabases:AHuman centeredAp proach.AdvanceInKnowledgeDiscoveryAndDataMining.

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論