文本自動分類系統(tǒng)的研究

上傳人：1*** IP屬地：廣東上傳時間：2023-10-13 格式：DOCX 頁數(shù)：5 大?。?1.28KB 積分：12 舉報 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

文本自動分類系統(tǒng)的研究

1知識服務(wù)系統(tǒng)的提出隨著計算機和網(wǎng)絡(luò)技術(shù)的快速發(fā)展，特別是近年來網(wǎng)絡(luò)攻擊的繁榮和信息高速公路建設(shè)的繁榮，人類社會進入了世界信息社會秩序。作為信息和知識服務(wù)的圖書館面臨著巨大的挑戰(zhàn)和改革。圖書館由傳統(tǒng)意義的圖書館將向電子圖書館、網(wǎng)絡(luò)圖書館、數(shù)字圖書館、虛擬圖書館轉(zhuǎn)型,同時也帶來了圖書館工作方式、服務(wù)環(huán)境和服務(wù)手段的變化。在知識經(jīng)濟時代,人們對知識與信息的巨大需求,是圖書館事業(yè)發(fā)展的最大機遇和著眼點。面對圖書館歷史的挑戰(zhàn)和機遇,圖書館面臨在現(xiàn)代技術(shù)的基礎(chǔ)上改變服務(wù)方式,幾張光盤就可以把一個傳統(tǒng)圖書館所有的圖書期刊資料全部存儲進去,信息數(shù)據(jù)庫管理實現(xiàn)了信息的高級有序化,光纖傳導(dǎo)和數(shù)字化極大地提高了信息知識的傳播速度,人工智能和信息處理技術(shù)為信息的獲取、學(xué)習(xí)、生產(chǎn)、利用、檢索和傳播開辟了極其廣闊美好的發(fā)展前景;同時,也為實現(xiàn)圖書館的“電子化”、“數(shù)字化”,使圖書館的服務(wù)逐步走向知識化,推動圖書館信息服務(wù)向更高層次跨越提供了有效的技術(shù)支持。本文以信息處理技術(shù)為基礎(chǔ),提出了一種基于文本自動分類技術(shù)的圖書館定題的知識服務(wù)系統(tǒng)。通過該項業(yè)務(wù)的開展,圖書館能為定題的研究課題和研究領(lǐng)域提供專業(yè)服務(wù)。2數(shù)字圖書館的知識服務(wù)2.1數(shù)字圖書館術(shù)語目前,對數(shù)字圖書館的界定存在很大差別,到現(xiàn)在還沒有明確的定義。從圖書情報學(xué)的角度來說,數(shù)字圖書館以前一直被稱為電子圖書館。1992年后,數(shù)字圖書館這一術(shù)語才逐漸流行起來。此外,還有虛擬圖書館、無墻圖書館、網(wǎng)絡(luò)圖書館等說法,都是對數(shù)字圖書館的不同稱謂。從人們對數(shù)字圖書館的結(jié)構(gòu)和功能的理解,大多數(shù)人認(rèn)為數(shù)字圖書館就是計算機化的、網(wǎng)絡(luò)化的、智能化的圖書館系統(tǒng)或信息系統(tǒng),如FrankTung認(rèn)為數(shù)字圖書館“是一種基于計算機網(wǎng)絡(luò),特別是基于信息高速公路的多媒體信息管理系統(tǒng)”。2.2信息資源的數(shù)字化與傳統(tǒng)圖書館相比較,數(shù)字圖書館具有其獨有的特點和功能,這些特點及功能正是傳統(tǒng)圖書館的未來發(fā)展方向。數(shù)字圖書館的特點可以歸納為以下五個方面:(1)信息資源數(shù)字化。信息資源數(shù)字化是數(shù)字圖書館的基礎(chǔ),因為數(shù)字圖書館的其他特點都是建立在信息資源數(shù)字化基礎(chǔ)上的,這也是數(shù)字圖書館與傳統(tǒng)圖書館的最大區(qū)別。數(shù)字圖書館的本質(zhì)特征就是利用現(xiàn)代信息技術(shù)和網(wǎng)絡(luò)通信技術(shù),將各類傳統(tǒng)介質(zhì)的文獻進行壓縮處理并轉(zhuǎn)化為數(shù)字信息,以“0”和“1”來組成信息資源的細胞,并組成無數(shù)個比特和字節(jié)的信息元素和單元。(2)信息服務(wù)的知識化。與傳統(tǒng)圖書館不同,數(shù)字圖書館已經(jīng)或?qū)崿F(xiàn)由文獻提供向知識提供的轉(zhuǎn)變。數(shù)字圖書館信息提供的知識化,將會為廣大讀者提供“知識水庫”、“學(xué)術(shù)銀行”、“數(shù)據(jù)倉庫”。由于信息加工的知識化、智能化和完備的檢索系統(tǒng)的建立,使數(shù)字圖書館能自動地為讀者用戶一次性地提供所需某一主題的目錄、論文和著作的全文、圖片、圖像、聲音等各種知識信息。(3)信息傳遞網(wǎng)絡(luò)化。在信息資源數(shù)字化的基礎(chǔ)上,數(shù)字圖書館正通過以網(wǎng)絡(luò)為主的信息基礎(chǔ)設(shè)施來實現(xiàn)。目前,數(shù)字圖書館正通過由寬帶網(wǎng)組成的因特網(wǎng)和萬維網(wǎng)以高速、大容量、高保真的計算機和網(wǎng)絡(luò)系統(tǒng),將世界各國的圖書館和無數(shù)臺計算機聯(lián)為一體。(4)信息利用共享化。由于有了數(shù)字化與網(wǎng)絡(luò)化的堅實基礎(chǔ),數(shù)字圖書館的信息利用共享化特點體現(xiàn)了跨地域、跨行業(yè)的資源無限與服務(wù)無限的特征,體現(xiàn)了跨地域、跨國界的資源共建的協(xié)作化與資源共享的便捷性。在數(shù)字圖書館時代,圖書館聯(lián)盟的信息共建模式將會日益發(fā)展,原來的信息壁壘和圍墻將會逐漸被拆除。(5)信息實體虛擬化。數(shù)字圖書館使實體圖書館與虛擬圖書館結(jié)合起來,在實體圖書館的基礎(chǔ)上趨向虛擬化。2.3圖書館自身知識產(chǎn)品傳統(tǒng)圖書館的人工收集、手動檢索的單一封閉式服務(wù)模式已經(jīng)無法充分體現(xiàn)圖書館在新時代中的生命力。圖書館必須重新定位,充分利用其自身的知識載體,發(fā)揮各種信息傳遞優(yōu)勢,提供周期循環(huán)的信息增值服務(wù),使圖書館不但具有傳播中介的性能,而且更具備生產(chǎn)性能。所謂“增值”,就是不局限于信息的簡單羅列和堆砌,而是結(jié)合服務(wù)反饋信息,利用先進的信息處理工具,對信息進行優(yōu)化組合和加工處理,與因特網(wǎng)相結(jié)合產(chǎn)生新的知識,為讀者提供全方位的知識和信息。2.3.1信息服務(wù)分類如何在浩若煙海而又紛繁復(fù)雜的文本中掌握最有效的信息始終是信息處理的一大目標(biāo)。基于人工智能技術(shù)的文本分類系統(tǒng)能依據(jù)文本的語義將大量的文本自動分門別類,從而更好地幫助人們把握文本信息。近年來,文本分類技術(shù)已經(jīng)逐漸與搜索引擎、信息推送、信息過濾等信息處理技術(shù)相結(jié)合,有效地提高了信息服務(wù)的質(zhì)量,同時也開始廣泛地應(yīng)用于定題的信息檢索和專門的知識服務(wù)系統(tǒng)中。專業(yè)化的定題知識服務(wù)是圖書館知識服務(wù)的更高層次,除了必須具備圖書情報專業(yè)知識外,還涉及其他學(xué)科的很多領(lǐng)域,如人工智能、機器學(xué)習(xí)、計算數(shù)學(xué)等,技術(shù)上和基礎(chǔ)理論上的要求都非常高。目前,國內(nèi)外很多高校和研究機構(gòu)在該領(lǐng)域進行相關(guān)的研究,并取得了重大突破,很多研究成果已被很多圖書館應(yīng)用。定題知識服務(wù)是以后圖書館情報服務(wù)的一個重要發(fā)展方向,通過該項業(yè)務(wù)的開展,圖書館能為專門的研究課題和研究領(lǐng)域提供專業(yè)的信息查詢和知識服務(wù)。2.3.2文本類別的選擇知識服務(wù)系統(tǒng)是利用信息處理的方法,根據(jù)各知識庫中已有或由用戶提供的各種信息資源形成訓(xùn)練文本集,再選擇一定的分類算法形成分類模型。新輸入的文本經(jīng)過預(yù)處理后形成自己的特征向量,與不同領(lǐng)域的分類模型進行比較,在知識庫中選擇最佳匹配的類作為該文本的存儲類別。簡單地說,在給定的分類體系下,根據(jù)文本的內(nèi)容自動確定文本關(guān)聯(lián)的類別。從數(shù)學(xué)角度來看,文本分類是一個映射過程,它將未標(biāo)明類別的文本映射到已有的類別中。該映射可以是一一映射,也可以是一對多的映射,因為通常一篇文本可以同多個類別相關(guān)聯(lián)。文本分類用數(shù)學(xué)公式表示為f:A→B。其中,A為待分類的文本集合,B為分類體系中的類別集合。文本分類的映射規(guī)則是系統(tǒng)根據(jù)已經(jīng)掌握的每類若干樣本的數(shù)據(jù)信息,總結(jié)出分類的規(guī)律性而建立的判別公式和判別規(guī)則。在遇到新文本時,根據(jù)總結(jié)出的判別規(guī)則,確定文本相關(guān)的類別。具體過程如圖1所示。3設(shè)計知識服務(wù)系統(tǒng)的關(guān)鍵3.1文本的表示方法信息資源數(shù)字化是數(shù)字圖書館的基礎(chǔ),怎樣利用現(xiàn)代信息技術(shù)和網(wǎng)絡(luò)通信技術(shù)將各類傳統(tǒng)介質(zhì)的文獻進行壓縮處理并轉(zhuǎn)化為計算機可識別的數(shù)字信息是整個系統(tǒng)的關(guān)鍵。根據(jù)“貝葉斯假設(shè)”,假定組成文本的字或詞在確定文本類別的作用上相互獨立,就可以使用文本中出現(xiàn)的字或詞的集合來代替文本。這將丟失大量關(guān)于文章內(nèi)容的信息。但是,這種假設(shè)可以使文本的表示和處理形式化和計算簡單化,并且經(jīng)過實驗證明,在此獨立性假設(shè)條件下,可以在文本分類中取得較好的效果。在信息處理的基本方法中,文本的表示主要采用向量空間模型(VSM)。向量空間模型的基本思想是以向量來表示文本:(W1,W2,W3,…,Wn),其中Wi為第i個特征項的權(quán)重。那么,選取什么作為特征項呢,一般可以選擇字、詞或詞組,根據(jù)實驗結(jié)果,普遍認(rèn)為選取詞作為特征項要優(yōu)于字和詞組。因此,要將文本表示為向量空間中的一個向量,首先要將文本分詞,由這些詞作為向量的維數(shù)來表示文本。文本的向量表示有兩種方法,一種是布爾表示,即0、1表示,是最初的向量表示法。如果文本中出現(xiàn)了該詞,那么文本向量的該維為1,否則為0。這種方法無法體現(xiàn)這個詞在文本中的作用程度。另一種是TF表示。在這種方法中,0、1逐漸被更精確的詞頻代替。詞頻分為絕對詞頻和相對詞頻。絕對詞頻即使用詞在文本中出現(xiàn)的頻率表示文本;相對詞頻為歸一化的詞頻,其計算方法主要運用TF-IDF公式。目前存在多種TF-IDF公式,我們在系統(tǒng)中采用了一種比較普遍的TF-IDF公式:其中,W(t,)為詞t在文本中的權(quán)重,tf(t,)為詞t在文本中的詞頻,N為訓(xùn)練文本的總數(shù),nt為訓(xùn)練文本集中出現(xiàn)t的文本數(shù),分母為歸一化因子。另外,還存在其他的TF-IDF公式,例如:該公式中參數(shù)的含義與上式相同。經(jīng)過分詞程序分詞后,首先將助詞等沒有實際意義的詞加入stop-list,合并數(shù)字和同義詞等詞匯,然后統(tǒng)計詞頻,最終表示為上面描述的向量。3.2其他類型的信息在該系統(tǒng)中,特征值的提取采用交互信息量方法,通過計算詞或單詞序列的平均交互信息量,選擇具有較高的平均信息量的詞或短語作為該類的特征,從而減少各個問題類的功能的個數(shù)。信息量的計算方法如下:其中,wt為某一文檔中的詞或短語;H(C)表示類C的平均信息量(熵);ft=0表示文檔中不出現(xiàn)詞wt,ft=1表示文檔中出現(xiàn)詞wt;P(C)為該類下的文檔的數(shù)目除以總的文檔的數(shù)目;P(ft)等于包括詞wt的文檔數(shù)除以總的文檔的數(shù)目;P(c,ft)表示類C中包括詞wt的文檔數(shù)除以總的文檔的數(shù)目。3.3基于最相似的雙系統(tǒng)論在此系統(tǒng)中,我們采用K個最近鄰居KNN(K-NearestNeighbor,簡稱KNN)算法作為分類算法。貝葉斯分類法假設(shè)文檔的每個功能之間是互相獨立的,很顯然這是不符合事實的,在k個最近鄰居算法中沒有用這種假設(shè)。k個最近鄰居算法是一種基于案例的分析學(xué)習(xí)算法,利用它對文檔進行分類時,是以每個鄰居的相似度為權(quán)值的。當(dāng)預(yù)測某個文檔屬于某個類的概率時,它主要取決于K個最相似的文檔。該算法的基本思路是:在給定新文本后,考慮在訓(xùn)練文本集中與該新文本距離最近(最相似)的K篇文本,根據(jù)這K篇文本所屬的類別判定新文本所屬的類別,具體的算法步驟如下:(1)根據(jù)特征項集合重新描述訓(xùn)練文本向量。(2)在新文本到達后,根據(jù)特征詞分詞新文本,確定新文本的向量表示。(3)在訓(xùn)練文本集中選出與新文本最相似的K個文本。計算公式為:其中,K值的確定目前沒有很好的方法,一般采用先定一個初始值,然后根據(jù)實驗測試的結(jié)果調(diào)整K值。一般初始值定為幾百到幾千之間。(4)在新文本的K個鄰居中,依次計算每類的權(quán)重。計算公式如下:其中,為新文本的特征向量;Sim()為相似度計算公式,與上一步驟的計算公式相同;y(,ci)為類別屬性函數(shù),即如果屬于類Cj,函數(shù)值為1,否則為0。(5)比較類的權(quán)重,

人人文庫> 全部分類> 教育資料 > 作文作品

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

文本自動分類系統(tǒng)的研究

文檔簡介

溫馨提示

最新文檔

評論

文本自動分類系統(tǒng)的研究

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔