基于瑤湖論壇的關(guān)鍵字搜索的應(yīng)用與研究_第1頁
基于瑤湖論壇的關(guān)鍵字搜索的應(yīng)用與研究_第2頁
基于瑤湖論壇的關(guān)鍵字搜索的應(yīng)用與研究_第3頁
基于瑤湖論壇的關(guān)鍵字搜索的應(yīng)用與研究_第4頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于瑤湖論壇的關(guān)鍵字搜索的應(yīng)用與研究基于瑤湖論壇的關(guān)鍵字搜索的應(yīng)用與研究1.引言隨著科技的開展,計算機技術(shù)的應(yīng)用也越來越普及,中文分詞、文本分類,信息檢索等各項技術(shù)在各大搜索引擎公司都得到了很好的應(yīng)用,但是商業(yè)引擎的處理信息量大,處理文本的信息各種各樣,它們有很強的通用性,但對于特定的領(lǐng)域或者特定信息空間的處理確有很大的提升空間1。本文基于瑤湖論壇,根據(jù)論壇的特點,在文本的分詞、文本的向量模型表示、文本分類算法的選擇等方面都因地制宜的進展了改動,以期望到達更好的效果。2.文本的分詞與關(guān)鍵字權(quán)重的計算2.1文本內(nèi)容的選取提取計算帖子中關(guān)鍵字對帖子內(nèi)容而言所承載的信息量,和建立帖子空間向量模型的第

2、一步是對帖子文本內(nèi)容進展分詞。在文本內(nèi)容的選取上,充分考慮到論壇中帖子的語言表達方式基于學生生活用語,并且帖子的文本篇幅長度較短,同時對于帖子的回帖,其內(nèi)容較為固定和單一,帖子之間的區(qū)分度不高,噪聲較大。所以只將帖子的標題和帖子的內(nèi)容作為帖子的文本信息進展分詞。2.2分詞工具的選擇我們將IKAnalyzer作為分詞工具對獲得的文本信息進展處理,IKAnalyzer是一個開源的,基于java語言開發(fā)的輕量級的中文分詞工具包。從2022年12月推出1.0版開場,IKAnalyzer已經(jīng)推出了4個大版本。最初,它是以開源工程Luene為應(yīng)用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。從3.0版

3、本開場,IKAnalyzer開展為面向Java的公用分詞組件,獨立于Luene工程,同時提供了對Luene的默認優(yōu)化實現(xiàn)。在2022版本中,IKAnalyzer實現(xiàn)了簡單的分詞歧義排除算法,采用了特有的正向迭代最細粒度切分算法,支持細粒度和智能分詞兩種切分形式,詞典支持中文、英文、數(shù)字混合詞語。2.3關(guān)鍵字權(quán)重的計算查詢中每一個關(guān)鍵字的權(quán)本文由論文聯(lián)盟.LL.搜集整理重應(yīng)該反映這個詞對于查詢來講提供了多少信息,搜索關(guān)鍵字權(quán)重的科學度量是TF-IDF。其主要思想是:假如某個詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),那么認為此詞或者短語具有很好的類別區(qū)分才能,合適用來分類。T

4、F-IDF實際上是:TFIDF,TF詞頻TerFrequeny,IDF逆向文件頻率InverseDuentFrequeny。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF的主要思想是:假如包含詞條t的文檔越少,也就是n越小,IDF越大,那么說明詞條t具有很好的類別區(qū)分才能。一篇帖子中關(guān)鍵字的權(quán)重公式如公式1所示。1其中|D|為語料庫中的文件總數(shù),表示包含詞語ti的文件數(shù)目即的文件數(shù)目假如該詞語不在語料庫中,就會導致被除數(shù)為零,因此一般情況下使用都會加上1。并且由于文本長度的不同進展了歸一化處理。2.4分詞與關(guān)鍵字權(quán)重中的人工干預由于中文特殊的語言語境形式,雖然中文分詞已經(jīng)獲得很大的開展,但是但無論按

5、照人的智力標準,還是同實用的需要相比擬,差距還很大。為了彌補機器分詞的缺乏,我們先將文本內(nèi)容進展分詞并計算出每個詞語的IDF值,將IDF值大于一定閾值的設(shè)為關(guān)鍵字,存入關(guān)鍵字表,將IDF值小于一定閾值的設(shè)為停頓詞,這些詞大局部是沒有意義的虛詞。并且提供了可以通過的導入關(guān)鍵字詞典和停頓詞典及修改詞典的方式來輔助分詞器在分詞時判斷哪些詞可以作為關(guān)鍵字,并且將停頓詞典中的詞語作為無意義的詞而忽略掉。其后臺處理界面如圖1所示。圖1后臺處理界面3.文本向量空間模型的建立與分類3.1文本向量空間模型的建立最常用的文本表示模型是G.Saltn在1975年提出的向量空間模型VetrSpaedel,其根本思想是

6、把文本d看作向量空間中的一個n維向量1,2,3.n,其中1,2,.n為表示該文本的n個特征所對應(yīng)的權(quán)重,一般取為詞頻的函數(shù)。文本分類的第一步是對文本集進展基于詞典的分詞處理。由于通用的的詞典收錄詞條數(shù)共有116921,假如把每個帖子表示成一個116921維的向量,由于帖子文本內(nèi)容較少且語言較為生活化,所以很多詞語都不會在帖子中出現(xiàn),導致生成的向量極為稀疏,浪費的存儲空間,影響了分類時的計算效率和分類精度,所以要進展文本的特征選擇2。常用的文本特征選擇的方法有很多,如信息增益、期望穿插熵、互信息、文檔頻率3,其核心都是基于信息論,根本思想都是對每一個特征中文詞,計算某種統(tǒng)計度量值,然后設(shè)定一個閾

7、值T,把度量值小于T的那些特征過濾掉,剩下的即認為是有效特征。我們第二小節(jié)已經(jīng)做了相關(guān)的工作4,通過設(shè)置停頓詞典的方式,在分詞時忽略了很多沒有意義的虛詞,有效的降低了文本向量的維度。將帖子文本的結(jié)果按照關(guān)鍵字=tfidf值的形式表示成空間向量存入SQLServer數(shù)據(jù)庫中。局部數(shù)據(jù)如圖2所示。圖2帖子的向量空間模型的存儲3.2帖子文本的聚類將主題內(nèi)容相似的帖子分成一類,實現(xiàn)上認為同一類的帖子含有的一樣的關(guān)鍵字就較多。以此思想對帖子進展分類。帖子的相似度就表示為兩個帖子的余弦值,既有:2圖3帖子之間的余弦值通過對論壇的一定帖子之間余弦值的計算和前期人工類別的核實發(fā)現(xiàn)當閾值大于0.18時,帖子之間

8、表現(xiàn)出了一定的相關(guān)性。局部數(shù)據(jù)如圖3所示。文本分類是事先定義好類別,類別數(shù)不變。分類器需要由人工標注的分類訓練語料訓練得到,由于論壇中帖子的文本內(nèi)容隨意且文本長度較短,單一類型的特征向量難以確定,類別數(shù)也不好判斷,所以我們使用聚類的方法來處理,將比擬相似的文章或文本信息歸為同一組。文本的聚類算法采用K-eans算法,是很典型的基于間隔 的聚類算法,采用間隔 作為相似性的評價指標,即認為兩個對象的間隔 越近,其相似度就越大5。算法過程如下:1從n個數(shù)據(jù)對象任意選擇k個對象作為初始聚類中心。2根據(jù)每個聚類對象的均值中心對象,計算每個對象與這些中心對象的間隔 ;并根據(jù)最小間隔 重新對相應(yīng)對象進展劃分。3重新計算每個有變化聚類的均值中心對象。4循環(huán)2到3直到每個聚類不再發(fā)生變化為止。根據(jù)上面的理論根底,在NetBeans平臺下用java實現(xiàn)了該系統(tǒng)的的相關(guān)功能,界面截圖如圖4所示。圖4關(guān)鍵字搜索界面4.完畢語本文的應(yīng)用是基于特定的論壇,在系統(tǒng)施行的每個方面如文本的分詞、關(guān)鍵字權(quán)重的計

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論