找工作那些事-by面試_第1頁
找工作那些事-by面試_第2頁
找工作那些事-by面試_第3頁
找工作那些事-by面試_第4頁
找工作那些事-by面試_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterResearchonRelatenessComputingbetweenChineseWordsandbetweenShortTextsbasedonWikipedia GaoFei Prof.ChenZhiqun性和使用說明性本人鄭重:所呈交的,是本人在導師的指導下,獨立進行研究工作所取得的成果。除文中已經(jīng)注明的內(nèi)容外,本不含任何其他個人或集體已經(jīng)或撰寫過的作品或成果對本文的研究做出重要貢獻的個人和集申請與資料若有不實之處,本人承擔一切相關(guān)責任作者簽名 日期:年月使用說本人完全了解杭州電子科技大學關(guān)于保留和使用的規(guī)定,即:研究生在校攻讀期間工作的知識單位屬杭州電子科技大學本人保證畢業(yè)離校后,或使用工作成果時署位仍然為杭州電子科技大學。學校保留送交的復(fù)印件,允許查閱和借閱;學??梢缘娜炕虿糠謨?nèi)容,可以允許采用影印、縮印或其它保存(在后遵守此規(guī)定)年月日年月日Withthecontinuousdevelopmentofnetworkinformationtechnology,textasanimportantcarrierofinformationthenemergeinalargeamount,sotheautomaticprocessingoftext eanimportantfieldofinformationprocessing.Wordsandtextcorrelationcomputingastextinformationprocessingoftheimportantbasicresearchsubject,moreandmorebeconcernedbydomesticandforeignresearchers,whichalsoplaysacriticalroleinmanyNaturalLanguageProcessing(NLP)applications,suchasinformationretrieval,textclassification,wordsensedisambiguation,machinetranslation.InordertoimprovetherelativeNLPtechnology,theresearchofwordsandtextrelatednesscomputingisofgreatworth.Onsemanticrelatednesscomputing,thisprpresentsthewordsrelatednesscomputingbasedonChineseWikipediaclassificationsystemandlinks.Mostoftraditionalstudies,themainmethodisbasedontheHowNet.ThispruseWikipedsemanticresources.Fromtheclassificationlevel,theexplanationlinksoftheconceptandthewordrelatednessofcomprehensiveysis,andcombiningwiththevectorspacemodelandSimilarityofinformationretrievaltechnology,thisprconstructacorrespondingclassificationgraphandsemanticvectorofrelatedwordstowordrelatednesscomputing.Semanticcorrelationofwordscanbeusedforthecalculationofthecorrelationbetweenthetext,especiallyforshorttext.Shorttextasakindoftext,ithastheuniquecharacteristicsofthelanguage,ashorttextusuallyareveryshort,soithasverysparsesamplecharacteristic,anditisdifficulttoaccurayextractthelanguagefeatures.Thisprconsideringthestructureoftheshorttext,andaccordingtothevalueofwordsrelatedness,presentstheumsequencealgorithmanddynamicweightalgorithm.OnWikipedia,thisprextractthelinks,classificationsystem,andredirectlinkssemanticresourcesetc.ExperimentusingthetestsetWordSimilarity-353andtheheadlinesshorttextcorpus,testthewordsrelatednessalgorithmandshorttextrelatednessalgorithm.Theexperimentalresultsshowthatthealgorithmshasacertainfeasibleandeffective.Finally,asummarizationonthemainworkispresented.Theunsolvedproblemsinwordandshorttextrelatednesscomputingarealsoyzedandconsideredasourfutureresearchwork.Keywords:classificationgraph,semanticvetor,dynamicweight,Wikipedia,NaturalLanguageProcessing,correlation 第一章緒 課題研究背景與意 課題研究現(xiàn)狀及發(fā)展趨 本文的研究內(nèi) 本文的組 第二章相關(guān)工作及研究進 2.1百科簡 2.2百科在自然語言處理中的應(yīng) 詞語及文本相關(guān)度計算研究現(xiàn) 詞語相關(guān)度計算方 文本相關(guān)度計算方 基于百科的相關(guān)度計算方 相關(guān)度評測標 本章小 第三章基于中文百科分類體系和文檔的詞語相關(guān)度計 基于分類體系的相關(guān)度計 最短路徑 深度路徑 基于文檔的相關(guān)度計 3.2.1向量 3.2.2距離 分類圖與文檔相結(jié)合的相關(guān)度計 3.3.1分類向 語義向量的構(gòu) 測試實例及其分 本章小 第四章基于百科的短文本相關(guān)度計 傳統(tǒng)相似度計算方 最大序列算 相關(guān)度特征矩 最大匹配組合選 動態(tài)權(quán)值算 動態(tài)組塊概 權(quán)重動態(tài)分 測試實例及其分 本章小 第五章實驗及性能評 實驗環(huán) 中文百科語義資源整 中文百科的內(nèi)容結(jié) 語料與結(jié)構(gòu)化整 百科分類和結(jié)構(gòu)的抽 詞語相關(guān)度計算實 Spearman等級相關(guān)系 詞語相關(guān)度結(jié) 實驗分 短文本相關(guān)度計算實 短文本測試 最大序列方法計 動態(tài)權(quán)值方法計 實驗分 本章小 第六章總結(jié)與工作展 本文的主要研究工作及成 存在的問題及對將來工作的展 致 參考文 附 第一章課題研究背景與意一個信息化的社會,即使在聲音、、圖像等信息數(shù)據(jù)大量增尤其在計算機網(wǎng)絡(luò)不斷普及的今天,文本信息更是呈現(xiàn)出式的增長,而在這個信息網(wǎng)絡(luò)所擁有的巨大的數(shù)據(jù)流中,大約有80%的數(shù)據(jù)以非結(jié)構(gòu)化文本的形式存在著[1]。近些年,尤其是網(wǎng)絡(luò)上大量短文本的出現(xiàn),如、即時、標題、博客評論、跟帖、通過網(wǎng)絡(luò)轉(zhuǎn)發(fā)機消息等,成為了新起的文成為當前信息處理領(lǐng)域迫切的需求。文本信息自動處理可以應(yīng)用在很多領(lǐng)域,如機器翻譯、自動、信息檢索、文檔分類、信息過濾、問答系統(tǒng)等。特征,單條短文本長度一般都非常短(如每條限140字,微軟MSN消息允許400個字符,因此樣本特征非常稀疏,很難準確抽取有效的語言特征,難以充分挖掘與利用特征之間的關(guān)聯(lián)性。因此詞語和短文本相關(guān)度計算是非常具有性課題研究現(xiàn)狀及發(fā)展趨長期以來,由于一些性的原因,在中文信息處理領(lǐng)域,研究者在應(yīng)用相相似的概念之所以總是被,是因為它們的概念本身既存在著聯(lián)系又存在著區(qū)“度,可以用這兩個詞語在同一個語境現(xiàn)的可能性來衡量。與此同時,兩個語關(guān)的詞經(jīng)常是“講師、課堂、”等;另一方面,兩個相關(guān)的詞往往不一定具目前,已有很多方法可以進行詞語與詞語之間相關(guān)性的計算,如路徑的計算方法、信息量計算方法、特征計算方法、網(wǎng)絡(luò)的計算方法等。這些方法都是利用34方法中,詞語之間相關(guān)性的計算依賴于人工構(gòu)建的具有一定邏輯結(jié)構(gòu)的知識庫詞典主要包括英文的ordNet5]領(lǐng)域的6以及中文《知網(wǎng)(t)[7]和《同義詞詞林》[8]等。這些知識庫詞典在詞語之間的相關(guān)性計算中被廣泛的2010應(yīng)用以上兩種資源來進行相關(guān)性的計算很難達到一定的覆蓋度。應(yīng)用網(wǎng)絡(luò)資源的詞語相關(guān)度計算,雖然可以達到一定的覆蓋度,但是由于網(wǎng)絡(luò)信息的復(fù)雜性以及可利用性等因素的影響,計算結(jié)果也很難令人滿意。產(chǎn)生很大的影響。應(yīng)用詞典進行的詞語相關(guān)度計算中,由于人工構(gòu)建等因素的影響,很難達到一定的覆蓋度。近些年,國外很多研究把百科融入到自然語言處理中,取得了很好的效果,百科由于其自身作為百科知識庫的特點,它的豐富程度以及覆蓋度可以將其充分利用到自然語言處理諸多領(lǐng)域中。相似比相關(guān)相似比相關(guān)判原始文式化表式化表原始文1.11.1系進行深入的思考,目前絕大多數(shù)的文本相關(guān)性計算方法都要借助相似性的比較因此在強調(diào)文本之間關(guān)聯(lián)程度而非相似程度的比較中難以取得很好的計算效果。例如,對于兩個短文本“電腦走進了農(nóng)村孩子的課堂,老師第一次使用PT本片段做出錯誤的判斷,因為它無法挖掘和利用文本中所蘊含的語義信息。在對文本的形式化表示時,從文本的語義層面出發(fā),盡可能挖掘出表達該文本涵義的特息尤其對于特征值較少的短文本1.2本文的研究內(nèi)文采用外部知識源百科(Wikipedia)[9]來進行相關(guān)度計算。本文主要研究和探討了基于百科的詞語以及短文本相關(guān)度計算方法,本課題重點開展以下幾位和語義單元,詞語之間的相關(guān)度計算是研究詞語相互關(guān)系的內(nèi)容之一。本文將中文百科作為語義資源,利用其分類層次、概念文檔之間的來計算漢語詞語之間的相關(guān)度,在借鑒空間向量模型[43]和谷歌相似度(Similarity短文本相關(guān)度計算方法:是本課題研究的重點之一,本文主要面詞語相關(guān)度計算的基礎(chǔ)上,將它應(yīng)用到短文本相關(guān)度計算中來。提出了最大序列算法和以及基于組塊的思想,提出動態(tài)權(quán)值方法來計算短文本相關(guān)度。中文百科數(shù)據(jù)整理:百科是目前最豐富的百科知識庫,具有動態(tài)性和及時性。百科提供的頁面文檔以及文檔之間的豐富,還有編輯者編輯的分類層次、重定向頁面、消歧頁面,利用這些結(jié)構(gòu)可以反映很強的語義關(guān)聯(lián)關(guān)系文通過中文百科提供的L文檔經(jīng)過繁簡體轉(zhuǎn)化抽取能夠表達語義關(guān)聯(lián)關(guān)系的文檔信息、分類層次信息、重定向條目等資源,分別以數(shù)據(jù)庫和文本文件的形式。本文的組第一章緒論:簡單介紹了本課題的研究背景、意義、現(xiàn)狀、內(nèi)容等,并同時介紹了本的研究內(nèi)容及各章節(jié)的安排。第二章相關(guān)工作及研究進展:首先介紹了百科以及它的文檔和分類組織形式。其次介紹了百科在自然語言處理中的應(yīng)用。最后主要介紹了國內(nèi)外關(guān)于詞語以及短文本相關(guān)度計算方法、應(yīng)用百科在相關(guān)度計算的常用方法以第三章基于中文百科分類和文檔的詞語相關(guān)度計算:根據(jù)百科的結(jié)構(gòu),分別從百科的分類層次和文檔層次以及兩者結(jié)合出發(fā),首先借鑒傳統(tǒng)的應(yīng)用于詞典中相關(guān)度計算方法,利用百科分類體系,實現(xiàn)了最短路徑方法和深度的路徑方法。其次根據(jù)百科文檔體系,構(gòu)建向量以及利用距離來分別進行相關(guān)度的計算。最后通過百科分類和文,構(gòu)建分類向量以及相關(guān)語義向量來分別進行詞語相關(guān)度的計算。第四章基于百科的短文本相關(guān)度計算:針對傳統(tǒng)方法應(yīng)用于短文本相關(guān)度計算中的不足,主要利用基于百科的詞語相關(guān)度計算結(jié)果,提出了通過 實驗及性能評價:首先整理面向語義的百科語料資源。其次在對詞語相關(guān)度評測方面,利用WordSimilarity-353[48]測試集進行各種方法的相關(guān)度計算,并采用Spearman等級相關(guān)系數(shù)[49]來分析和評價。最后在對短文本相關(guān)度評 自然語言處理中,研究者利用不同的挖掘技術(shù)應(yīng)用百科取得了豐碩的成果。近些年已有不少研究者利用百科進行語義上的相關(guān)度計算,并取得了一定的成果。本章對百科以及百科在自然語言處理中的應(yīng)用做了簡單介紹,接著重點介紹了詞語和短文本相關(guān)度計算的一些方法,引出利用百科作為語義2.1百科簡Wiki技術(shù),Wiki系統(tǒng)是一種有效的協(xié)作式知識編輯工具,這意味著任何人都可以編輯百科中的任何文章及條目。百2.1隨著百科的快速成長,它吸引了越來越多的編輯者參與更新和,2.1圖2.1百科覆蓋了廣泛領(lǐng)百科是目前最大的免費的知識庫。由于百科是采用wiki技術(shù)構(gòu)建的,用戶可以非常容易地實時去編輯,因此使 百科作為一個百科知識,覆蓋范圍廣由圖2.1可以看出百科幾乎覆蓋了各個領(lǐng)域方方面面的知,準確度高:Giles[10],百科在準確度上很接近百科全書Encyclopedia現(xiàn),而傳統(tǒng)的辭典構(gòu)建的最大就在于很難覆蓋新的術(shù)語。然而百科可以結(jié)構(gòu)化強:百科具有多樣的數(shù)據(jù)結(jié)構(gòu)。百科中每個條目都有一個唯一的URI作為的資源標識符,所以每個文檔頁面的URI可以有效的解決一詞題。百科除了非結(jié)構(gòu)化的文本之外,它還包括一些比較重要的密集的結(jié)構(gòu)化數(shù)據(jù)。如結(jié)構(gòu)、層次化的分類等結(jié)構(gòu)化數(shù)據(jù)。圖2.2展示了一個基本的維圖2.2百科基本的文檔元以上這些特點使得百科可以做為一個非常豐富的語義數(shù)據(jù)資源,應(yīng)用到自然語言處理中。百科擁有數(shù)百萬的百科全書解釋頁面頁面分自然科文歷哲會科人文的基本組成單元,而且百科按照概念分類和語義關(guān)系建立了分類索引,在解釋頁面之間添加了豐富的表達語義關(guān)系的。百科每篇文檔描述一頁面分自然科文歷哲會科人文世世界數(shù)函概抽形而上思物理化圖2.3百科分類層次示百科解釋頁面之間的超級反映了概念之間的關(guān)系(如圖2.4除了這些概念解釋文檔和分類,百科百科包含了重定向頁面來表示詞語之間布布宜諾斯利世界足先阿根守門馬拉多足世紀最入齊達2006界界外圖2.4百科文檔體系示2.2百科在自然語言處理中的應(yīng)在自然語言處理的相關(guān)研究和應(yīng)用中,百科資源可以被用來作為一個大規(guī)模的語料庫,同時也可以作為一個包含了世界知識的語義資源,而且在一定程度上可與人工構(gòu)建的語料庫或語義詞典相媲美從百科的結(jié)構(gòu)和功能上出發(fā)Zesch1]等和e12]等分別分析了百科作為語義知識資源的可行性。rube等從 百科的分類體系出發(fā),通過構(gòu)建分類圖來計算語義相關(guān)度,并且證明了的飛速發(fā)展,百科不斷得到完善,越來越多的研究者將百科應(yīng)用到自然詞義消歧:雖然計算機不能夠全面的理解自然語言,但是通過各種方法區(qū)分詞語的確切含義(詞義消歧)還是相對比較容易的。文本中詞義的消歧任務(wù)一般由于語義詞典中通常定義了詞語釋義以及解釋或者關(guān)聯(lián)關(guān)系,所以可以為區(qū)分不同的釋義提供幫助?;诎倏瓶梢赃M行有效的歧義消解,因為百科包含了專門的消歧義頁面,消歧義頁面中對一詞多義的概念進行區(qū)分描述,然后通過消歧釋頁面中人工標記的指向正確的消歧義項。angu等13通過百科的消歧釋頁面生成每個義項的文檔向量,分別與根據(jù)詞的上下文生成的文檔向量,利用向量方法計算文檔相似度來進行選擇消歧義項。命名實體識別:百科中由于包含著大量的人名、地名、組織名稱等概念以及它們的解釋文檔,因此百科被認為是可用的、最大名實體資源。大上是無法與百科相比的。同時隨著百科的不斷更新,很多重要人物、地理位置、事件以及等都會不斷被更新擴充。將百科應(yīng)用到命名實體識別、詞義消歧等自然語言處理的相關(guān)研究和應(yīng)用中有著巨大的優(yōu)勢。Cucerzan等[24]從百科的文檔標題、重定向頁面、消歧義頁面、詞語等位140萬個命名實體。語義擴展:在信息檢索領(lǐng)域中,大多是基于進行檢索,怎樣描基于語義信息的檢索還有很大。在檢索詞擴展等方面百科可以達到很好的效果,因為百科的優(yōu)勢在于它有著大規(guī)模的可擴展的覆蓋以及反映語義關(guān)聯(lián)關(guān)系的文檔Milne等[18]根據(jù)百科的文檔間的關(guān)系將某個概念的所有擴展的提供給檢索引擎,實現(xiàn)檢索的語義擴展。文本分類:百科中包含了上百萬的解釋頁面文本語料資源,可有效的用背景知識。傳統(tǒng)的文本分類方法一般都是通過獲取文檔中的高頻詞語,然后將對應(yīng)文檔轉(zhuǎn)化為一個法無法考慮文檔中具有很強語義關(guān)系的同義詞、近義詞等。Gabrilovich和Markovitch提出了明確語義分析(ESA)[20]方法,利用百科在文本分類中進 和( 大量編輯者提供更新以及完善,從而保證了比較高的度。Buscaldi和Rosso等在他們實現(xiàn)的問答系統(tǒng)QUASAR[22]中,從不同種類的問題出發(fā),然后利用詞語及文本相關(guān)度計算研究現(xiàn)離)的計算。詞語距離是一個[0)0。對于待比較的兩個詞語wawbSim(wawb,其詞語距離為)

其中是一個可調(diào)節(jié)的參數(shù)。這種轉(zhuǎn)換關(guān)系并不是唯一的,在這里也只是給 len(LSOw,w Sim(w,w)log a

len(wa)len(wb)aLSOw,w表示詞語wa和wbaLeacock和Chodorow等[26]詞語相關(guān)度計算方法中采用一種深度Sim(w,w)

2depth(w)其中depth(wWordNet基于信息量的計算方法,是利用詞典(WordNet等)(InformationContent)作為特征參數(shù)的一種相關(guān)度計算方法。此種方法最早由Resnik等[27]這種方法利用兩個詞語wa和wb在詞典中的最小公共父節(jié)點的

最小父節(jié)點的信息量代表了詞語wa和wbIC多,表示兩個詞語之間的相關(guān)度就越大,反之信息量IC越少,兩個詞語之間的相vec(wa)vec(wb)vec(wa)vec(wb基于統(tǒng)計特征的相關(guān)度計算方法,是建立在構(gòu)建相關(guān)詞向量的相關(guān)度計算基礎(chǔ)之上的。通常都是在大規(guī)模語料中統(tǒng)vec(wa)vec(wb)vec(wa)vec(wb

(w,w)

其中vec(w)度的大小。對于兩個詞語wa和wb,在搜索引擎中分別以wa和wb、wa、wb作為搜在詞語的相關(guān)度計算方法中,充分利用各種資源來進行計算可以達到一定的效果,單純采用其中法很難達到預(yù)期的效果。楊冬青教授31基于統(tǒng)計分析詞語相關(guān)度計算方法中,不僅從統(tǒng)計的角度出發(fā),而且考慮詞語之間的距離。作者認為一段話中同時出現(xiàn)的單詞才有一定相關(guān)意義的存在,并且它們之間基于這樣的考慮,建立詞語相關(guān)度的算法如下:ForDiForSjSim(w,w)Sim(w,w)21/Dis2(w,w wx,wySjwx其中Dis(wx,wy)表示兩個詞語之間有幾個單詞的間隔。該算法中,為了更加2再加上新值,詞語共現(xiàn)模型32]是基于統(tǒng)計方法的自然語言處理研究領(lǐng)域的重要模型之一。根據(jù)詞語共現(xiàn)模型,如果幾個詞語經(jīng)常在同一單元窗口同出現(xiàn),那么它們在一定程度上可以表達該文本的語義信息,這是因為作者一般傾向于通過在不同句子中重復(fù)那些詞語來強調(diào)文本。因此,通過詞語共現(xiàn)概念與集共同組“護士都是且在同一窗口單元中出現(xiàn)的次數(shù)教多(手術(shù)醫(yī)生、護士)為該文檔的一組詞語共現(xiàn),由此可推斷這是一篇關(guān)于醫(yī)生做手術(shù)的文章。在信息檢索領(lǐng)域中,這種方法經(jīng)常被使用。一般信息檢索系統(tǒng)中,通常需要(ordist,n維向量來表示,最后通過文檔向量和查詢向量的相關(guān)度來檢索出相關(guān)文檔。共同的詞語,甚至沒有共現(xiàn)詞語。如“蘋果公司剛發(fā)布了5”和“ipad2的目前在基于語料庫的相關(guān)度計算方法里面最具代表性的就是LatentSemanticysis(LSA)[34]方法和 是一 線性相關(guān)模型,它認為文本中詞語與詞語之間存在某種潛在的語義Space異值分解(SVD。首先根據(jù)語料庫構(gòu)建矩陣A,接下來通過矩陣的奇異值分解把AA=U*S*VS是一個對角矩陣,它由奇S中的最小值來降低矩陣的維數(shù),最后根據(jù)已HALLSALSA方示,假設(shè)這個語義空間是nn的矩陣,那么某個詞語就可以用一個2n維的向量來LSA方法[33]。LiMcLean等[33]給出了一種綜合的短文本相關(guān)度計算方法。該方法基于詞WordNet,針對一些包含基于百科的相關(guān)度計算方(ordNet化信息,且在背景知識的覆蓋程度和語義關(guān)聯(lián)方面也不是很好。而像知網(wǎng)定的限制,很難覆蓋到足夠豐富的概念以及各種語義關(guān)聯(lián)關(guān)系。百科是目前最豐富的百科知識庫,近年來國外很多研究把百科融入到自然語言處理中,Zesch和Gurevyc[11]利用百科的文檔和分類體系分別構(gòu)建了文檔圖(ordNet這就意味著將百科的文檔及分類體系用作語義上的知識資源可以代替哪在語義相關(guān)度計算研究中,Strube和Ponzetto[12]是最早利用百科作為語義知識源的。他們將傳統(tǒng)上一些經(jīng)典的相關(guān)度計算方法與百科相結(jié)合,并且對比分析了百科和WordNet在語義相關(guān)度計算上的差別,也在不同的測試集上進行了實驗。實驗結(jié)果顯示百科在詞語覆蓋度大的測試集上的表現(xiàn)優(yōu)于在WordNet上進行的相關(guān)度結(jié)果,而在側(cè)重反映語義的測試集上表現(xiàn)較為遜色。維于百科解釋文檔實現(xiàn)對文檔向量進行語義擴展的法,可以實現(xiàn)對單個表示成一個特征的向量,通過計算詞語在文檔中的頻率以及在這個語料庫中的頻率來給每個詞語賦予權(quán)值,最后通過計算兩個文檔向量在空間中過機器學習的技術(shù)將詞語或者文本到一個百科相關(guān)概念序列,然后使用HassanMihalcea[37]提出了突出語義分析(SSA)ESA方法的一種改進該方法通過從百科中收集突出的概念以及概念的解釋文檔,N篇文N(PPNSim(w,w)

y

P2 y y來實現(xiàn)相關(guān)度的計算經(jīng)過試驗結(jié)果顯示SSA的方法要優(yōu)于基于文檔向量的ESA在短文本相關(guān)度計算方法中,Banerje和Ranathn等8等利用百科的解釋文檔進行短文本相關(guān)度的計算。該方法通過收集百科解釋文檔,然后Lucene3且只利用了百科中的解釋文檔。綜合利用百科中的語義結(jié)構(gòu)信息可以獲得更好的效果。目前國內(nèi)利用百科進行相關(guān)度計算的研究較少沒有形成一定的規(guī)模李赟等40根據(jù)百科的分類層次以及文檔體系構(gòu)建了分類圖和文檔圖,通過概念之間的路徑信息進行了概念之間的相關(guān)度計算。且作者通過挖掘百科文檔間相互的關(guān)系抽取了近40萬對語義相關(guān)詞,并計算了語義相關(guān)度,但是該方法處理比較麻煩,只是單純利用了文檔結(jié)構(gòu),沒有利用到百科類別信息。劉軍50]等利用百科的分類系層次,進行倒排索引,然后通過余弦形似度來計算兩個詞語的語義相關(guān)度。等41]從百科中抽取相關(guān)概念,并采用統(tǒng)計規(guī)律和類別信息想結(jié)合的方式來計算詞語之間的相關(guān)度。并且作者通過建立語義相關(guān)概念集合,對短文本向量進行擴展,來實現(xiàn)短文本之間的相關(guān)度計算。王錦51]等從百科中抽取概念的類別信息,然后利用這些類別信息來實現(xiàn)對文本特征的擴展,進而計算文本之間的相關(guān)度。這些方法都只是直接的利用百科中的分類或者文檔體系,并沒有進行深入挖掘百科中語義信息,比如解釋文檔中段落位置及分類層次中概念關(guān)系遞減等語義信息。的0.88~0.95。WordSimilarit-3342集是應(yīng)用最廣泛的一個,它包括353對英文詞對,每個詞對由13名-16名對它們的相關(guān)度進行打分,得分的平均值作為每個詞對的相關(guān)度。本文在評測詞語之間的語義相關(guān)度上采用該測試集。目前,在評測短文本之間的相關(guān)度上,沒有相關(guān)的測試集,本文通過從網(wǎng)絡(luò)上搜集相關(guān)的標題,并經(jīng)過人工整理進行分類來作為短文本測試集。本章小本章介紹了百科以及它的文檔和分類組織形式。其次介紹了百科在方法、應(yīng)用百科在相關(guān)度計算的常用方法以及一些相關(guān)度評測標準。為本文第三章基于中文百科分類體系和文檔的詞語相關(guān)用百科作為外部語義知識資源在詞語相關(guān)度計算中的優(yōu)勢,本章著眼于基于中文百科分類體系和文檔的詞語相關(guān)度計算方法的研究,提出了基于分類體系的相關(guān)度計文從中文百科分類體系中抽取分類關(guān)系來構(gòu)建了分類圖。由于百科的分的基于語義詞典的詞語相關(guān)度計算方法移植到應(yīng)用百科來計算相關(guān)度的方法12藝術(shù)體12藝術(shù)體無體體文人類社頁面分3453.1(概念.1概念“無聲“藝術(shù)體操”通過向上不斷遍歷,可以找到它們的最小公共父分類O,如“人類社會”是它們的公共分類節(jié)點?;谶@種思想,利用基百科采用最短路徑的方法來進行相關(guān)度的計算。對于待比較的兩個詞語wa和wb,在分類圖中定位其類別節(jié)點并進行廣度優(yōu)先遍歷,直到找到兩個類別的最近公共節(jié)點,遍歷路徑長度分別記為Len(wa)Len(wb)

len(wa)len(wb

log(len(wa)len(wb

其中l(wèi)og(len(walen(wb深度路徑 (w,w)Sim(w,w)

其中depth(wpub)depth(wa)depth(wb)分別為最近公共節(jié)點、兩個概念節(jié)點基于文檔的相關(guān)度計人。其中最為著名的應(yīng)用該模型的檢索系統(tǒng)是Smart系統(tǒng)[44]。下面是一些VSM模型的基本概念。(erm當檔的內(nèi)容被簡單地看作是它含有的基本語言單(字詞、詞組或者短語等)所組成的集合時,這些基本的語言單位統(tǒng)稱為項。因此文檔可以用項集(ermist)表示為1,2, ,n),其中n是項,且1kn。eight: ,Tn),項常常被賦予一定的權(quán)重

,表示它們在文檔中的重要程度,即 Tn,Wn),簡單記為DD(W1,W2 ,Wn),這時可以說項Tk權(quán)重為Wk,且1kn Tk在文檔中既可以重復(fù)出現(xiàn)又應(yīng)該有先后次序的關(guān)系分析起來仍有一定的難度。為了簡化分析,可以暫不考慮Tk在文檔中的先后順序并要求Tk互異(沒有重復(fù)。這時可以把T1,T2, ,Tn看成一個n維的坐標系,而W1,W2, ,Wn為相應(yīng)的坐標值,因而DD(W1,W2, ,Wn)可以被看成是n中的一個向量(如圖3.2中的D1,D2,因此可以稱D(W1,W2, ,Wn)為文檔D的向量表示。相似度(arity12之間的內(nèi)容相關(guān)程度(ofRelevan常常用它們之間的相似度(1,2)M,可以借助于向量之間的某種距離來表示文檔間的相關(guān)度,常用向量之間的內(nèi)積來計算,公式如下:nSim(D1,D2)w1knknnw1k 22k 22kk

3.2θ3.2文檔的向量空間模型(VSM)Sim(D1D2整個百科的結(jié)構(gòu)主要圍繞著概念的解釋文檔構(gòu)成的百科的每一個詞檔之間的關(guān)系可以充分反映兩個目標詞語的語義相關(guān)性。接關(guān)系中得到詞語文檔的條目,針對兩個詞語wa、wb,可以得到它們的文(3.6pageb[(w21,wt21),(w22,wt22)……(w2n,wt2n

其中w表示文檔中的條目,wt為此條目在該概念文檔里的頻率pageapageb,可以通過計算兩個向量的余弦相似度來獲得兩個詞語的相關(guān)度。本文稱這個方法為Simlinks,如下公式:w1k (w,w) ( w2w2kk

距離法谷歌距離[45]是一種基于搜索引擎[46]的詞語相關(guān)度衡量算法。該算法主distance借鑒距離計算方法,可設(shè)計任意兩個詞wa和wb的基于百科NGD(w,w)log(max(|Wa|,|Wb|)log(|Wa

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論