找工作那些事-by面試_第1頁(yè)
找工作那些事-by面試_第2頁(yè)
找工作那些事-by面試_第3頁(yè)
找工作那些事-by面試_第4頁(yè)
找工作那些事-by面試_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余57頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

DissertationSubmittedtoHangzhouDianziUniversityfortheDegreeofMasterResearchonRelatenessComputingbetweenChineseWordsandbetweenShortTextsbasedonWikipedia GaoFei Prof.ChenZhiqun性和使用說(shuō)明性本人鄭重:所呈交的,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。除文中已經(jīng)注明的內(nèi)容外,本不含任何其他個(gè)人或集體已經(jīng)或撰寫(xiě)過(guò)的作品或成果對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集申請(qǐng)與資料若有不實(shí)之處,本人承擔(dān)一切相關(guān)責(zé)任作者簽名 日期:年月使用說(shuō)本人完全了解杭州電子科技大學(xué)關(guān)于保留和使用的規(guī)定,即:研究生在校攻讀期間工作的知識(shí)單位屬杭州電子科技大學(xué)本人保證畢業(yè)離校后,或使用工作成果時(shí)署位仍然為杭州電子科技大學(xué)。學(xué)校保留送交的復(fù)印件,允許查閱和借閱;學(xué)??梢缘娜炕虿糠謨?nèi)容,可以允許采用影印、縮印或其它保存(在后遵守此規(guī)定)年月日年月日Withthecontinuousdevelopmentofnetworkinformationtechnology,textasanimportantcarrierofinformationthenemergeinalargeamount,sotheautomaticprocessingoftext eanimportantfieldofinformationprocessing.Wordsandtextcorrelationcomputingastextinformationprocessingoftheimportantbasicresearchsubject,moreandmorebeconcernedbydomesticandforeignresearchers,whichalsoplaysacriticalroleinmanyNaturalLanguageProcessing(NLP)applications,suchasinformationretrieval,textclassification,wordsensedisambiguation,machinetranslation.InordertoimprovetherelativeNLPtechnology,theresearchofwordsandtextrelatednesscomputingisofgreatworth.Onsemanticrelatednesscomputing,thisprpresentsthewordsrelatednesscomputingbasedonChineseWikipediaclassificationsystemandlinks.Mostoftraditionalstudies,themainmethodisbasedontheHowNet.ThispruseWikipedsemanticresources.Fromtheclassificationlevel,theexplanationlinksoftheconceptandthewordrelatednessofcomprehensiveysis,andcombiningwiththevectorspacemodelandSimilarityofinformationretrievaltechnology,thisprconstructacorrespondingclassificationgraphandsemanticvectorofrelatedwordstowordrelatednesscomputing.Semanticcorrelationofwordscanbeusedforthecalculationofthecorrelationbetweenthetext,especiallyforshorttext.Shorttextasakindoftext,ithastheuniquecharacteristicsofthelanguage,ashorttextusuallyareveryshort,soithasverysparsesamplecharacteristic,anditisdifficulttoaccurayextractthelanguagefeatures.Thisprconsideringthestructureoftheshorttext,andaccordingtothevalueofwordsrelatedness,presentstheumsequencealgorithmanddynamicweightalgorithm.OnWikipedia,thisprextractthelinks,classificationsystem,andredirectlinkssemanticresourcesetc.ExperimentusingthetestsetWordSimilarity-353andtheheadlinesshorttextcorpus,testthewordsrelatednessalgorithmandshorttextrelatednessalgorithm.Theexperimentalresultsshowthatthealgorithmshasacertainfeasibleandeffective.Finally,asummarizationonthemainworkispresented.Theunsolvedproblemsinwordandshorttextrelatednesscomputingarealsoyzedandconsideredasourfutureresearchwork.Keywords:classificationgraph,semanticvetor,dynamicweight,Wikipedia,NaturalLanguageProcessing,correlation 第一章緒 課題研究背景與意 課題研究現(xiàn)狀及發(fā)展趨 本文的研究?jī)?nèi) 本文的組 第二章相關(guān)工作及研究進(jìn) 2.1百科簡(jiǎn) 2.2百科在自然語(yǔ)言處理中的應(yīng) 詞語(yǔ)及文本相關(guān)度計(jì)算研究現(xiàn) 詞語(yǔ)相關(guān)度計(jì)算方 文本相關(guān)度計(jì)算方 基于百科的相關(guān)度計(jì)算方 相關(guān)度評(píng)測(cè)標(biāo) 本章小 第三章基于中文百科分類體系和文檔的詞語(yǔ)相關(guān)度計(jì) 基于分類體系的相關(guān)度計(jì) 最短路徑 深度路徑 基于文檔的相關(guān)度計(jì) 3.2.1向量 3.2.2距離 分類圖與文檔相結(jié)合的相關(guān)度計(jì) 3.3.1分類向 語(yǔ)義向量的構(gòu) 測(cè)試實(shí)例及其分 本章小 第四章基于百科的短文本相關(guān)度計(jì) 傳統(tǒng)相似度計(jì)算方 最大序列算 相關(guān)度特征矩 最大匹配組合選 動(dòng)態(tài)權(quán)值算 動(dòng)態(tài)組塊概 權(quán)重動(dòng)態(tài)分 測(cè)試實(shí)例及其分 本章小 第五章實(shí)驗(yàn)及性能評(píng) 實(shí)驗(yàn)環(huán) 中文百科語(yǔ)義資源整 中文百科的內(nèi)容結(jié) 語(yǔ)料與結(jié)構(gòu)化整 百科分類和結(jié)構(gòu)的抽 詞語(yǔ)相關(guān)度計(jì)算實(shí) Spearman等級(jí)相關(guān)系 詞語(yǔ)相關(guān)度結(jié) 實(shí)驗(yàn)分 短文本相關(guān)度計(jì)算實(shí) 短文本測(cè)試 最大序列方法計(jì) 動(dòng)態(tài)權(quán)值方法計(jì) 實(shí)驗(yàn)分 本章小 第六章總結(jié)與工作展 本文的主要研究工作及成 存在的問(wèn)題及對(duì)將來(lái)工作的展 致 參考文 附 第一章課題研究背景與意一個(gè)信息化的社會(huì),即使在聲音、、圖像等信息數(shù)據(jù)大量增尤其在計(jì)算機(jī)網(wǎng)絡(luò)不斷普及的今天,文本信息更是呈現(xiàn)出式的增長(zhǎng),而在這個(gè)信息網(wǎng)絡(luò)所擁有的巨大的數(shù)據(jù)流中,大約有80%的數(shù)據(jù)以非結(jié)構(gòu)化文本的形式存在著[1]。近些年,尤其是網(wǎng)絡(luò)上大量短文本的出現(xiàn),如、即時(shí)、標(biāo)題、博客評(píng)論、跟帖、通過(guò)網(wǎng)絡(luò)轉(zhuǎn)發(fā)機(jī)消息等,成為了新起的文成為當(dāng)前信息處理領(lǐng)域迫切的需求。文本信息自動(dòng)處理可以應(yīng)用在很多領(lǐng)域,如機(jī)器翻譯、自動(dòng)、信息檢索、文檔分類、信息過(guò)濾、問(wèn)答系統(tǒng)等。特征,單條短文本長(zhǎng)度一般都非常短(如每條限140字,微軟MSN消息允許400個(gè)字符,因此樣本特征非常稀疏,很難準(zhǔn)確抽取有效的語(yǔ)言特征,難以充分挖掘與利用特征之間的關(guān)聯(lián)性。因此詞語(yǔ)和短文本相關(guān)度計(jì)算是非常具有性課題研究現(xiàn)狀及發(fā)展趨長(zhǎng)期以來(lái),由于一些性的原因,在中文信息處理領(lǐng)域,研究者在應(yīng)用相相似的概念之所以總是被,是因?yàn)樗鼈兊母拍畋旧砑却嬖谥?lián)系又存在著區(qū)“度,可以用這兩個(gè)詞語(yǔ)在同一個(gè)語(yǔ)境現(xiàn)的可能性來(lái)衡量。與此同時(shí),兩個(gè)語(yǔ)關(guān)的詞經(jīng)常是“講師、課堂、”等;另一方面,兩個(gè)相關(guān)的詞往往不一定具目前,已有很多方法可以進(jìn)行詞語(yǔ)與詞語(yǔ)之間相關(guān)性的計(jì)算,如路徑的計(jì)算方法、信息量計(jì)算方法、特征計(jì)算方法、網(wǎng)絡(luò)的計(jì)算方法等。這些方法都是利用34方法中,詞語(yǔ)之間相關(guān)性的計(jì)算依賴于人工構(gòu)建的具有一定邏輯結(jié)構(gòu)的知識(shí)庫(kù)詞典主要包括英文的ordNet5]領(lǐng)域的6以及中文《知網(wǎng)(t)[7]和《同義詞詞林》[8]等。這些知識(shí)庫(kù)詞典在詞語(yǔ)之間的相關(guān)性計(jì)算中被廣泛的2010應(yīng)用以上兩種資源來(lái)進(jìn)行相關(guān)性的計(jì)算很難達(dá)到一定的覆蓋度。應(yīng)用網(wǎng)絡(luò)資源的詞語(yǔ)相關(guān)度計(jì)算,雖然可以達(dá)到一定的覆蓋度,但是由于網(wǎng)絡(luò)信息的復(fù)雜性以及可利用性等因素的影響,計(jì)算結(jié)果也很難令人滿意。產(chǎn)生很大的影響。應(yīng)用詞典進(jìn)行的詞語(yǔ)相關(guān)度計(jì)算中,由于人工構(gòu)建等因素的影響,很難達(dá)到一定的覆蓋度。近些年,國(guó)外很多研究把百科融入到自然語(yǔ)言處理中,取得了很好的效果,百科由于其自身作為百科知識(shí)庫(kù)的特點(diǎn),它的豐富程度以及覆蓋度可以將其充分利用到自然語(yǔ)言處理諸多領(lǐng)域中。相似比相關(guān)相似比相關(guān)判原始文式化表式化表原始文1.11.1系進(jìn)行深入的思考,目前絕大多數(shù)的文本相關(guān)性計(jì)算方法都要借助相似性的比較因此在強(qiáng)調(diào)文本之間關(guān)聯(lián)程度而非相似程度的比較中難以取得很好的計(jì)算效果。例如,對(duì)于兩個(gè)短文本“電腦走進(jìn)了農(nóng)村孩子的課堂,老師第一次使用PT本片段做出錯(cuò)誤的判斷,因?yàn)樗鼰o(wú)法挖掘和利用文本中所蘊(yùn)含的語(yǔ)義信息。在對(duì)文本的形式化表示時(shí),從文本的語(yǔ)義層面出發(fā),盡可能挖掘出表達(dá)該文本涵義的特息尤其對(duì)于特征值較少的短文本1.2本文的研究?jī)?nèi)文采用外部知識(shí)源百科(Wikipedia)[9]來(lái)進(jìn)行相關(guān)度計(jì)算。本文主要研究和探討了基于百科的詞語(yǔ)以及短文本相關(guān)度計(jì)算方法,本課題重點(diǎn)開(kāi)展以下幾位和語(yǔ)義單元,詞語(yǔ)之間的相關(guān)度計(jì)算是研究詞語(yǔ)相互關(guān)系的內(nèi)容之一。本文將中文百科作為語(yǔ)義資源,利用其分類層次、概念文檔之間的來(lái)計(jì)算漢語(yǔ)詞語(yǔ)之間的相關(guān)度,在借鑒空間向量模型[43]和谷歌相似度(Similarity短文本相關(guān)度計(jì)算方法:是本課題研究的重點(diǎn)之一,本文主要面詞語(yǔ)相關(guān)度計(jì)算的基礎(chǔ)上,將它應(yīng)用到短文本相關(guān)度計(jì)算中來(lái)。提出了最大序列算法和以及基于組塊的思想,提出動(dòng)態(tài)權(quán)值方法來(lái)計(jì)算短文本相關(guān)度。中文百科數(shù)據(jù)整理:百科是目前最豐富的百科知識(shí)庫(kù),具有動(dòng)態(tài)性和及時(shí)性。百科提供的頁(yè)面文檔以及文檔之間的豐富,還有編輯者編輯的分類層次、重定向頁(yè)面、消歧頁(yè)面,利用這些結(jié)構(gòu)可以反映很強(qiáng)的語(yǔ)義關(guān)聯(lián)關(guān)系文通過(guò)中文百科提供的L文檔經(jīng)過(guò)繁簡(jiǎn)體轉(zhuǎn)化抽取能夠表達(dá)語(yǔ)義關(guān)聯(lián)關(guān)系的文檔信息、分類層次信息、重定向條目等資源,分別以數(shù)據(jù)庫(kù)和文本文件的形式。本文的組第一章緒論:簡(jiǎn)單介紹了本課題的研究背景、意義、現(xiàn)狀、內(nèi)容等,并同時(shí)介紹了本的研究?jī)?nèi)容及各章節(jié)的安排。第二章相關(guān)工作及研究進(jìn)展:首先介紹了百科以及它的文檔和分類組織形式。其次介紹了百科在自然語(yǔ)言處理中的應(yīng)用。最后主要介紹了國(guó)內(nèi)外關(guān)于詞語(yǔ)以及短文本相關(guān)度計(jì)算方法、應(yīng)用百科在相關(guān)度計(jì)算的常用方法以第三章基于中文百科分類和文檔的詞語(yǔ)相關(guān)度計(jì)算:根據(jù)百科的結(jié)構(gòu),分別從百科的分類層次和文檔層次以及兩者結(jié)合出發(fā),首先借鑒傳統(tǒng)的應(yīng)用于詞典中相關(guān)度計(jì)算方法,利用百科分類體系,實(shí)現(xiàn)了最短路徑方法和深度的路徑方法。其次根據(jù)百科文檔體系,構(gòu)建向量以及利用距離來(lái)分別進(jìn)行相關(guān)度的計(jì)算。最后通過(guò)百科分類和文,構(gòu)建分類向量以及相關(guān)語(yǔ)義向量來(lái)分別進(jìn)行詞語(yǔ)相關(guān)度的計(jì)算。第四章基于百科的短文本相關(guān)度計(jì)算:針對(duì)傳統(tǒng)方法應(yīng)用于短文本相關(guān)度計(jì)算中的不足,主要利用基于百科的詞語(yǔ)相關(guān)度計(jì)算結(jié)果,提出了通過(guò) 實(shí)驗(yàn)及性能評(píng)價(jià):首先整理面向語(yǔ)義的百科語(yǔ)料資源。其次在對(duì)詞語(yǔ)相關(guān)度評(píng)測(cè)方面,利用WordSimilarity-353[48]測(cè)試集進(jìn)行各種方法的相關(guān)度計(jì)算,并采用Spearman等級(jí)相關(guān)系數(shù)[49]來(lái)分析和評(píng)價(jià)。最后在對(duì)短文本相關(guān)度評(píng) 自然語(yǔ)言處理中,研究者利用不同的挖掘技術(shù)應(yīng)用百科取得了豐碩的成果。近些年已有不少研究者利用百科進(jìn)行語(yǔ)義上的相關(guān)度計(jì)算,并取得了一定的成果。本章對(duì)百科以及百科在自然語(yǔ)言處理中的應(yīng)用做了簡(jiǎn)單介紹,接著重點(diǎn)介紹了詞語(yǔ)和短文本相關(guān)度計(jì)算的一些方法,引出利用百科作為語(yǔ)義2.1百科簡(jiǎn)Wiki技術(shù),Wiki系統(tǒng)是一種有效的協(xié)作式知識(shí)編輯工具,這意味著任何人都可以編輯百科中的任何文章及條目。百2.1隨著百科的快速成長(zhǎng),它吸引了越來(lái)越多的編輯者參與更新和,2.1圖2.1百科覆蓋了廣泛領(lǐng)百科是目前最大的免費(fèi)的知識(shí)庫(kù)。由于百科是采用wiki技術(shù)構(gòu)建的,用戶可以非常容易地實(shí)時(shí)去編輯,因此使 百科作為一個(gè)百科知識(shí),覆蓋范圍廣由圖2.1可以看出百科幾乎覆蓋了各個(gè)領(lǐng)域方方面面的知,準(zhǔn)確度高:Giles[10],百科在準(zhǔn)確度上很接近百科全書(shū)Encyclopedia現(xiàn),而傳統(tǒng)的辭典構(gòu)建的最大就在于很難覆蓋新的術(shù)語(yǔ)。然而百科可以結(jié)構(gòu)化強(qiáng):百科具有多樣的數(shù)據(jù)結(jié)構(gòu)。百科中每個(gè)條目都有一個(gè)唯一的URI作為的資源標(biāo)識(shí)符,所以每個(gè)文檔頁(yè)面的URI可以有效的解決一詞題。百科除了非結(jié)構(gòu)化的文本之外,它還包括一些比較重要的密集的結(jié)構(gòu)化數(shù)據(jù)。如結(jié)構(gòu)、層次化的分類等結(jié)構(gòu)化數(shù)據(jù)。圖2.2展示了一個(gè)基本的維圖2.2百科基本的文檔元以上這些特點(diǎn)使得百科可以做為一個(gè)非常豐富的語(yǔ)義數(shù)據(jù)資源,應(yīng)用到自然語(yǔ)言處理中。百科擁有數(shù)百萬(wàn)的百科全書(shū)解釋頁(yè)面頁(yè)面分自然科文歷哲會(huì)科人文的基本組成單元,而且百科按照概念分類和語(yǔ)義關(guān)系建立了分類索引,在解釋頁(yè)面之間添加了豐富的表達(dá)語(yǔ)義關(guān)系的。百科每篇文檔描述一頁(yè)面分自然科文歷哲會(huì)科人文世世界數(shù)函概抽形而上思物理化圖2.3百科分類層次示百科解釋頁(yè)面之間的超級(jí)反映了概念之間的關(guān)系(如圖2.4除了這些概念解釋文檔和分類,百科百科包含了重定向頁(yè)面來(lái)表示詞語(yǔ)之間布布宜諾斯利世界足先阿根守門(mén)馬拉多足世紀(jì)最入齊達(dá)2006界界外圖2.4百科文檔體系示2.2百科在自然語(yǔ)言處理中的應(yīng)在自然語(yǔ)言處理的相關(guān)研究和應(yīng)用中,百科資源可以被用來(lái)作為一個(gè)大規(guī)模的語(yǔ)料庫(kù),同時(shí)也可以作為一個(gè)包含了世界知識(shí)的語(yǔ)義資源,而且在一定程度上可與人工構(gòu)建的語(yǔ)料庫(kù)或語(yǔ)義詞典相媲美從百科的結(jié)構(gòu)和功能上出發(fā)Zesch1]等和e12]等分別分析了百科作為語(yǔ)義知識(shí)資源的可行性。rube等從 百科的分類體系出發(fā),通過(guò)構(gòu)建分類圖來(lái)計(jì)算語(yǔ)義相關(guān)度,并且證明了的飛速發(fā)展,百科不斷得到完善,越來(lái)越多的研究者將百科應(yīng)用到自然詞義消歧:雖然計(jì)算機(jī)不能夠全面的理解自然語(yǔ)言,但是通過(guò)各種方法區(qū)分詞語(yǔ)的確切含義(詞義消歧)還是相對(duì)比較容易的。文本中詞義的消歧任務(wù)一般由于語(yǔ)義詞典中通常定義了詞語(yǔ)釋義以及解釋或者關(guān)聯(lián)關(guān)系,所以可以為區(qū)分不同的釋義提供幫助?;诎倏瓶梢赃M(jìn)行有效的歧義消解,因?yàn)榘倏瓢藢iT(mén)的消歧義頁(yè)面,消歧義頁(yè)面中對(duì)一詞多義的概念進(jìn)行區(qū)分描述,然后通過(guò)消歧釋頁(yè)面中人工標(biāo)記的指向正確的消歧義項(xiàng)。angu等13通過(guò)百科的消歧釋頁(yè)面生成每個(gè)義項(xiàng)的文檔向量,分別與根據(jù)詞的上下文生成的文檔向量,利用向量方法計(jì)算文檔相似度來(lái)進(jìn)行選擇消歧義項(xiàng)。命名實(shí)體識(shí)別:百科中由于包含著大量的人名、地名、組織名稱等概念以及它們的解釋文檔,因此百科被認(rèn)為是可用的、最大名實(shí)體資源。大上是無(wú)法與百科相比的。同時(shí)隨著百科的不斷更新,很多重要人物、地理位置、事件以及等都會(huì)不斷被更新擴(kuò)充。將百科應(yīng)用到命名實(shí)體識(shí)別、詞義消歧等自然語(yǔ)言處理的相關(guān)研究和應(yīng)用中有著巨大的優(yōu)勢(shì)。Cucerzan等[24]從百科的文檔標(biāo)題、重定向頁(yè)面、消歧義頁(yè)面、詞語(yǔ)等位140萬(wàn)個(gè)命名實(shí)體。語(yǔ)義擴(kuò)展:在信息檢索領(lǐng)域中,大多是基于進(jìn)行檢索,怎樣描基于語(yǔ)義信息的檢索還有很大。在檢索詞擴(kuò)展等方面百科可以達(dá)到很好的效果,因?yàn)榘倏频膬?yōu)勢(shì)在于它有著大規(guī)模的可擴(kuò)展的覆蓋以及反映語(yǔ)義關(guān)聯(lián)關(guān)系的文檔Milne等[18]根據(jù)百科的文檔間的關(guān)系將某個(gè)概念的所有擴(kuò)展的提供給檢索引擎,實(shí)現(xiàn)檢索的語(yǔ)義擴(kuò)展。文本分類:百科中包含了上百萬(wàn)的解釋頁(yè)面文本語(yǔ)料資源,可有效的用背景知識(shí)。傳統(tǒng)的文本分類方法一般都是通過(guò)獲取文檔中的高頻詞語(yǔ),然后將對(duì)應(yīng)文檔轉(zhuǎn)化為一個(gè)法無(wú)法考慮文檔中具有很強(qiáng)語(yǔ)義關(guān)系的同義詞、近義詞等。Gabrilovich和Markovitch提出了明確語(yǔ)義分析(ESA)[20]方法,利用百科在文本分類中進(jìn) 和( 大量編輯者提供更新以及完善,從而保證了比較高的度。Buscaldi和Rosso等在他們實(shí)現(xiàn)的問(wèn)答系統(tǒng)QUASAR[22]中,從不同種類的問(wèn)題出發(fā),然后利用詞語(yǔ)及文本相關(guān)度計(jì)算研究現(xiàn)離)的計(jì)算。詞語(yǔ)距離是一個(gè)[0)0。對(duì)于待比較的兩個(gè)詞語(yǔ)wawbSim(wawb,其詞語(yǔ)距離為)

其中是一個(gè)可調(diào)節(jié)的參數(shù)。這種轉(zhuǎn)換關(guān)系并不是唯一的,在這里也只是給 len(LSOw,w Sim(w,w)log a

len(wa)len(wb)aLSOw,w表示詞語(yǔ)wa和wbaLeacock和Chodorow等[26]詞語(yǔ)相關(guān)度計(jì)算方法中采用一種深度Sim(w,w)

2depth(w)其中depth(wWordNet基于信息量的計(jì)算方法,是利用詞典(WordNet等)(InformationContent)作為特征參數(shù)的一種相關(guān)度計(jì)算方法。此種方法最早由Resnik等[27]這種方法利用兩個(gè)詞語(yǔ)wa和wb在詞典中的最小公共父節(jié)點(diǎn)的

最小父節(jié)點(diǎn)的信息量代表了詞語(yǔ)wa和wbIC多,表示兩個(gè)詞語(yǔ)之間的相關(guān)度就越大,反之信息量IC越少,兩個(gè)詞語(yǔ)之間的相vec(wa)vec(wb)vec(wa)vec(wb基于統(tǒng)計(jì)特征的相關(guān)度計(jì)算方法,是建立在構(gòu)建相關(guān)詞向量的相關(guān)度計(jì)算基礎(chǔ)之上的。通常都是在大規(guī)模語(yǔ)料中統(tǒng)vec(wa)vec(wb)vec(wa)vec(wb

(w,w)

其中vec(w)度的大小。對(duì)于兩個(gè)詞語(yǔ)wa和wb,在搜索引擎中分別以wa和wb、wa、wb作為搜在詞語(yǔ)的相關(guān)度計(jì)算方法中,充分利用各種資源來(lái)進(jìn)行計(jì)算可以達(dá)到一定的效果,單純采用其中法很難達(dá)到預(yù)期的效果。楊冬青教授31基于統(tǒng)計(jì)分析詞語(yǔ)相關(guān)度計(jì)算方法中,不僅從統(tǒng)計(jì)的角度出發(fā),而且考慮詞語(yǔ)之間的距離。作者認(rèn)為一段話中同時(shí)出現(xiàn)的單詞才有一定相關(guān)意義的存在,并且它們之間基于這樣的考慮,建立詞語(yǔ)相關(guān)度的算法如下:ForDiForSjSim(w,w)Sim(w,w)21/Dis2(w,w wx,wySjwx其中Dis(wx,wy)表示兩個(gè)詞語(yǔ)之間有幾個(gè)單詞的間隔。該算法中,為了更加2再加上新值,詞語(yǔ)共現(xiàn)模型32]是基于統(tǒng)計(jì)方法的自然語(yǔ)言處理研究領(lǐng)域的重要模型之一。根據(jù)詞語(yǔ)共現(xiàn)模型,如果幾個(gè)詞語(yǔ)經(jīng)常在同一單元窗口同出現(xiàn),那么它們?cè)谝欢ǔ潭壬峡梢员磉_(dá)該文本的語(yǔ)義信息,這是因?yàn)樽髡咭话銉A向于通過(guò)在不同句子中重復(fù)那些詞語(yǔ)來(lái)強(qiáng)調(diào)文本。因此,通過(guò)詞語(yǔ)共現(xiàn)概念與集共同組“護(hù)士都是且在同一窗口單元中出現(xiàn)的次數(shù)教多(手術(shù)醫(yī)生、護(hù)士)為該文檔的一組詞語(yǔ)共現(xiàn),由此可推斷這是一篇關(guān)于醫(yī)生做手術(shù)的文章。在信息檢索領(lǐng)域中,這種方法經(jīng)常被使用。一般信息檢索系統(tǒng)中,通常需要(ordist,n維向量來(lái)表示,最后通過(guò)文檔向量和查詢向量的相關(guān)度來(lái)檢索出相關(guān)文檔。共同的詞語(yǔ),甚至沒(méi)有共現(xiàn)詞語(yǔ)。如“蘋(píng)果公司剛發(fā)布了5”和“ipad2的目前在基于語(yǔ)料庫(kù)的相關(guān)度計(jì)算方法里面最具代表性的就是LatentSemanticysis(LSA)[34]方法和 是一 線性相關(guān)模型,它認(rèn)為文本中詞語(yǔ)與詞語(yǔ)之間存在某種潛在的語(yǔ)義Space異值分解(SVD。首先根據(jù)語(yǔ)料庫(kù)構(gòu)建矩陣A,接下來(lái)通過(guò)矩陣的奇異值分解把AA=U*S*VS是一個(gè)對(duì)角矩陣,它由奇S中的最小值來(lái)降低矩陣的維數(shù),最后根據(jù)已HALLSALSA方示,假設(shè)這個(gè)語(yǔ)義空間是nn的矩陣,那么某個(gè)詞語(yǔ)就可以用一個(gè)2n維的向量來(lái)LSA方法[33]。LiMcLean等[33]給出了一種綜合的短文本相關(guān)度計(jì)算方法。該方法基于詞WordNet,針對(duì)一些包含基于百科的相關(guān)度計(jì)算方(ordNet化信息,且在背景知識(shí)的覆蓋程度和語(yǔ)義關(guān)聯(lián)方面也不是很好。而像知網(wǎng)定的限制,很難覆蓋到足夠豐富的概念以及各種語(yǔ)義關(guān)聯(lián)關(guān)系。百科是目前最豐富的百科知識(shí)庫(kù),近年來(lái)國(guó)外很多研究把百科融入到自然語(yǔ)言處理中,Zesch和Gurevyc[11]利用百科的文檔和分類體系分別構(gòu)建了文檔圖(ordNet這就意味著將百科的文檔及分類體系用作語(yǔ)義上的知識(shí)資源可以代替哪在語(yǔ)義相關(guān)度計(jì)算研究中,Strube和Ponzetto[12]是最早利用百科作為語(yǔ)義知識(shí)源的。他們將傳統(tǒng)上一些經(jīng)典的相關(guān)度計(jì)算方法與百科相結(jié)合,并且對(duì)比分析了百科和WordNet在語(yǔ)義相關(guān)度計(jì)算上的差別,也在不同的測(cè)試集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示百科在詞語(yǔ)覆蓋度大的測(cè)試集上的表現(xiàn)優(yōu)于在WordNet上進(jìn)行的相關(guān)度結(jié)果,而在側(cè)重反映語(yǔ)義的測(cè)試集上表現(xiàn)較為遜色。維于百科解釋文檔實(shí)現(xiàn)對(duì)文檔向量進(jìn)行語(yǔ)義擴(kuò)展的法,可以實(shí)現(xiàn)對(duì)單個(gè)表示成一個(gè)特征的向量,通過(guò)計(jì)算詞語(yǔ)在文檔中的頻率以及在這個(gè)語(yǔ)料庫(kù)中的頻率來(lái)給每個(gè)詞語(yǔ)賦予權(quán)值,最后通過(guò)計(jì)算兩個(gè)文檔向量在空間中過(guò)機(jī)器學(xué)習(xí)的技術(shù)將詞語(yǔ)或者文本到一個(gè)百科相關(guān)概念序列,然后使用HassanMihalcea[37]提出了突出語(yǔ)義分析(SSA)ESA方法的一種改進(jìn)該方法通過(guò)從百科中收集突出的概念以及概念的解釋文檔,N篇文N(PPNSim(w,w)

y

P2 y y來(lái)實(shí)現(xiàn)相關(guān)度的計(jì)算經(jīng)過(guò)試驗(yàn)結(jié)果顯示SSA的方法要優(yōu)于基于文檔向量的ESA在短文本相關(guān)度計(jì)算方法中,Banerje和Ranathn等8等利用百科的解釋文檔進(jìn)行短文本相關(guān)度的計(jì)算。該方法通過(guò)收集百科解釋文檔,然后Lucene3且只利用了百科中的解釋文檔。綜合利用百科中的語(yǔ)義結(jié)構(gòu)信息可以獲得更好的效果。目前國(guó)內(nèi)利用百科進(jìn)行相關(guān)度計(jì)算的研究較少?zèng)]有形成一定的規(guī)模李赟等40根據(jù)百科的分類層次以及文檔體系構(gòu)建了分類圖和文檔圖,通過(guò)概念之間的路徑信息進(jìn)行了概念之間的相關(guān)度計(jì)算。且作者通過(guò)挖掘百科文檔間相互的關(guān)系抽取了近40萬(wàn)對(duì)語(yǔ)義相關(guān)詞,并計(jì)算了語(yǔ)義相關(guān)度,但是該方法處理比較麻煩,只是單純利用了文檔結(jié)構(gòu),沒(méi)有利用到百科類別信息。劉軍50]等利用百科的分類系層次,進(jìn)行倒排索引,然后通過(guò)余弦形似度來(lái)計(jì)算兩個(gè)詞語(yǔ)的語(yǔ)義相關(guān)度。等41]從百科中抽取相關(guān)概念,并采用統(tǒng)計(jì)規(guī)律和類別信息想結(jié)合的方式來(lái)計(jì)算詞語(yǔ)之間的相關(guān)度。并且作者通過(guò)建立語(yǔ)義相關(guān)概念集合,對(duì)短文本向量進(jìn)行擴(kuò)展,來(lái)實(shí)現(xiàn)短文本之間的相關(guān)度計(jì)算。王錦51]等從百科中抽取概念的類別信息,然后利用這些類別信息來(lái)實(shí)現(xiàn)對(duì)文本特征的擴(kuò)展,進(jìn)而計(jì)算文本之間的相關(guān)度。這些方法都只是直接的利用百科中的分類或者文檔體系,并沒(méi)有進(jìn)行深入挖掘百科中語(yǔ)義信息,比如解釋文檔中段落位置及分類層次中概念關(guān)系遞減等語(yǔ)義信息。的0.88~0.95。WordSimilarit-3342集是應(yīng)用最廣泛的一個(gè),它包括353對(duì)英文詞對(duì),每個(gè)詞對(duì)由13名-16名對(duì)它們的相關(guān)度進(jìn)行打分,得分的平均值作為每個(gè)詞對(duì)的相關(guān)度。本文在評(píng)測(cè)詞語(yǔ)之間的語(yǔ)義相關(guān)度上采用該測(cè)試集。目前,在評(píng)測(cè)短文本之間的相關(guān)度上,沒(méi)有相關(guān)的測(cè)試集,本文通過(guò)從網(wǎng)絡(luò)上搜集相關(guān)的標(biāo)題,并經(jīng)過(guò)人工整理進(jìn)行分類來(lái)作為短文本測(cè)試集。本章小本章介紹了百科以及它的文檔和分類組織形式。其次介紹了百科在方法、應(yīng)用百科在相關(guān)度計(jì)算的常用方法以及一些相關(guān)度評(píng)測(cè)標(biāo)準(zhǔn)。為本文第三章基于中文百科分類體系和文檔的詞語(yǔ)相關(guān)用百科作為外部語(yǔ)義知識(shí)資源在詞語(yǔ)相關(guān)度計(jì)算中的優(yōu)勢(shì),本章著眼于基于中文百科分類體系和文檔的詞語(yǔ)相關(guān)度計(jì)算方法的研究,提出了基于分類體系的相關(guān)度計(jì)文從中文百科分類體系中抽取分類關(guān)系來(lái)構(gòu)建了分類圖。由于百科的分的基于語(yǔ)義詞典的詞語(yǔ)相關(guān)度計(jì)算方法移植到應(yīng)用百科來(lái)計(jì)算相關(guān)度的方法12藝術(shù)體12藝術(shù)體無(wú)體體文人類社頁(yè)面分3453.1(概念.1概念“無(wú)聲“藝術(shù)體操”通過(guò)向上不斷遍歷,可以找到它們的最小公共父分類O,如“人類社會(huì)”是它們的公共分類節(jié)點(diǎn)?;谶@種思想,利用基百科采用最短路徑的方法來(lái)進(jìn)行相關(guān)度的計(jì)算。對(duì)于待比較的兩個(gè)詞語(yǔ)wa和wb,在分類圖中定位其類別節(jié)點(diǎn)并進(jìn)行廣度優(yōu)先遍歷,直到找到兩個(gè)類別的最近公共節(jié)點(diǎn),遍歷路徑長(zhǎng)度分別記為L(zhǎng)en(wa)Len(wb)

len(wa)len(wb

log(len(wa)len(wb

其中l(wèi)og(len(walen(wb深度路徑 (w,w)Sim(w,w)

其中depth(wpub)depth(wa)depth(wb)分別為最近公共節(jié)點(diǎn)、兩個(gè)概念節(jié)點(diǎn)基于文檔的相關(guān)度計(jì)人。其中最為著名的應(yīng)用該模型的檢索系統(tǒng)是Smart系統(tǒng)[44]。下面是一些VSM模型的基本概念。(erm當(dāng)檔的內(nèi)容被簡(jiǎn)單地看作是它含有的基本語(yǔ)言單(字詞、詞組或者短語(yǔ)等)所組成的集合時(shí),這些基本的語(yǔ)言單位統(tǒng)稱為項(xiàng)。因此文檔可以用項(xiàng)集(ermist)表示為1,2, ,n),其中n是項(xiàng),且1kn。eight: ,Tn),項(xiàng)常常被賦予一定的權(quán)重

,表示它們?cè)谖臋n中的重要程度,即 Tn,Wn),簡(jiǎn)單記為DD(W1,W2 ,Wn),這時(shí)可以說(shuō)項(xiàng)Tk權(quán)重為Wk,且1kn Tk在文檔中既可以重復(fù)出現(xiàn)又應(yīng)該有先后次序的關(guān)系分析起來(lái)仍有一定的難度。為了簡(jiǎn)化分析,可以暫不考慮Tk在文檔中的先后順序并要求Tk互異(沒(méi)有重復(fù)。這時(shí)可以把T1,T2, ,Tn看成一個(gè)n維的坐標(biāo)系,而W1,W2, ,Wn為相應(yīng)的坐標(biāo)值,因而DD(W1,W2, ,Wn)可以被看成是n中的一個(gè)向量(如圖3.2中的D1,D2,因此可以稱D(W1,W2, ,Wn)為文檔D的向量表示。相似度(arity12之間的內(nèi)容相關(guān)程度(ofRelevan常常用它們之間的相似度(1,2)M,可以借助于向量之間的某種距離來(lái)表示文檔間的相關(guān)度,常用向量之間的內(nèi)積來(lái)計(jì)算,公式如下:nSim(D1,D2)w1knknnw1k 22k 22kk

3.2θ3.2文檔的向量空間模型(VSM)Sim(D1D2整個(gè)百科的結(jié)構(gòu)主要圍繞著概念的解釋文檔構(gòu)成的百科的每一個(gè)詞檔之間的關(guān)系可以充分反映兩個(gè)目標(biāo)詞語(yǔ)的語(yǔ)義相關(guān)性。接關(guān)系中得到詞語(yǔ)文檔的條目,針對(duì)兩個(gè)詞語(yǔ)wa、wb,可以得到它們的文(3.6pageb[(w21,wt21),(w22,wt22)……(w2n,wt2n

其中w表示文檔中的條目,wt為此條目在該概念文檔里的頻率pageapageb,可以通過(guò)計(jì)算兩個(gè)向量的余弦相似度來(lái)獲得兩個(gè)詞語(yǔ)的相關(guān)度。本文稱這個(gè)方法為Simlinks,如下公式:w1k (w,w) ( w2w2kk

距離法谷歌距離[45]是一種基于搜索引擎[46]的詞語(yǔ)相關(guān)度衡量算法。該算法主distance借鑒距離計(jì)算方法,可設(shè)計(jì)任意兩個(gè)詞wa和wb的基于百科NGD(w,w)log(max(|Wa|,|Wb|)log(|Wa

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論