ir講義20132分析處理_第1頁
ir講義20132分析處理_第2頁
ir講義20132分析處理_第3頁
ir講義20132分析處理_第4頁
ir講義20132分析處理_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

分析處理檢索系統(tǒng)的一般模式網(wǎng)頁互聯(lián)網(wǎng)匹配檢索結(jié)果用戶需求網(wǎng)頁采集分析處理建立索引索引庫格式分析與轉(zhuǎn)換編碼分析與轉(zhuǎn)換詞匯分析與處理結(jié)構(gòu)分析(文本分割)類別分析(文本分類)分析處理格式分析與轉(zhuǎn)換編碼分析與轉(zhuǎn)換詞匯分析與處理結(jié)構(gòu)分析(文本分割)類別分析(文本分類)格式分析與轉(zhuǎn)換輸入:HTML,WORD,PDF,PS……目標:轉(zhuǎn)換為純文本HTML: HTML2TXTPDF: XPDFPS: Ps2TxtWORD: CatDoc……編碼分析與轉(zhuǎn)換中文GBBIG5Unicode詞匯分析與處理字符處理數(shù)字、連字符、標點符號、外文字母……詞匯處理StemingStopwords分詞詞性標注Steming性、數(shù)、格獲得原形查表法后綴法軟件實現(xiàn)2:詞形還原輸入任意一個英文單詞輸出該單詞的原形要求盡量全面還原數(shù)、格等變形1人完成Stopwordsa,an,the,…of,to,…and,or,…的、地、得了、著、過tobeornottobeX分詞西文Mr.LiI’dbetter…中文我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道分詞對中文搜索引擎的影響Google6/20“瑞星以技術(shù)和服務(wù)開拓網(wǎng)絡(luò)安全市場”“陳慧琳《心口不一》化妝和服裝自己包辦”百度14/20“商品和服務(wù)實行明碼標價”“青島東和服裝設(shè)備”中搜20/20搜索引擎結(jié)果中的錯誤,是由于分詞的不準確造成的。中文分詞的準確度,對搜索引擎結(jié)果相關(guān)性和準確性有相當大的影響。無關(guān)網(wǎng)頁從哪里來?互聯(lián)網(wǎng)匹配瑞星以技術(shù)和服務(wù)開拓網(wǎng)絡(luò)安全市場用戶需求網(wǎng)頁采集分析處理建立索引索引庫檢索結(jié)果索引策略……技術(shù)和服務(wù)……按字技術(shù)和服務(wù)按二元語法技術(shù)術(shù)和和服服務(wù)按詞技術(shù)和服務(wù)中文分詞分詞是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程瑞星以技術(shù)和服務(wù)開拓網(wǎng)絡(luò)安全市場瑞星/

以/

技術(shù)/

和/

服務(wù)/

開拓/

網(wǎng)絡(luò)安全/

市場中文分詞與其他分詞不同英文中單詞之間是以空格作為自然分界符中文只是字、句、段有明顯的分界符詞沒有一個形式上分界符從字串到詞串,是一個降低不確定性的過程。正向最大匹配法信息檢索課程是三個學時?!n程……信息檢索……學科學時學問……分詞詞表正向最大匹配的問題最大詞長詞長過短,長詞就會被切錯詞長過長,效率就比較低分詞歧義瑞星/以/技術(shù)/和服/務(wù)/開拓/網(wǎng)絡(luò)安全/市場瑞星以技術(shù)和服務(wù)開拓網(wǎng)絡(luò)安全市場分詞歧義發(fā)現(xiàn)問題雙向最大匹配分析問題歧義字段的類型與特點解決問題歧義字段庫詞性我為人民工作。統(tǒng)計技術(shù)和服務(wù)……歧義字段的鏈長鏈長:交集型歧義字段中含有交集字段的個數(shù),

稱為鏈長。鏈長為1:從小學鏈長為2:市民政局鏈長為3:為人民工作鏈長為4:結(jié)合成分子時鏈長為6:努力學習語法規(guī)則軟件實現(xiàn)3:長鏈歧義字段獲取輸入1998年1月人民日報電子版輸出歧義字段按鏈長降序排列,前100個要求:1人完成分詞歧義發(fā)現(xiàn)問題雙向最大匹配分析問題歧義字段的類型與特點解決問題歧義字段庫詞性我為人民工作。統(tǒng)計技術(shù)和服務(wù)……歧義字段庫……市民政局 1300為人民工作 12020結(jié)合成分子時 201201技術(shù)和服務(wù) 20120……軟件實現(xiàn)4:歧義字段規(guī)則庫獲取輸入1998年1月人民日報電子版輸出歧義字段規(guī)則庫要求:1人完成最大概率分詞S:有意見分歧W1:有/意見/分歧/P(W1|S)W2:有意/見/分歧/P(W2|S)單詞概率…………有0.0180有意0.0005意見0.0010見0.0002分歧0.0001…………P(W1)=P(有)*P(意見)*P(分歧)=1.8×10-9P(W2)=P(有意)*P(見)*P(分歧)=1×10-11P(W1)>P(W2)軟件實現(xiàn)5:漢語分詞系統(tǒng)輸入任意一段文本可能包含中文標點、西文標點、阿拉伯數(shù)字、西文字符輸出分詞結(jié)果詞之間用“/”分隔要求雙向最大匹配發(fā)現(xiàn)歧義片斷利用歧義片斷庫解決分詞歧義未解決的用最大概率分詞可3人完成國內(nèi)中文分詞水平863評測軟件實現(xiàn)6:人名識別要求閱讀資料,開發(fā)一個人名識別器從給定語料庫中獲取人名1人完成軟件實現(xiàn)7:人名讀音分析要求獲取1000個人名得到這些人名的漢語拼音驗證“起名時,不傾向使用需區(qū)分平翹舌的字”的假設(shè)1人完成準確率、召回率、F值準確率Precision結(jié)果中的正確樣例數(shù)與結(jié)果中全部樣例總數(shù)的比值召回率Recall結(jié)果中的正確樣例數(shù)與實際存在的正確樣例數(shù)的比值F值準確率和召回率的加權(quán)平均一般用F1準確率、召回率、F值準確率Precision結(jié)果中的正確樣例數(shù)與結(jié)果中全部樣例總數(shù)的比值召回率Recall結(jié)果中的正確樣例數(shù)與實際存在的正確樣例數(shù)的比值在分詞性能的度量時:Precision

=

切分正確的詞數(shù)/系統(tǒng)切分出的詞數(shù)Recall

=

切分正確的詞數(shù)/標準答案的詞數(shù)準確率、召回率、F值在分詞性能的度量時:Precision

=

切分正確的詞數(shù)/系統(tǒng)切分出的詞數(shù)Recall

=

切分正確的詞數(shù)/標準答案的詞數(shù)舉例某分詞系統(tǒng)的切分結(jié)果瑞/星/以/技術(shù)/和服/務(wù)/開拓/市場標準答案瑞星/以/技術(shù)/和/服務(wù)/開拓/市場準確率、召回率、F值準確率Precision結(jié)果中的正確樣例數(shù)與結(jié)果中全部樣例總數(shù)的比值召回率Recall結(jié)果中的正確樣例數(shù)與實際存在的正確樣例數(shù)的比值在作為搜索引擎性能的度量時:Precision

=

搜索到的相關(guān)文檔數(shù)/搜索到的全部文檔數(shù)Recall

=搜索到的相關(guān)文檔數(shù)/網(wǎng)上全部相關(guān)文檔數(shù)準確率、召回率、F值在作為搜索引擎性能的度量時:Precision

=

搜索到的相關(guān)文檔數(shù)/搜索到的全部文檔數(shù)Recall

=搜索到的相關(guān)文檔數(shù)/網(wǎng)上全部相關(guān)文檔數(shù)舉例:利用某搜索引擎搜索“和服”搜索引擎返回100個結(jié)果,其中有78個與和服相關(guān)互聯(lián)網(wǎng)上共有10000個與和服相關(guān)的網(wǎng)頁SIGHAN詞匯分析與處理字符處理數(shù)字、連字符、標點符號、外文字母……詞匯處理StemingStopwords分詞詞性標注詞性標注我明天去北京我/r明天/nt去/v北京/ns兼類我設(shè)計的是個程序我的設(shè)計是個程序漢語兼類詞統(tǒng)計詹衛(wèi)東摘自《現(xiàn)代漢語語法信息詞典》1997年版兼類數(shù)兼類詞數(shù)百分比例詞及詞性標記530.01%和:c-n-p-q-v4200.04%光:a-d-n-v31260.23%畫:n-q-v214752.67%鎖:n-v合計16242.94%總詞數(shù):55191和huò<量>用于時間,相當于“會兒”[moment]看一和用于洗東西或煎中藥換水,相當于“次”、“道”[time]衣裳已洗四和光<動>發(fā)揚光大英語兼類詞統(tǒng)計(BrownCorpus)兼類數(shù)兼類詞數(shù)71625124613264237602~74100135340如何標注詞性?套用一個合適的模型,剩下的問題交給數(shù)學家解決隱馬爾可夫模型(HMM)馬爾可夫模型馬爾可夫模型tiX1X2X3X4X5X6X7X8X9X10thetitip有限視野:X6的值僅與前一個(X5)有關(guān)無限視野:X6的值僅與前面所有的有關(guān)馬爾可夫模型tiX1X2X3X4X5X6X7X8X9X10thetitip時間不變性:任何時候t后面出現(xiàn)i的概率都相等非確定性有限狀態(tài)自動機非確定性有限狀態(tài)自動機副詞冠詞動詞數(shù)詞形容詞名詞隱馬爾可夫模型副詞冠詞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論