復(fù)習(xí)第三章信息自動(dòng)處理技術(shù).doc_第1頁
復(fù)習(xí)第三章信息自動(dòng)處理技術(shù).doc_第2頁
復(fù)習(xí)第三章信息自動(dòng)處理技術(shù).doc_第3頁
復(fù)習(xí)第三章信息自動(dòng)處理技術(shù).doc_第4頁
復(fù)習(xí)第三章信息自動(dòng)處理技術(shù).doc_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第三章信息自動(dòng)處理技術(shù)本章主要內(nèi)容:?自動(dòng)標(biāo)引技術(shù) 西文白動(dòng)標(biāo)引 漢語自動(dòng)標(biāo)引?自動(dòng)分類技術(shù) 口動(dòng)聚類分類?自動(dòng)文摘技術(shù) 詞頻統(tǒng)計(jì)法一、自動(dòng)標(biāo)引技術(shù)?西文自動(dòng)標(biāo)引 抽取關(guān)鍵詞,詞匯轉(zhuǎn)換,詞頻統(tǒng)計(jì),確定標(biāo)引詞 ?漢語自動(dòng)分詞 詞典分詞,前后綴字分詞,語法語義分詞。 ?信息標(biāo)引lx 西文特點(diǎn):?jiǎn)卧~之間有空格;有為數(shù)不多的虛詞?標(biāo)引實(shí)現(xiàn)過程 建立停用詞典 文本中取詞 篩選關(guān) 鍵詞 確定標(biāo)引詞標(biāo)引源一蔡結(jié)標(biāo)WI識(shí)錄値用詞気數(shù)據(jù)源詢辛文或文摘分析處理環(huán)卡去除宙關(guān)遂詞詞將繞計(jì)視田喜將詞利用詞夷確宗標(biāo)WI詞我直爆詵逐關(guān)儺詞標(biāo)引環(huán)節(jié)uni2、簡(jiǎn)單例子?英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為

2、單位,句子中所有的字連起來才能描述一個(gè)意思。?例如,英文句子I am a student,用中文則為:我是一個(gè)學(xué)生計(jì)算機(jī)可以很簡(jiǎn)單通過空格知道student是一個(gè)單詞,但是不能很容易明白學(xué)”、生兩個(gè)字合起來才表示一個(gè)詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。我是一個(gè)學(xué)生,分詞的結(jié)果是:我 是一個(gè) 學(xué)生。中文是一種十分復(fù)雜 的語言,讓計(jì)算機(jī) 理解中文語言更是困難。3、漢語信息自動(dòng)標(biāo)引技術(shù)一難點(diǎn)?詞與詞之間無分隔標(biāo)記?字與字之間組詞靈活?從標(biāo)引角度分析,存在交集型字符串?虛詞繁多?新詞頻繁出現(xiàn)4、漢語信息的切分標(biāo)引?詞典法切分標(biāo)引 ?前后綴標(biāo)記切分標(biāo)引 ?單漢字標(biāo)引 ?

3、無詞典標(biāo)引 ?語義、語法分詞標(biāo)引5、案例 ?詞典分詞標(biāo)引 通過構(gòu)造一個(gè)機(jī)內(nèi)詞典(主題詞典、關(guān)鍵詞典、部件詞詞典等),并將其與被標(biāo)引 的 信息進(jìn)行匹配,當(dāng)從處理的信息中得到詞典詞匯時(shí),即把它作為后備標(biāo)引詞記載下來, 最后利 用西文成熟的標(biāo)引技術(shù)進(jìn)行標(biāo)引處理。?匹配方法 最長(zhǎng)匹配;最短匹配;兩者結(jié)合;詞首字匹配? 掃描方式 正向掃描;逆向掃描;正逆結(jié)合6、中外對(duì)比 在自然語言處理技術(shù)中,中文處理技術(shù)比西文處理技術(shù)要落后很大一段距離,許多西文的 處理 方法中文不能直接采用,就是因?yàn)橹形谋匦栌蟹衷~這道工序。中文分詞是其他中文信 息處理的 基礎(chǔ),搜索引擎只是中文分詞的一個(gè)應(yīng)用。其他的比如機(jī)器翻譯 ( M

4、T )、語音合 成、自動(dòng)分 類、自動(dòng)摘要、自動(dòng)校對(duì)等等,都需要用到分詞。因?yàn)橹形男枰衷~,可能會(huì) 影響一些研究, 但同時(shí)也為一些企業(yè)帶來機(jī)會(huì),因?yàn)閲獾挠?jì)算機(jī)處理技術(shù)要想進(jìn)入中國 市場(chǎng),首先也是要解 決中文分詞問題。7、案例描述“搜索引擎與中文自動(dòng)分詞?分詞準(zhǔn)確性對(duì)搜索引擎來說十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對(duì)于搜索引擎來說也是不可用的,因?yàn)樗阉饕嫘枰幚頂?shù)以億計(jì)的網(wǎng)頁,如果分詞 耗用的時(shí) 間過長(zhǎng),會(huì)嚴(yán)重影響搜索引擎內(nèi)容更新的速度。因此對(duì)于搜索引擎來說, 分詞的準(zhǔn)確性 和速度,二者都需要達(dá)到很高的要求。?對(duì)于搜索引擎來說,最重要的并不是找到所有結(jié)果,因?yàn)樵谏习賰|的網(wǎng)頁中找到所有

5、結(jié)果沒有太多的意義,沒有人能看得完,最重要的是把最相關(guān)的結(jié)果排在最前面 , 這也稱 為相關(guān)度排序。中文分詞的準(zhǔn)確與否,常常直接影響到對(duì)搜索結(jié)果的相關(guān)度 排序。、自動(dòng)分類技術(shù)隨著因特網(wǎng)的迅猛發(fā)展,使用因特網(wǎng)進(jìn)行內(nèi)容傳播大大加快了人們獲取信息的速度以 及信 息量,如果我們對(duì)這些信息不加以分類,很容易就陷入雜亂的信息海洋,反而可能無 法獲取我 們真正需要的信息了。對(duì)信息的分類,一個(gè)無法回避的問題就是網(wǎng)上信息量是如此的巨大,使用人工對(duì)其分類 , 不 可否認(rèn)有其準(zhǔn)確性高的優(yōu)勢(shì),但效率太低是其難以克服的難題。使用計(jì)算機(jī)對(duì)信息進(jìn)行 自動(dòng)分 類就有其重要意義,它能快速的對(duì)內(nèi)容文章分類,避免將人力資源投入到繁瑣

6、的, 大量的,重 復(fù)性的信息分類的工作中。1、 聚類與分類的區(qū)別?聚類:類別未知(關(guān)聯(lián)分析,相似聚類,密度聚類等) ?分類:類別已知(詞表分類,決策樹分類,基于訓(xùn)練集的分類等)2、 信息的相似測(cè)度方法信息的相似測(cè)度,大致可分為:? 1) 文獻(xiàn)的測(cè)度? 2) 圖形的測(cè)度? 3) 多媒體文件(如聲音)的測(cè)度相似不同于相等,相似的不確定性決定了該問題的復(fù)雜性,必然涉及到許多的數(shù)學(xué)問題 , 圖 像處理問題,人工智能領(lǐng)域,信息分類甚至對(duì)研究者的文科素養(yǎng)也有很高的要求,所以此 方面 過的成果寥寥,進(jìn)展緩慢也是可以理解的。然而這種測(cè)度的研究對(duì)實(shí)際應(yīng)用確實(shí)有很很大意義的,最重耍的是在信息分類,數(shù)據(jù)挖掘,信息檢

7、索等領(lǐng)域得到運(yùn)用。3、信息的測(cè)度等級(jí) ?信息的量化程度 TOC o 1-5 h z ?名義測(cè)度 (Nomiinal Measurement):? 低的一種測(cè)度,測(cè)度值只代表類型的編碼,如1代表“男”;2代表“女”;? 序次測(cè)度 (Ordinal Measurement): 信息的編碼不僅具有分類的作用,而且也存在量的關(guān)系,如半文盲文盲 =1;小學(xué)=2;初中二 3;高中 =4;大學(xué)二 5。從小到大表示文化 程度 的提高,但不能描述差異的大小。?間距測(cè)a (Interval Measurement):量化程度更高,它的取值不再是類的編碼,而是采用一定單位的實(shí)際測(cè)量值,測(cè)度等級(jí)之差與和均有實(shí)際意義,

8、但不能進(jìn)行乘法計(jì)算 , 因?yàn)?變量所収的 0 值不是物理意義上的絕對(duì) 0,比如攝氏溫度, 不能說 10度就是 5 度的 2倍關(guān) 系,因?yàn)閾Q算為 K 溫度后,這兩個(gè)溫度不再是 2 倍關(guān)系。? 比例測(cè)度 (Ratio Measuremen)t : 最高級(jí)別的測(cè)度等級(jí),除了具有間距等級(jí)的所有性 質(zhì) 外,而且 0值并非人為制定的。?測(cè)度等級(jí)越高,其所包含信息越多。4、信息相似距陣?相似測(cè)度向量測(cè)距法、簡(jiǎn)單乘積法、相對(duì)乘積法、最大最小系數(shù)法、余弦系數(shù)法、算術(shù)平均最 小法5、信息聚類對(duì)每對(duì)信息進(jìn)行相似度計(jì)算,根據(jù)所設(shè)定的相似度閾值,將信息聚類。聚類的方法主要有 單遍聚類逆中心距聚類自上而下精分法密度測(cè)試法

9、圖論分類法例單遍聚類 順序從待分類數(shù)據(jù)集中取一條信息,第一條信息被賦予一個(gè)新類,該信息的標(biāo)引詞向 量 為新類的聚類中心向量,以后取岀的各條信息與該類中心向量運(yùn)算得到相似系數(shù)。當(dāng)相似 系數(shù) 大于給定的一個(gè)閾值時(shí),該信息就歸入英類,同吋調(diào)整類中心向量。如果相似系數(shù)不在 所給定 的閾值范圍內(nèi),就以該信息為基礎(chǔ)產(chǎn)生一個(gè)新類,該信息標(biāo)引詞向量作為該類的中心 向量。對(duì) 于待處理的每一條信息,需依次與已有的類中心向量進(jìn)行相似度運(yùn)算,然后根據(jù)相 似度值,將 其歸入相似度最大(且在閾值范圍內(nèi))的類中,并 II 及時(shí)調(diào)整類中心向量,同時(shí) , 也不斷產(chǎn)生新 類 例密度測(cè)試聚類 取一條未聚類信息,令其為聚類中心,進(jìn)行

10、密度測(cè)試。測(cè)試范圍為尚未聚類和松散型 的信 息。測(cè)試失敗。即被測(cè)試信息周圍不具有指定數(shù)量的相似信息,該信息被作為松散型信息。然后再重新取未聚類文獻(xiàn)測(cè)試聚類中心;測(cè)試成功。即被測(cè)試信息周圍集聚一定數(shù)量相似信息(閾值范圍內(nèi)),則該信息被作為一個(gè)聚類中心,并將其中相似度超過某一定值 ( T1) 的信息視為己聚類信息,對(duì)小于 T1 又大于另 一閾值 T2 的信息,視為松散型信息;聚類過程持續(xù)到?jīng)]有未聚類信息為止。最后將剩下的松散型信息就近聚集到已存在的 類別 中。、信息自動(dòng)摘要?單文檔摘要?多文檔摘要?摘要方法: 主題句抽取、基于理解、基于結(jié)構(gòu)?摘要評(píng)估:主題吻合度、簡(jiǎn)潔易懂性、文本流暢度、靈活可變性

11、。1、自動(dòng)文摘?自動(dòng)文摘就是利用計(jì)算機(jī)自動(dòng)提取出一篇文章的主旨和要點(diǎn),提高人們選擇和獲取 信息 速度的技術(shù)。? 頻度統(tǒng)計(jì)法首先依靠統(tǒng)計(jì)詞的出現(xiàn)頻度來確定詞的重要性和句子的可選性。凡是頻度超過設(shè) 定閾值的詞被看作文章的代表詞,而一個(gè)句子的代農(nóng)性根據(jù)句子中包含代 表詞的多寡來計(jì)算。 代表性超過設(shè)定閾值的句子抽出作為文摘句。?關(guān)鍵位置判定法是根據(jù)句子在文章中所處的位置, 如標(biāo)題、段頭、段尾等來判斷其 重要性, 然后根據(jù)各個(gè)句子的重要性來選擇文摘句。?句法頻度結(jié)合法。2、多文檔自動(dòng)文摘技術(shù)?自動(dòng)文摘是利用計(jì)算機(jī)自動(dòng)編制文摘 , 是信息時(shí)代的需要。自動(dòng)文摘根據(jù)其處理文本 的數(shù) 量可以分為單文檔文摘和多文檔文摘,并且應(yīng)用于不同方面。以新聞事件為例 , 面對(duì)每 天數(shù)以千計(jì)的新聞,若想迅速定位于感興趣的內(nèi)容,我們需要每個(gè)內(nèi)容的簡(jiǎn) 單

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論