自然語言-自動標(biāo)引_第1頁
自然語言-自動標(biāo)引_第2頁
自然語言-自動標(biāo)引_第3頁
自然語言-自動標(biāo)引_第4頁
自然語言-自動標(biāo)引_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第三章

自然語言在情報(bào)檢索中的應(yīng)用按構(gòu)成原理分:體系分類法分類檢索語言

組配分類法檢索語言

體系-組配分類法標(biāo)題法主題檢索語言單元詞法敘詞法關(guān)鍵詞法

自然語言-自動標(biāo)引自然語言:優(yōu)點(diǎn);發(fā)展趨勢關(guān)鍵詞法:基本原理;性能自動標(biāo)引:定義;意義;基本原理;基本流程自然語言張琪玉教授指出:情報(bào)檢索語言是根據(jù)情報(bào)檢索的需要而創(chuàng)制的人工語言自然語言是反映文獻(xiàn)題名、文摘和全文內(nèi)容的原詞,檢索方法是對文獻(xiàn)本身的用詞直接進(jìn)行處理。自然語言20世紀(jì)90年代,美國把自然語言處理技術(shù)應(yīng)用到情報(bào)檢索領(lǐng)域中,真正實(shí)現(xiàn)了非布爾邏輯中的自然語言檢索系統(tǒng)。NLM的自動標(biāo)引項(xiàng)目——標(biāo)引創(chuàng)始項(xiàng)目(IndexingInitiative,II)自然語言對數(shù)量巨大而復(fù)雜的網(wǎng)上動態(tài)信息,用人工檢索語言進(jìn)行信息處理顯然是困難的,只能依賴于自然語言并借助計(jì)算機(jī)進(jìn)行文獻(xiàn)信息處理。自然語言的優(yōu)點(diǎn)符合客觀需要,新詞、學(xué)科發(fā)展、加速機(jī)檢數(shù)據(jù)庫的建設(shè)相對于受控制語言,有易用性標(biāo)引簡便,易于自動化專指,較好的檢準(zhǔn)率一致性好自然語言發(fā)展趨勢美國俄亥俄州大學(xué)圖書館館長,美籍華人李華偉博士曾預(yù)言:“未來的情報(bào)檢索語言是以自然語言為主的發(fā)展方向?!标P(guān)鍵詞法自然語言形式的情報(bào)檢索語言

隨計(jì)算機(jī)出現(xiàn),為適應(yīng)索引編制自動化的需要產(chǎn)生關(guān)鍵詞:出現(xiàn)在文獻(xiàn)的標(biāo)題(篇名、章節(jié)名)以至摘要、正文中,對表征文獻(xiàn)主題內(nèi)容具有實(shí)質(zhì)意義的語詞。關(guān)鍵詞的詞匯控制一般來說,關(guān)鍵詞不予規(guī)范。事實(shí)上,也須作某種程度(極少量)的規(guī)范化,才能適應(yīng)計(jì)算機(jī)處理的要求和消除那些顯然的、比較容易消除的缺點(diǎn)。(一)詞和符號的改寫(β改寫成beta)。如果計(jì)算機(jī)符比較完備,可以不作。(二)詞的縮寫。在關(guān)鍵詞系統(tǒng)中都盡量利用縮寫詞(三)詞的分拆和組合。需要提供更多的檢索入口時,就將其從拆成兩個關(guān)鍵詞(四)不同拼寫形式的詞和同義詞的統(tǒng)一。個別關(guān)鍵詞系統(tǒng)關(guān)鍵詞法的優(yōu)點(diǎn)直接源于自然詞匯,專指性優(yōu)于其它主題語言標(biāo)引無需查表,簡便易行,節(jié)省人力及時更新詞匯,報(bào)道信息快一致性高可實(shí)現(xiàn)自動標(biāo)引關(guān)鍵詞法缺點(diǎn)對自然語言的等同關(guān)系不規(guī)范統(tǒng)一,不能顯示等同關(guān)系,漏檢可能性大不顯示詞間等級關(guān)系和相關(guān)關(guān)系,增加檢全文獻(xiàn)的難度機(jī)械抽詞和輪排,有些關(guān)鍵詞款目徒增篇幅關(guān)鍵詞法查全率較低,但查準(zhǔn)率較高關(guān)鍵詞法關(guān)鍵詞法用于計(jì)算機(jī)檢索系統(tǒng)時,可用后控制詞表提高查全率后控制詞表:只供檢索的詞表,是一種同義詞、近義詞和相關(guān)詞的詞匯表。作用:使檢索者可從任何一個詞出發(fā),在詞表中查到它的一批同義詞、近義詞和相關(guān)詞。由計(jì)算機(jī)自動積累而成BiologicalAbstracts美國《生物學(xué)文摘》(BiologicalAbstracts,簡稱BA)創(chuàng)刊于1926年,是世界上生命科學(xué)方面最大的檢索工具。由美國生物科學(xué)情報(bào)服務(wù)社(BioScienceInformationService,簡稱BIOSIS)編輯出版。BA收錄了世界110多個國家和地區(qū)出版的9000多種期刊和連續(xù)出版物,以及約一萬多種圖書和其他類型文獻(xiàn)。BA的數(shù)據(jù)庫為BIOSISPREVIEW主題索引(SubjectIndex)注釋:①上文;②關(guān)鍵詞;③下文;④文摘號SubjectContext

Keyword

Ref.No.Pylorihumangastrin①gastric②acidpathogenesis/amecha③3011④Gastricbodymucosacidsecretionelectronmi3084Ousmetastasesfromadenocarcinomacasestud8667………………

美國《化學(xué)文摘》1907年創(chuàng)刊,由美國化學(xué)會所屬化學(xué)文摘服務(wù)社(CAS)編輯出版,現(xiàn)為世界上收錄化學(xué)化工及其相關(guān)學(xué)科文獻(xiàn)最全面,應(yīng)用最廣泛的一種文獻(xiàn)檢索工具。美國《化學(xué)文摘》

(ChemicalAbstracts,CA)關(guān)鍵詞索引

(KeywordIndex,KI)

該索引由專家從文獻(xiàn)的篇名、原文或文摘中選取能反映文獻(xiàn)主要內(nèi)容而未經(jīng)規(guī)范化處理的3~5個詞或詞組,按關(guān)鍵詞的字順進(jìn)行輪排而成。其著錄格式如下:Adenocarcinoma①atitumortamoxifenetretinateascorbicancid②690z③

assocdantigencloninggene7791sAntigen

adenocarcinomaassocdcloninggene7791smonoclonalantibodyglycosylation7929sCloningbaculovirusnitricoxidesynthasespodoptera2432r

geneadenocarcinomaassocdantitgen

7791s注釋:①標(biāo)目關(guān)鍵詞;②說明語;③文摘號自動標(biāo)引的定義自動標(biāo)引(AutomaticIndexing);計(jì)算機(jī)輔助標(biāo)引(ComputerAidedIndexing):根據(jù)文獻(xiàn)內(nèi)容,依靠計(jì)算機(jī)系統(tǒng)全部或部分地自動給出標(biāo)引符號的過程。自動標(biāo)引的定義自動標(biāo)引自動主題標(biāo)引

自動分類標(biāo)引自動主題標(biāo)引關(guān)鍵在于:詞語抽取對所識別出的主題詞進(jìn)行優(yōu)選當(dāng)前,各標(biāo)引系統(tǒng)都在不同程度地使用計(jì)算機(jī)系統(tǒng)進(jìn)行輔助標(biāo)引。自動標(biāo)引的意義1.適應(yīng)信息資源快速增長的需要

加利福尼亞大學(xué)伯克利分校研究人員發(fā)現(xiàn),僅1999-2002年的三年中,全球新生產(chǎn)出的信息量就翻了一番。新產(chǎn)生的信息中92%記錄在硬盤等磁存儲介質(zhì)上。

信息資源的快速增長,造成信息相對過剩。只有提高信息組織的效率,才能擺脫信息相對過剩帶來的困惑,因此信息標(biāo)引顯得非常重要。自動標(biāo)引適應(yīng)了這一需要。自動標(biāo)引的意義2.相對手工標(biāo)引存在很大優(yōu)勢,克服了手工標(biāo)引難以克服的缺點(diǎn)。與熟練標(biāo)引人員相比,自動標(biāo)引的準(zhǔn)確性不如手工標(biāo)引,但在其他指標(biāo)方面自動標(biāo)引有無可比擬的優(yōu)勢:處理能力強(qiáng)處理速度快成本低一致性好,穩(wěn)定性好自動標(biāo)引的意義美國的Cleverton的試驗(yàn)結(jié)果:兩組人員為同一主題編出的敘詞表中詞的同一率僅60%;兩位有經(jīng)驗(yàn)的標(biāo)引員用同一敘詞表對同一篇文獻(xiàn)進(jìn)行標(biāo)引,其標(biāo)引詞的同一率僅有30%左右;兩個在同一數(shù)據(jù)庫中用同一檢索系統(tǒng)檢索同一問題的用戶,檢索出的結(jié)果同一率僅40%;兩位科研人員根據(jù)同一提問判斷一組指定文獻(xiàn)的相關(guān)性,其同一率不會超過60%。采用計(jì)算機(jī)自動標(biāo)引,無論何時對同一篇文獻(xiàn)總能標(biāo)引出相同的主題詞。自動標(biāo)引的意義美國學(xué)者Salton對受控人工標(biāo)引系統(tǒng)MEDLARS和自動標(biāo)引系統(tǒng)SMART做了一些比較,結(jié)論是:相對簡單的自動文本分析系統(tǒng)在文獻(xiàn)檢索環(huán)境中產(chǎn)生的檢索結(jié)果,其質(zhì)量不亞于受控標(biāo)引通常所能達(dá)到的水平。自動標(biāo)引的基本原理較典型的漢語自動標(biāo)引方法:詞典標(biāo)引法切分標(biāo)引法語法分析標(biāo)引法漢語自動標(biāo)引專家系統(tǒng)單漢字標(biāo)引法自動標(biāo)引的基本原理根據(jù)自動標(biāo)引采用的理論劃分,自動標(biāo)引的方法主要有3種:統(tǒng)計(jì)法語言法人工智能法自動標(biāo)引的基本原理統(tǒng)計(jì)法(StatisticalApproach):自動標(biāo)引各方法中歷史最長的一種,目前較為成熟。理論基礎(chǔ)是齊夫(Zipf)的省力法則。典型代表:詞頻加權(quán)方法,根據(jù)詞的出現(xiàn)頻率及出現(xiàn)位置等因素確定標(biāo)引詞。自動標(biāo)引的基本原理語言法(LinguisticApproach):通過對構(gòu)成文獻(xiàn)的自然語言的分析,利用一定算法產(chǎn)生標(biāo)引詞,是從語言學(xué)角度對自動標(biāo)引方法的探索。包括兩種方法:句法分析、語義分析

自動標(biāo)引的基本原理人工智能法(ArtificialIntelligenceApproach,AIApproach):自動標(biāo)引領(lǐng)域的熱點(diǎn)問題,人工神經(jīng)網(wǎng)絡(luò)、遺傳算法等方法的發(fā)展給自動標(biāo)引增添了不少動力。不少學(xué)者認(rèn)為,人工智能法代表著自動標(biāo)引研究的未來。自動標(biāo)引的基本流程確定標(biāo)引源輸入標(biāo)引源內(nèi)容預(yù)處理詞語自動切分確定關(guān)鍵詞轉(zhuǎn)換為受控詞給出主題標(biāo)識符1.確定標(biāo)引源標(biāo)引源:標(biāo)引所依據(jù)的文獻(xiàn)內(nèi)容一般的標(biāo)引源:標(biāo)題:首選標(biāo)引源文摘:一般能夠完全反應(yīng)文獻(xiàn)討論的主題,但難以確定5-6個最重要的詞。首尾章節(jié)章節(jié)的首尾段段落的首尾句2.輸入標(biāo)引源內(nèi)容必須按標(biāo)引系統(tǒng)要求的格式輸入系統(tǒng),才可能進(jìn)行自動標(biāo)引。印刷型文獻(xiàn):手工錄入或OCR(光學(xué)字符識別)輸入電子文檔(XML、DOC、TXT等格式):直接導(dǎo)入3.文檔的預(yù)處理字符內(nèi)碼的檢測與轉(zhuǎn)換:BIG5碼與GB碼的自動檢測與轉(zhuǎn)換。文檔格式的檢測與轉(zhuǎn)換:將不同格式文件轉(zhuǎn)換成適于自動標(biāo)引的純文本格式。4.詞語自動切分在確定關(guān)鍵詞之前,必須對文檔進(jìn)行切分,將語句切分成詞。西方文字有分隔符,切分容易實(shí)現(xiàn)。漢語詞的準(zhǔn)確切分較困難(研究相當(dāng)長時間),目前自動切分已基本能滿足實(shí)際需要。5.確定關(guān)鍵詞根據(jù)文本詞語切分結(jié)果,以詞語在文本中出現(xiàn)的頻次、位置及詞的詞性等因素為依據(jù),確定關(guān)鍵詞。確定關(guān)鍵詞主要方法:絕對詞頻統(tǒng)計(jì)法:理論基礎(chǔ)是齊夫定律。詞頻權(quán)重法:除考慮詞頻外,還考慮詞的位置、詞的詞性、詞本身的價(jià)值、詞的長度等因素,對詞進(jìn)行加權(quán),然后根據(jù)權(quán)值大小確定關(guān)鍵詞。6.轉(zhuǎn)換為受控詞關(guān)鍵詞與受控詞(主題詞、副主題詞、特征詞)之間存在著一定的關(guān)系(如同義詞關(guān)系、上位關(guān)系、下位關(guān)系等)。轉(zhuǎn)換為受控詞目前有效可行的方法:使用關(guān)鍵詞-受控詞對照表:該表含有關(guān)鍵詞與規(guī)范化的主題詞、副主題詞、特征詞之間的對照關(guān)系,由此對應(yīng)轉(zhuǎn)換。利用詞匯相似度:關(guān)鍵詞與主題詞之間存在一定程度的相似性,可通過某些算法計(jì)算出來,根據(jù)相似性確定相應(yīng)的主題詞。兩種算法:基于詞素的相似度算法;給予單漢字的字面相似度算法。7.給出主題標(biāo)識符根據(jù)確定的主題詞、副主題詞、特征詞,進(jìn)行組配,給出主題標(biāo)引符號,完成自動標(biāo)引。自動分詞歧義切分:交集型

并行程序設(shè)計(jì)語言:并行程序設(shè)計(jì)程序設(shè)計(jì)語言

組合型中華人民共和國海外華人

人民法院參照民法第**條自動分詞詞語自動切分:以語言學(xué)知識為基礎(chǔ),通過一定算法、將組成句子的詞從句子中切分出來,得到詞語集合的過程??蓮V泛應(yīng)用于自動標(biāo)引、智能檢索、自動翻譯、自動文摘、數(shù)據(jù)挖掘、信息過濾等領(lǐng)域。詞語自動切分的方法根據(jù)其使用的原理和算法,將詞語自動切分的方法歸納為三類:詞典法統(tǒng)計(jì)法混合法詞典法(LexicalMethod)又稱機(jī)械分詞方法,是按照一定的策略將待分析的漢字串與切分詞典系統(tǒng)中的詞條進(jìn)行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。詞典法(LexicalMethod)分詞詞典:停用詞表:文獻(xiàn)中詞頻很高或很低的詞或字特例詞表:如停用詞“的”、“也”可組成“

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論