元數(shù)據(jù)自動抽取調(diào)研報告_第1頁
元數(shù)據(jù)自動抽取調(diào)研報告_第2頁
元數(shù)據(jù)自動抽取調(diào)研報告_第3頁
元數(shù)據(jù)自動抽取調(diào)研報告_第4頁
元數(shù)據(jù)自動抽取調(diào)研報告_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、本科畢業(yè)論文調(diào)研報告科技文獻作者信息自動抽題 目取與管理的研究學生姓名陳飛翔指導教師陳科文學 院信息科學與工程學院 專業(yè)班級 電子信息1002本科生院制內(nèi)容摘要元數(shù)據(jù)提供了網(wǎng)絡資源描述、表達、管理和使用的基本方案,是網(wǎng)絡資源組織 和檢索的核心所在。隨著計算機技術和網(wǎng)絡技術的迅猛發(fā)展,面對海量文獻描述 的需要,如何快速、高效地產(chǎn)生元數(shù)據(jù)成為數(shù)字圖書館建設過程中面臨的一大難 題。當前數(shù)字圖書館建設過程中,元數(shù)據(jù)大多由人工逐條標記輸入,這不僅花費了 大量的人力、物力和時間,而且也越來越不能滿足海量文獻管理的需要。若元數(shù) 據(jù)信息可以自動生成、自動抽取,必將大大減輕信息人員的工作負擔,極大地提高 工作效

2、率。本文在分析PDF文件結構的基礎上,解析PDF文件的內(nèi)容流,并采用基于規(guī)則的匹 配方法和基于格式的定位方法,自動抽取科技論文中的語義元數(shù)據(jù)信息。實驗結 果表明,上述方法對標題、作者等重要的語義元數(shù)據(jù)信息能夠達到較好的抽取效 果。關鍵詞:元數(shù)據(jù)抽取,PDF,基于規(guī)則匹配方法,基于格式定位方法目錄 TOC o 1-5 h z 前言4 HYPERLINK l bookmark14 o Current Document 第一章設計任務和研究背景意義5 HYPERLINK l bookmark17 o Current Document 1.1設計任務5 HYPERLINK l bookmark25 o

3、 Current Document 1.2研究背景及意義5 HYPERLINK l bookmark28 o Current Document 1.3國內(nèi)外研究現(xiàn)狀6 HYPERLINK l bookmark31 o Current Document 第二章PDF文件結構和解析7 HYPERLINK l bookmark34 o Current Document PDF文件的基本組成7 HYPERLINK l bookmark41 o Current Document PDF文檔的邏輯結構8 HYPERLINK l bookmark44 o Current Document PDF解析基本語法

4、9PDF解析過程15 HYPERLINK l bookmark55 o Current Document 第三章語義元數(shù)據(jù)抽取設計的實現(xiàn)153.1 PDF文件解析15 HYPERLINK l bookmark67 o Current Document 3.2內(nèi)容元數(shù)據(jù)抽取分析17 HYPERLINK l bookmark78 o Current Document 第四章總結19 HYPERLINK l bookmark81 o Current Document 參考文獻20刖言便攜文檔格式(Portable Document Format , PDF)格式是 Adobe公司在其 PostScr

5、ipt語言的基礎上創(chuàng)建的一種主要應用于電子出版的文件規(guī)范系統(tǒng)。目 前,PDF已成為電子文檔發(fā)行和數(shù)字化信息傳播事實上的一個標準,其廣泛應用 于學術界的論文交流和發(fā)布,如學術會議、電子期刊及一些論文收錄機構等。PDF 文檔本身是面向顯示的,目的是方便用戶閱讀,文檔格式中不含有便于機器處理 的語義信息;同時,PDF字符串一般都經(jīng)過編碼,因而直接對PDF源文檔進行語義 信息處理,實現(xiàn)起來比較困難。因此,有必要考慮間接的途徑,比如先將PDF進行 預處理,轉(zhuǎn)換成易于處理的格式。XML(Extensible Markup Language)由于其所具有的開放性、靈活性、易讀性和 平臺無關性等特點,已成為數(shù)

6、據(jù)表示和數(shù)據(jù)交換事實上的標準。因此,隨著XML 的日益廣泛應用,將傳統(tǒng)數(shù)據(jù)格式轉(zhuǎn)換成XML,以便進行數(shù)據(jù)傳輸?shù)炔僮鞯男枨?也隨之增加??萍颊撐氖且活惥哂幸?guī)范格式的文檔,對科技論文的查找與閱讀成 為當今各領域進行學術交流的重要渠道。因此,針對PDF格式及科技論文的特殊 性,對PDF格式的科技論文元數(shù)據(jù)進行有效抽取,使其便于語義查詢等處理具有 重要的現(xiàn)實意義。第一章設計任務和研究背景意義1.1設計任務(1)分析各類不同文獻中作者信息不同的編排方式,研究PDF等常見類型文檔 的解析與轉(zhuǎn)換技術以及信息抽取技術;(2)實現(xiàn)從PDF等類型的電子文獻中抽取作者基本信息,論文/項目/成果信息 和聯(lián)系信息:(3

7、)所抽取的信息存儲于數(shù)據(jù)庫貨XML格式的文件中,并能對作者信息進行查 詢、校對增刪等操作;(4)編寫文獻作者信息抽取與管理程序,能連續(xù)處理多篇科技文獻,通過實驗 來驗證設計結果,并進行評估和進一步完善;(5)重點考慮中文期刊文獻的處理。1.2研究背景及意義隨著網(wǎng)絡的飛速發(fā)展,網(wǎng)上的信息資源也日益增多。人們獲取信息的方式不再 只局限于書本,更多的時候是在利用網(wǎng)上的電子資源。一些搜索引擎也應運而生, 但是它們一般只針對網(wǎng)頁文件,對一些文獻的搜索力度還遠遠不夠。因為很多搜 索引擎都是基于關鍵字查找和全文檢索技術,它們返回的結果對于用戶來說往往 過于龐大,且很多都是無用的信息,用戶很難從中挑選他們所需

8、要的資源。檢索 科技文獻的用戶,很多時候都是根據(jù)論文的標題和作者信息來進行查找的。而論 文摘要和關鍵字往往涵蓋了整篇論文的主要內(nèi)容。標題、作者、摘要和關鍵字等 元數(shù)據(jù)信息是基于內(nèi)容的信息檢索的基礎,用戶通過元數(shù)據(jù)結構檢索能更方便地 發(fā)現(xiàn)他們所需要的文獻資源。因此,很有必要對論文的元數(shù)據(jù)信息進行自動的抽 取、標引和整理工作,以便讓人們能更直接、更方便地找到所需的文獻資料。目前,網(wǎng)上發(fā)布的科技文獻資源,大部分都是以PDF形式來發(fā)表的。要對文 檔中的文本內(nèi)容進行處理,必須先進行格式轉(zhuǎn)化。格式轉(zhuǎn)化后,再對論文的元數(shù) 據(jù)信息進行抽取。最主要、也最關鍵的元數(shù)據(jù)抽取工作是抽取出論文的標題、作 者、摘要、關鍵

9、字和引用信息等元數(shù)據(jù)。1.3國內(nèi)外研究現(xiàn)狀國內(nèi)元數(shù)據(jù)自動抽取研究主要集中在國外元數(shù)據(jù)自動抽取工具與方法介紹、 Web站點元數(shù)據(jù)信息抽取、期刊論文元數(shù)據(jù)抽取、學位論文元數(shù)據(jù)抽取、課程元 數(shù)據(jù)信息抽取、空間地理信息元數(shù)據(jù)抽取等方面。通過中國知網(wǎng)CNKI)數(shù)據(jù)庫 的題名檢索方式,檢索出2001-2008年發(fā)表的與上述研究主題相關的論文共14 篇。在Web網(wǎng)絡元數(shù)據(jù)信息抽取方面的研究論文有5篇,數(shù)量最多。由此可知, 對Web元數(shù)據(jù)信息抽取技術與方法的研究引起了研究者最多的關注。從期刊論文 的時間分布可以看出.我國關于元數(shù)據(jù)自動抽取的研究開始較晚。直到2001年 才有圖書情報界人十發(fā)文介紹國外的Web元

10、數(shù)據(jù)自動生成工具;2003年沒有相 關論文發(fā)表;2008年元數(shù)據(jù)抽取相關論文最多。進入21世紀以來,我國關于這 方面的研究一直處在穩(wěn)步前進狀態(tài)、但一直沒有成為學術界的研究熱點。不過, 2008年的數(shù)量翻倍(雖然總數(shù)量依然很低)是一個好的跡象,表明這方面的研究 已經(jīng)引起了更多人的關注。我國有關元數(shù)據(jù)的研究起步較晚,在元數(shù)據(jù)的自動抽取方面的研究也是如此。 對于國外元數(shù)據(jù)自動抽取技術和工具的介紹開辟了我國元數(shù)據(jù)自動抽取的研究。 有關這方面的論文有兩篇:一篇是中山大學圖書館的賀亞鋒發(fā)表在圖書館雜志 上的Web站點元數(shù)據(jù)自動生成工具介紹(2001),另一篇是常娥等人的元數(shù) 據(jù)自動生成技術研究(2006)

11、。目前,Web站點元數(shù)據(jù)自動生成工具可以分為編輯器和生成器兩種,前者有英 國ROADS計劃的元數(shù)據(jù)編輯工具,后者有澳大利亞MWP計劃的元數(shù)據(jù)生成工具。 國外在元數(shù)據(jù)自動生成方面的項目有MGR,MWP和WWLIB。較有名的元數(shù)據(jù)自動 生成工具有Klarity. DC. dot和CORC系統(tǒng)。雖然它們自動生成元數(shù)據(jù)項的數(shù)量 有限,并且質(zhì)量不高,但它們的出現(xiàn)意味著元數(shù)據(jù)的自動生成并非可望而不可及。 此外,進行自然語言處理和語義網(wǎng)研究的學者也參與了這項研究,如Giuffrida 等人采用基于規(guī)則的模式匹配方法.嘗試從PostScript格式的學術會議論文中 抽取元數(shù)據(jù)。第二章PDF文件結構和解析2.1

12、 PDF文件的基本組成一個PDF文件從大的方面來說分4個部分:文件頭,指明了該文件所遵從的PDF規(guī)范的版本號,它出現(xiàn)在PDF文的第 一行。文件體,PDF文件的主要部分,由一系列對象組成。交叉引用表,為了能對間接對象進行隨機存取而設立的一個間接對象的地址 索引表。文件尾,聲明了交叉引用表的地址,即指明了文件體的根對象(Catalog), 從而能夠找到PDF文件中各個對象體的位置,達到隨機訪問。另外還保存了 PDF 文件的加密等。如圖1:圖1 PDF文件基本組成2.2 PDF文檔的邏輯結構作為一種結構化的文件格式,一個PDF文檔是由一些稱為“對象”的模塊組成 的。并且每個對象都有數(shù)字標號,這樣的話

13、可以這些對象就可以北其他的對象所 引用。這些對象不需要按照順序出現(xiàn)在PDF文檔里面,出現(xiàn)的順序可以是任意的, 比如一個PDF文件有3頁,第3頁可以出現(xiàn)在第一頁以前,對象按照順序出現(xiàn)唯 一的好處就是能夠增加文件的可讀性,因為頁與頁之間的不相關性,就可以對 PDF文件的頁碼進行隨機的訪問。文件尾(Trail),說明根對象的對象號,并且說明交叉引用表的位置,通過對交 叉引用表的查詢可以目錄對象(Catalog) o這個目錄對象是該PDF文檔的根對 象,包含PDF文檔的大綱(outline)和頁面組對象(pages)引用。大綱對象是指 PDF文件的書簽樹;頁面組對象(pages)包含該文件的頁面數(shù),各

14、個頁面對象 (page)的對象號。一個PDF文檔有圖2所示的層次關系:/Root /Info/Pages/OutlinesPagesRootOutlineRootPago TreeOutlinw Entry(Bookmark)Outline TreeOutline Entry(Bookmark)圖2 PDF文檔層次關系頁面(page)對象作為PDF中最重要的對象,包含如何顯示該頁面的信息,例 如使用的字體,包含的內(nèi)容(文字,圖片等),頁面的大小。當然里面的子項也 可以是其他對象的引用。頁面中包含的信息是包含在一個稱為流(stream)的對象里,這個流的長度(字 節(jié)數(shù))必須直接給出或指向另外一個

15、對象。如圖3:Thumbnail Contonts Fonts (display lists) -Typ 1X Objects -Images -Form*-Type 3 -Fori -TrueType .Multiple MasterProcMts (for PostScript printing)圖3頁面信息指向另一對象2.3 PDF解析基本語法文件的第一行是文件頭,指明了該文件所遵從的PDF規(guī)范的版本號,它出現(xiàn)在 PDF文件的第一行。一個對象的第一行一般有兩個數(shù)字和關鍵字“obj”。例如:0 objendobj第一個數(shù)字稱為對象號,來唯一標識一個對象的,第二個是產(chǎn)生號,是來表明 它在被創(chuàng)

16、建后的第幾次修改,所有新創(chuàng)建的PDF文件的對象號應該都是0,即 第一次被創(chuàng)建以后沒有被修改過。上面的例子就說明該對象的對象號是3,而且 創(chuàng)建后沒有被修改過。對象的內(nèi)容應該是包含在 和之間的,最后以關鍵字 endobj 結束。%PDF-1.0文件頭,說明符合PDF1.0規(guī)范0 objendobjCatalog對象(根對象)0 objendobjoutline對象(此處它的計數(shù)為0,說明沒有書簽)0 objendobjpages對象(頁面組對象),/Type /Pages說明自身的屬性,對象的類型為頁碼, /Count 1說明頁碼數(shù)量為1, /Kids 4 0 R說明頁的對象為4,這里要說明的 是

17、如果有多個頁面,就多個頁面直接連續(xù)下去,比如說/Kids 40R100R,就 說明該PDF的第一頁的對象號是4,第二頁的對象號是10。0 obj/Type /Page/Parent 3 0 R/Resources /Font /ProcSet 6 0 R /MediaBox 0 0 612 792/Contents 5 0 Rendobj頁對象,/Parent 3 0 R說明其父對象的對象號為3, /Resources /Font /ProcSet6 0 R 說明該頁所要包含的資源,包括字體和內(nèi)容的類型, /MediaBox 0 0 612 792說明頁面的顯示大?。ㄒ韵笏貫閱挝唬?,/Cont

18、ents 5 0 R說明頁面內(nèi)容對象的對象號為5。0 objstreamBT/F1 24 Tf100 100 Td (Hello World) TjETendstreamendobj /Length 44 ”說明stream對象為字節(jié)數(shù),從BT開始,ET結束,包括中 間的行結束符。Stream說明一個流對象的開始。BT說明一個文字對象的開始。 /F1 24 Tf,Tf說明True font對象,字體明為F1,大小為24個象素。100 150 Td (Hello World) Tj,100 100說明這一行文字放置的位置,對于Td, 我們可以這樣理解,我們的當前X,Y坐標分別加上100和150就

19、是文本的位 置,因為在該例子中只有一個對象,那么它的位置就是(100,150),如果下個對 象位置信息為100, 50 Td,那么它的位置應該就是(100+100, 150+50)也就是 (200,200)。(Hello World) Tj說明文本的內(nèi)容,當然,如果這里是文本的內(nèi)容可以寫成16進制,用包含。ET說明文字對象的結束 endstream流對象的結束。0 obj/PDF /TextEndobj/PDF /Text說明PDF的內(nèi)容類型僅僅為文本,如果有圖片則為/PDF/Image。0 objendobj字體對象,不再多作解釋。所有的對象之后是下面的交叉引用表:xref0 8000000

20、0000 65535 f0000000009 00000 n0000000074 00000 n0000000120 00000 n0000000179 00000 n0000000322 00000 n0000000415 00000 n0000000445 00000 nxref說明一個交叉引用表的開始,交叉引用表的第一行0 8說明下面各行所描 述的對象號是從0開始,并且有8個對象。0000000000 65535 f,一般每個PDF文件都是以這一行開始交叉應用表的,說明 對象0的起始地址為0000000000,產(chǎn)生號(generation number)為65535,也 是最大產(chǎn)生號,不

21、可以再進行更改,而且最后對象的表示是 f,表明該對象為 free,其實這個對象可以看作是文件頭。0000000009 00000 n 就是表示對象 1,也就是 catalog 對象了,0000000009 是 其偏移地址,00000為5位產(chǎn)生號(最大為65535),0表明該對象未被修改過,n表示該對象在使用,區(qū)別與自由對象,不可以更改。Trailerstartxref553%EOFtrailer說明文件尾trailer對象的開始。/Size 8說明該PDF文件的對象數(shù)目。/Root 1 0 R說明根對象的對象號為1。Startxref 553說明交叉引用表的偏移地址,從而可以找到PDF文檔中所

22、有的對 象的相對地址,進而訪問對象。%EOF為文件結束標志。2.4 PDF解析過程第三章語義元數(shù)據(jù)抽取設計的實現(xiàn)3.1 PDF文件解析從文件尾中找到屬性標簽/Root取得其后的間接對象號,這個對象號標識 了文檔根對象的位置,是整個正文內(nèi)容的入口 ;轉(zhuǎn)入文檔根對象,其標識為/Type /Catalog,在其中尋找屬性標簽/Pages, 取得其后的間接對象號,這個對象號標識了文檔頁根對象的位置;轉(zhuǎn)入文檔頁根對象,其標識為/Type /Pages,在其中尋找屬性標簽/Kids,取 得其后的第一個間接對象號,這個對象號或者標識了文件第一頁的對象位置,或 者仍然是頁根對象。如果情況為后者,則仍然執(zhí)行步驟

23、(3),否則執(zhí)行步驟(4);轉(zhuǎn)入文檔頁對象,其標識為/Type /Page,在其中尋找屬性標簽/Contents, 如果找不到Contents標簽,則說明此頁內(nèi)容為空,否則取得其后的全部間接對 象號,并以先序深度優(yōu)先的順序按步驟(5)依次處理這些內(nèi)容對象;轉(zhuǎn)入內(nèi)容對象,提取/Filter標簽后的解碼名,并將Stream與Endstream之 間的內(nèi)容流存入一個字節(jié)數(shù)組中。在源代碼中,字節(jié)數(shù)組顯示的內(nèi)容流為亂碼, 需要對其進行解碼處理。PDFBox開源軟件包中的Filer包提供了有關解碼的方 法,根據(jù)解碼名調(diào)用相應的解碼方法,可以獲得解碼后的內(nèi)容流。將所有內(nèi)容對象的解碼流連接起來,組成第一頁的內(nèi)

24、容流。圖5顯示了某中文科技論文的文件頭信息,圖6顯示了其解碼后 的部分內(nèi)容流。圖五一個PDF格式的科技論文的文件頭信息心 it.a r* w.a til-* it/II II, ii Hi idI i t n rfi n -*sfi n r J 11 - UM 11. left 11 -* i h iiIHl機廈虹,L虎H TJ/f l VD. t 5W.tflKli1tjCl圖六 解碼后部分內(nèi)容流文本對象:以BT操作符開始,以ET操作符結束,其內(nèi)容既包括文本信息, 也包括字體、位置等格式的信息;字體信息:Tf操作符用來設置字體信息,第一個參數(shù)描述字體名稱,第二個 參數(shù)描述字體大小,值越大,說

25、明字體越大,反之則越小。另外,英文的PDF文件習 慣將Tf的第二個參數(shù)值設為1.0,此時要從Tm操作符獲得字體信息。Tm操作符共有6個參數(shù),其中第一個參數(shù)基本上反映了字體大??;位置信息:PDF文件將打印區(qū)的左下角設置為打印原點,y軸正方向朝上,x 軸正方向朝右。Td /TD操作符可以設置文本行的位置,第一個參數(shù)描述當前行的 水平位移,第二個參數(shù)描述當前行的垂直位移;3.2內(nèi)容元數(shù)據(jù)抽取分析科技論文是自由格式的文本組合,不同的出版商在論文排版方面有著不同的規(guī) 定,這就決定了內(nèi)容元數(shù)據(jù)的自動抽取具有一定的難度。但論文信息的組織仍有 一定的規(guī)律可尋,經(jīng)研究發(fā)現(xiàn),大部分論文的框架都可以分為以下6個部分

26、:標題 (可以有副標題);作者及相關信息(可以有多個);摘要;關鍵詞(可以沒有, 英文文章不太注重關鍵字);文章主體;參考文獻。從抽取的角度看,主要關心的是 前4部分,因為它們基本涵蓋了整篇論文的主要內(nèi)容。另外,前4部分基本上都出 現(xiàn)在論文的第一頁,所以為了提高抽取效率,在實際處理過程中僅對PDF文件的 第一頁進行解析。(1)標題的抽取標題一般沒有什么固定的位置,比如有些文章可能包含頁眉信息,此時標題會 出現(xiàn)在頁眉以下;有些文章可能沒有頁眉信息,此時標題會出現(xiàn)在文章的第一行。 另外,科技論文的研究領域涉及方方面面,因此標題也沒有一個專用名詞供識別。 不過,絕大多數(shù)文章標題的字體都是整篇文章中最

27、大的,因此可以根據(jù)標題的這 一特征來定位和抽取。具體實現(xiàn)中,通過掃描整個內(nèi)容字符串,尋找所有Tf操作符并獲得第二個參數(shù) 的值,比較得出最大者。如果所有Tf操作符的第二個參數(shù)值均為1. 0,此時尋找 所有的Tm操作符并比較得出第一個參數(shù)值中的最大者。對應Td /TD操作符位置 上的文本串就是標題。有些文章可能會有副標題,副標題的字體一般都比標題小,而且位于標題以下, 另外,對于中文文章,副標題一般會以破折號“一一”開始。(2)作者名的抽取作者名的抽取工作最為復雜,因為不同文獻處理作者及相關信息的排版方式種 類繁多,而且中英文文獻略有差異。總體來說,作者名通常位于標題的下方、 地址或郵件等的上方,可能會有一個或多個作者,但大多會在一行排列。中文文章 伴隨作者名的通常有作者單位信息,放在一對圓括號中,而英文文章伴隨作者名 的有作者單位信息,或者還有E -mail信息。因此,在具體實現(xiàn)中,首先定位標題, 如果標題以后不是副標題,那么就可以抽取作者信息了。但是怎樣判斷抽取結束 呢?可以考慮下面幾種情況:下一行是否以左括號開始;下一行中是否含有標識作者單位的名詞,如Department、Center、School、University、Institute 等;下一行中是否含有標識作

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論