版式電子文檔表格自動檢測與性能評估_第1頁
版式電子文檔表格自動檢測與性能評估_第2頁
版式電子文檔表格自動檢測與性能評估_第3頁
版式電子文檔表格自動檢測與性能評估_第4頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、版式電子文檔表格自動檢測與性能評估房婧,高良才,仇睿恒,湯幟2012-11-04研究目的(1/2)移動閱讀研究目的(2/2)問題與挑戰(zhàn)(1)現(xiàn)有方法多處理圖像和網(wǎng)頁格式的文檔不支持中文版式文檔的處理頁面布局和表格自身布局的復(fù)雜性問題與挑戰(zhàn)(2)缺少公開可用的數(shù)據(jù)集缺少合理的評估準(zhǔn)則人工評估效率低且不易復(fù)現(xiàn)研究方法表格定位針對版式文檔的特點,提出一種表格線分割符和表格文本布局特征相結(jié)合的方法效果評估建立一套自動評估系統(tǒng),提供免費下載*構(gòu)建數(shù)據(jù)集標(biāo)注基準(zhǔn)細(xì)粒度評估準(zhǔn)則* /marmot_data.htm表格定位(1/6)頁面布局(分欄)表格既可能位于單欄內(nèi),也可能貫穿多欄單頁頁面上的前景空白*和多

2、頁文檔的分欄位置相似性表格線檢測解析圖形流 繪制指令(m,l,re,c, v, y)與坐標(biāo)參數(shù)直線、矩形拆分,坐標(biāo)拼接和聚類直線段裁剪區(qū)縮小范圍Breuel TM. Two geometric algorithms for layout analysis. DAS, 2002, Princeton, USA, 188-199表格定位(2/6)解析文字流字符(文本、最小包圍矩形、字體、坐標(biāo)等)文字行豎直方向包圍矩形的交疊,字符間距表格定位(3/6)布局特征每列上的單元格之間都有水平方向的交疊,列與列之間互不干擾,由空白分隔開表格和頁面正文內(nèi)容的排版遵從相同的規(guī)則,即向右向下的順序排版,向右成行、

3、向下成列形成文本塊深度遍歷(行間向下,行內(nèi)向右)表格定位(4/6)文本塊篩選表線篩選距離表格塊遠(頁眉頁腳線)表格線上下兩側(cè)多文本段表格定位(5/6)有線表水平表格線按照長短排序從最長線開始判斷是否與多條豎直表格線相交確定表格邊界刪除與邊界有交集的其他表線,避免區(qū)域交疊與嵌套直到所有水平線遍歷完成無線表在欄內(nèi)橫向貫穿合并候選表格列文本塊相鄰塊縱向空白檢測合并表格定位(6/6)后處理表格區(qū)域內(nèi)至少包含兩行兩列區(qū)域內(nèi)不包含曲線圖形元素(區(qū)分圖形)區(qū)域內(nèi)不會只包含豎直方向的直線(區(qū)分矩陣)自動評估(1/4)數(shù)據(jù)集構(gòu)建2000PDF頁面中英文比例 1:1中文:阿帕比數(shù)字圖書館英文:網(wǎng)絡(luò)爬取的科技文獻表

4、格頁與非表格頁 1:1數(shù)據(jù)集以XML格式描述的被標(biāo)注基準(zhǔn)結(jié)果600dpi的頁面原圖像頁面基本對象(字符、圖形、圖像元素)的XML描述自動評估(2/4)表格表格標(biāo)題,表格體,表格腳注文本行字符其他邏輯結(jié)構(gòu)段落、圖像、公式等自動評估(3/4)評價準(zhǔn)則錯誤類型&定量系數(shù)General error typesSubtypes for mobile readingfakefake_figure; fake_matrix; fake_list;fake_mixamplifiedamplified_tabaccessory; amplified_matrices;amplified_mixsplitteds

5、plitted_horizontal; splitted_verticalmergedmerged_horizontal; merged _verticalreducedreducedmissedmissed自動評估(4/4)評估準(zhǔn)則由每個表格分別命中的錯誤類型(可能對應(yīng)多種),統(tǒng)計每種錯誤類型被命中的表格總數(shù)每個表格綜合懲罰分值(各錯誤類型懲罰分值的最大值)符號注釋符號注釋NR真實表格的數(shù)目NFA誤判,但可接受表格的數(shù)目NM遺漏表格的數(shù)目NFU誤判,且不可接受表格的數(shù)目NA可接受表格的數(shù)目準(zhǔn)確率NA / (NR + NFA + NFU - NM)召回率NA / (NR + NFA)實驗結(jié)果(1/2)英文測試集中文測試集方法pdf2tabletableseer本文pdf2tabletableseer本文NR667667667682682682NM512081506324991NA261232374223192547NFA22137504NFU111272118819準(zhǔn)確率0.350.480.650.350.440.89召回率0.380.350.530.340.280.80實驗結(jié)果(2/2)結(jié)論提出版式電子文檔表格定位與自動評估方法優(yōu)勢尤其體現(xiàn)在:文本布局復(fù)雜,但是具有表格線

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論