基于CodingTree模型的公路數(shù)字化檔案標(biāo)識編碼的應(yīng)用與研究(論文)_第1頁
基于CodingTree模型的公路數(shù)字化檔案標(biāo)識編碼的應(yīng)用與研究(論文)_第2頁
基于CodingTree模型的公路數(shù)字化檔案標(biāo)識編碼的應(yīng)用與研究(論文)_第3頁
基于CodingTree模型的公路數(shù)字化檔案標(biāo)識編碼的應(yīng)用與研究(論文)_第4頁
基于CodingTree模型的公路數(shù)字化檔案標(biāo)識編碼的應(yīng)用與研究(論文)_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于CodingTree模型的公路數(shù)字化檔案標(biāo)識編碼的應(yīng)用與研究 國家檔案局科技項(xiàng)目“基于唯一性標(biāo)識編碼與公路數(shù)字化檔案相關(guān)性的應(yīng)用研究”(項(xiàng)目編號:2014-X-57)羅 竟1 唐修益 2 黃汝維3(1. 廣西交通職業(yè)技術(shù)學(xué)院,廣西 南寧 530023;2. 廣西紅河高速公路有限公司廣西 南寧 530022;3. 廣西大學(xué),廣西 南寧 530024;)摘要 設(shè)計公路數(shù)字化檔案的標(biāo)識編碼為“項(xiàng)目代號+屬性+類別+流水號”組成的“四段位”。 利用概率分析、實(shí)驗(yàn)測試和命題證明等手段,選取全國29個省、直轄市、自治區(qū)的2315個地名和途徑以上地區(qū)的592條高速公路的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析,證明了該編碼方案

2、合理性。該編碼方案與歸檔材料建立良好相關(guān)關(guān)系。 關(guān)鍵詞 公路;工程檔案;標(biāo)識編碼;概率;二項(xiàng)分布 中圖分類號 U416.217 文獻(xiàn)標(biāo)識碼 A 0引言高速公路工程檔案數(shù)據(jù)化建設(shè),是近年來國內(nèi)交通行業(yè)攻關(guān)的任務(wù)。實(shí)現(xiàn)工程檔案數(shù)字化建設(shè),需要研究歸檔材料的標(biāo)識編碼。國家檔案局2014年立項(xiàng)課題1創(chuàng)立了公路工程數(shù)字化檔案唯一性標(biāo)識編碼,并與檔案材料、計算機(jī)管理具有良好的相關(guān)性。該編碼方法已成功應(yīng)用于S52廣西武宣至平果高速公路來賓至馬山段、馬山至平果段工程檔案計算機(jī)管理,實(shí)現(xiàn)工程檔案數(shù)字化。本文提出了基于CodingTree模型建立的“項(xiàng)目代號+屬性+類別+流水號”四段位編碼方案,采用概率分析、實(shí)驗(yàn)

3、測試和命題證明等手段,驗(yàn)證了編碼的唯一性。該編碼方案為高速公路信息化建設(shè)中各類文件提供了唯一的編碼,實(shí)現(xiàn)了一頁(卷、件)一碼,是一種有效的編碼。1唯一性標(biāo)識編碼設(shè)計1.1 問題描述數(shù)字化檔案管理,需要實(shí)現(xiàn)歸檔材料的 “一卷、一頁(件)一碼”,其核心問題是要找到每一案卷和每一頁的拓?fù)潢P(guān)系。將公路工程立卷歸檔材料進(jìn)行分類,設(shè)計每一卷、每一個文件、一頁(件)均采用“項(xiàng)目代號+屬性+類別+流水號”的四段位方式編碼,可以清晰地定位任何一張表、文檔、案卷的唯一位置。1.2“四段位”標(biāo)識編碼的設(shè)計公路工程檔案唯一性編碼,需要考慮項(xiàng)目名稱,屬性,材料類別及順序號等諸多因素。項(xiàng)目名稱包括路線代號,經(jīng)過的省、自治

4、區(qū)、直轄市及項(xiàng)目起訖地名。材料屬性特指案卷的立卷單位類別及順序號。表1定義了屬性的類別。材料類別既要識別文獻(xiàn)2附件二中的每一部分資料的綱,又要判斷歸檔材料歸并為單位分部分項(xiàng)工序類、年度批次類、獨(dú)立成冊的散裝文件類、圖紙類、聲像類及其他等6大類之一類別3。順序號也稱流水號,涵蓋案卷卷皮檔號的案卷自然流水號,卷內(nèi)目錄文件順序號及歸檔材料的每頁(件)的流水號。這4個段位,組合起來,就是本文的“四段位”。表1 歸檔材料的屬性類別及代號 資料類別綜合文件決算和審計文件監(jiān)理資料施工資料科研、新技術(shù)管養(yǎng)資料一級代號123456立卷單位項(xiàng)目業(yè)主項(xiàng)目業(yè)主監(jiān)理施工項(xiàng)目業(yè)主營運(yùn)公司注:表中15一級代號來源于文獻(xiàn)2附

5、件2, “6”為添加代號以公路數(shù)字化檔案唯一性標(biāo)識編碼詞典3中范例為案例,“四段位”標(biāo)識編碼設(shè)計如下圖1。S52GXLM 401 3J01A01A010W01001065 項(xiàng)目代號 屬性 類別號 頁碼流水號 案卷流水號 圖1 項(xiàng)目標(biāo)識符編碼圖1案例的“四段位”含義依次為:省高速公路網(wǎng)廣西武宣至平果高速公路(S52GX),來賓至馬山段(LM);施工資料(4),第1標(biāo),對應(yīng)第1段落(01);質(zhì)量評定(3),路基單位工程(J01),路基土石方分部工程(A01),土方路基分項(xiàng)工程(A01),工序(0),分項(xiàng)工程質(zhì)量檢驗(yàn)評定表(W01),第1頁(001);第65案卷(065)。上述編碼段位中,國家高速公

6、路代號通過文獻(xiàn)4查找。省級高速公路網(wǎng)在各省規(guī)劃中也有規(guī)定代號5。各部分資料所屬的第一層次綱在文獻(xiàn)2附件2中規(guī)定。為精簡編碼位數(shù),案卷卷皮封面檔號編碼,缺省類別及頁碼流水號。卷內(nèi)目錄缺省類別號。每頁編碼中,線裝案卷缺省案卷總流水號。2建模論證2.1標(biāo)識編碼拓?fù)潢P(guān)系依據(jù)上述有關(guān)文件,公路工程歸檔材料的標(biāo)識編碼按照圖3所示的樹型結(jié)構(gòu)進(jìn)行組織。圖2 編碼的樹型結(jié)構(gòu)根據(jù)以上分析可知,高速公路文檔的標(biāo)識編碼可以基于多叉樹結(jié)構(gòu)進(jìn)行建模。編碼的樹型模型CodingTree如下:CodingTree=(Root,Nodes,Leaves),其中:(1)Root是根結(jié)點(diǎn),代表一條高速公路。(2)Nodes是非根、

7、非葉子結(jié)點(diǎn)的集合,該類結(jié)點(diǎn)代表各類檔案文件的分類。(3)Leaves是葉子結(jié)點(diǎn)的集合,該類結(jié)點(diǎn)代表具體的檔案文件。(4)nodei.father表示結(jié)點(diǎn)nodei的父結(jié)點(diǎn)。(5)nodei.childj表示結(jié)點(diǎn)nodei的第j個子結(jié)點(diǎn);(6)nodei.value表示結(jié)點(diǎn)nodei的值;(7)任取nodei和nodej(nodei Root且nodej Root),如果nodei.father=nodej.father,則nodei.value nodej.value。(8)nodei.path是從根結(jié)點(diǎn)開始到結(jié)點(diǎn)nodei的完整路徑,即該結(jié)點(diǎn)在整個樹型結(jié)構(gòu)中的編碼,即nodei.path=r

8、oot.value+nodei.father.value+nodei.value,“+”表示字符串的連接運(yùn)算。根據(jù)CodingTree定義中的(7)可知,任何結(jié)點(diǎn)沒有兩個值相同的子結(jié)點(diǎn),從而確保了編碼的唯一性。這也是CodingTree區(qū)別于一般多叉樹結(jié)構(gòu)的地方?;谠撃P?,設(shè)計 “項(xiàng)目代號+屬性+類別+流水號”四段位編碼方案3。2.2編碼唯一性分析項(xiàng)目代號的路線代號、各省行政區(qū)劃代碼具有唯一性;屬性、歸檔材料類別及順序號均為唯一性。因此,只需證明項(xiàng)目代號段位中的起訖地名拼音組合碼的重復(fù)概率。地名拼音字母碼的構(gòu)成分為兩種情況:首先,采用路段起訖位置地名的第一個拼音字母碼組合,如:來賓至馬山段(

9、LM);其次,當(dāng)起訖地名拼音首字母組合同名時再取起點(diǎn)或終點(diǎn)地名第二個字母加入組合,如:來賓至馬山段(LAM)。通過概率分析和實(shí)驗(yàn)測試的方法,可以分析這兩種情況下字母碼組合的重復(fù)概率。2.2.1 二項(xiàng)分布理論計算重復(fù)概率二項(xiàng)分布的定義:在同樣的條件下重復(fù)地、各次之間相互獨(dú)立地進(jìn)行n次獨(dú)立試驗(yàn),數(shù)學(xué)上歸結(jié)為伯努利試驗(yàn)。在每次實(shí)驗(yàn)中只有兩種可能的結(jié)果,而且兩種結(jié)果發(fā)生與否HYPERLINK /view/731399.htm t _blank互相對立且HYPERLINK /subview/143203/5111443.htm t _blank獨(dú)立,與其它各次實(shí)驗(yàn)結(jié)果無關(guān),事件發(fā)生與否的概率在每一次HY

10、PERLINK /view/11768574.htm t _blank獨(dú)立實(shí)驗(yàn)中都保持不變。如果事件發(fā)生的概率是 ,則不發(fā)生的概率 ,n次獨(dú)立重復(fù)試驗(yàn)中發(fā)生k次的概率是:P(=k)= C(n,k) pk (1-p)n-k (1)其中,C(n, k) = n!/(k! (n-k)!) 參考二項(xiàng)分布的定義,將項(xiàng)目的起訖位置地名拼音字母碼組合的比較當(dāng)成抽取實(shí)驗(yàn)。抽取實(shí)驗(yàn)是每次從若干個字母中任取兩個構(gòu)成一個字母對,重復(fù)n次,然后對抽取結(jié)果進(jìn)行比較并統(tǒng)計有多少個字母對重復(fù)。抽取實(shí)驗(yàn)只有兩種互斥且獨(dú)立的結(jié)果,即重復(fù)與不重復(fù)。每次抽取實(shí)驗(yàn)都相互獨(dú)立,并且對于同一數(shù)據(jù)集其重復(fù)的概率不會發(fā)生變化。通過以上分析可

11、見,進(jìn)行n次項(xiàng)目的起訖位置地名拼音字母對的比較,字母對發(fā)生重復(fù)的k次是一個服從二項(xiàng)分布B(n,p)的隨機(jī)變量。設(shè)項(xiàng)目的起訖位置地名字母碼組合的樣本空間為 =A1,A2,A3An,在地名數(shù)量為m(m1)的情況下, (2)由于重復(fù)次數(shù)大于兩次的概率值極小,所以在概率計算時僅計算重復(fù)一次和兩次的情況。下面分別針對建設(shè)項(xiàng)目具體段落代號編碼的兩種構(gòu)成情況進(jìn)行討論。在采用路段起訖位置地名的第一個字母碼組合的情況下,假設(shè)用 表示每次比較發(fā)生重復(fù)的概率, 是每次比較不重復(fù)的概率,則有: (3) (4) 其中, 表示先從m個地名中隨機(jī)抽取一個地名的首字母作為起始地首字母,再從m-1個地名中隨機(jī)抽取一個地名的首字

12、母作為終點(diǎn)首字母。由于結(jié)果要么重復(fù),要么不重復(fù),因此再乘上12。所以,第一種情況下比較n次發(fā)生重復(fù)的概率如下: (5)當(dāng)起訖地名首字母組合同名時取起點(diǎn)或終點(diǎn)地名第二個字母碼的情況下,假設(shè)用 表示每次比較發(fā)生重復(fù)的概率, 是每次比較不重復(fù)的概率,則有: (6) (7)其中, 表示先從m個地名中隨機(jī)抽取一個地名的首字母作為起始地首字母,由于同一個地名的第二個字母可能與第一個字母不一樣,因此可看成再從m個字母中抽取一個作為起始地的第二個字母,接著從m-1個地名中隨機(jī)抽取一個地名的首字母作為終點(diǎn)首字母,由于結(jié)果要么重復(fù),要么不重復(fù),因此再乘上12。所以,第二種情況下比較n次發(fā)生重復(fù)的概率如下: (8)

13、2.2.2 反正法論證組合碼的唯一性證明了各段位的唯一性后,還要證明四段位組合起來整體標(biāo)識編碼的唯一性。命題:在高速公路樹形編碼中,不存在編碼相同的葉結(jié)點(diǎn)。證明:用反證法。設(shè)結(jié)點(diǎn)Na和Nb的編碼是相同的,記為e1,e2,,em,即IDN(Na)=IDN(Nb)。因?yàn)槎际菢渲械慕Y(jié)點(diǎn),必存在共同的祖先結(jié)點(diǎn)(至少樹的根結(jié)點(diǎn)是所有非根結(jié)點(diǎn)的祖先結(jié)點(diǎn))。設(shè)其編碼為e1,e2,em,其祖先結(jié)點(diǎn)分別為Na, Nb。顯然Na , Nb是兄弟結(jié)點(diǎn),所以RID (Na)=RID(Nb),即Na , Nb的相對編碼的長度相同。因?yàn)樽嫦冉Y(jié)點(diǎn)的絕對編碼是后代結(jié)點(diǎn)絕對編碼的子串,因此IDN(Na)=e1,e2.em-k,

14、IDN(Nb)=e1,e2.em-k,又因?yàn)镹a , Nb是兄弟結(jié)點(diǎn),所以RID(Na )=RID(Nb),這就與樹形編碼系統(tǒng)中兄弟結(jié)點(diǎn)的相對編碼的互異性相矛盾。所以,高速公路樹形編碼系統(tǒng)中不存在編碼完全相同的2個結(jié)點(diǎn)。3 重復(fù)概率計算3.1高速公路任意地名拼音碼組合高速公路通常不會出現(xiàn)跨省建設(shè)、營運(yùn)。因此,統(tǒng)計全國各省、自治區(qū)和直轄市內(nèi)高速公路途經(jīng)的所有縣、鄉(xiāng)地名來計算重復(fù)概率。根據(jù)文獻(xiàn)4、 6及各省級高速公路網(wǎng)等資料,表2統(tǒng)計了全國各省的地名數(shù)目。表2 各省地名數(shù)目統(tǒng)計省份數(shù)量m省份數(shù)量m省份數(shù)量m北京9 山東110福建68上海10廣西87西藏24天津6江西91陜西97重慶32云南126甘

15、肅82河北145遼寧60青海42黑龍江80浙江79四川130內(nèi)蒙古88寧夏20貴州81吉林48海南20臺灣28湖北82河南129江蘇75湖南99山西106新疆85廣東98安徽78根據(jù)公式(2)(8),分別計算兩種情況下各省起訖地名的重復(fù)概率,結(jié)果如表3所示。表3 兩種情況的重復(fù)概率(%)省份情況1情況2省份情況1情況2省份情況1情況2北京3.510-23.810-3山東4.610-304.210-32福建7.710-181.110-19上海4.410-24.410-3廣西2.410-232.810-25西藏1.610-56.710-7天津2.310-13.810-2江西1.710-241.91

16、0-27陜西2.910-263.010-28重慶1.110-73.410-8云南9.310-357.410-37甘肅6.910-228.410-24河北2.310-401.510-42遼寧1.510-152.510-18青海1.910-104.510-13黑龍江2.610-211.310-25浙江5.110-216.510-23四川6.110-364.710-38內(nèi)蒙古1.210-236.210-24寧夏1.810-4910-5貴州1.310-214.610-24吉林4.010-122.010-16海南1.810-4910-5臺灣1.410-6510-8湖北1.210-111.410-15河南

17、1.210-359.310-39江蘇7.310-209.710-22湖南7.710-277.810-29山西6.910-296.510-31新疆9.210-231.110-24廣東1.510-267.810-29安徽9.910-211.210-22表3可知,起訖地名拼音首字母組合重復(fù)的概率最大為2.310-1;起始地名拼音首、次與終點(diǎn)地名拼音首字母組合重復(fù)的概率最大為3.810-2。可見,從概率論的角度來看,采用路段起訖位置地名的第一個字母碼組合或第一和第二個字母碼組合的方式表示建設(shè)項(xiàng)目具體段落代號是有可能出現(xiàn)重復(fù)現(xiàn)象的。但是總的來看,重復(fù)的概率是較低的,例如在第一種情況下,進(jìn)行1000次不同

18、地名首字母組合的比較才會出現(xiàn)2個重復(fù)的地名;采用路段起訖位置地名的第一個字母碼對與起點(diǎn)或終點(diǎn)的第二個字母碼組合的方式的確可以有效地減小重復(fù)概率。3.2高速公路途經(jīng)地名組合參考國家高速公路網(wǎng)命名和編號規(guī)則4、中華人民共和國行政區(qū)劃代碼6,選取全國29個省、直轄市、自治區(qū)的2315個地名和途徑以上地區(qū)的592條高速公路的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析,統(tǒng)計結(jié)果如表4所示:表4可知,第一種情況的重復(fù)率最大為4.810-3%;第二種情況的重復(fù)率都為0。所以在實(shí)際的應(yīng)用中,采用路段起訖位置地名拼音首字母碼對與起點(diǎn)或終點(diǎn)的第二個字母碼組合的方式可以消除重復(fù)現(xiàn)象,使得唯一性得到了保障。表4 實(shí)驗(yàn)測試結(jié)果,%省份情況1情況

19、2省份情況1情況2省份情況1情況2北京00山東00福建00上海00廣西00西藏00天津00江西00陜西00重慶00云南6.3*10-3%0甘肅00河北4.8*10-30遼寧00青海00黑龍江00浙江00四川5.9*10-30內(nèi)蒙古00寧夏00貴州00吉林00海南00臺灣00湖北00河南6*10-30江蘇00湖南00山西00新疆00廣東00安徽00 4效果“四段位”編碼與項(xiàng)目文件的錄入與上傳、組卷與排序、檢索與查詢、材料類別與分類均建立了良好關(guān)系。引入二維碼技術(shù),課題將編碼規(guī)則直接應(yīng)用到軟件開發(fā)中。依托S52廣西來賓至馬山段、馬山至平果段工程檔案建設(shè)項(xiàng)目,全部實(shí)現(xiàn)計算機(jī)自動編碼,加快了錄入、上傳速度,降低了容錯率。圖3為自動生成編碼、標(biāo)題欄及信息區(qū)信息的截圖。圖3 系統(tǒng)自動生成截圖5結(jié)論本文提出的基于CodingTree模型的 “項(xiàng)目代號+屬性+

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論