辭典數(shù)據(jù)結(jié)構(gòu)英漢漢英_第1頁
辭典數(shù)據(jù)結(jié)構(gòu)英漢漢英_第2頁
辭典數(shù)據(jù)結(jié)構(gòu)英漢漢英_第3頁
辭典數(shù)據(jù)結(jié)構(gòu)英漢漢英_第4頁
辭典數(shù)據(jù)結(jié)構(gòu)英漢漢英_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

[???nn字母組合.對(duì)于任何單詞都有詞頭,但是不一定任何單詞都有詞尾和高頻字母組合.且在每個(gè)詞中詞頭與詞尾只有一個(gè),高頻字母組合可能有多個(gè).對(duì)一個(gè)單詞來講先取詞頭,從剩余部分取詞尾,再從1>.從dict.txt中提取所有單詞,每個(gè)單詞一行all.eng.條詞頭實(shí)際數(shù)據(jù)在文件中的偏移地址.實(shí)際數(shù)據(jù)的結(jié)束字符最為1.單詞詞頭ID單詞首字母(主要是壓縮單詞時(shí)用)ID(ID=-1ID1ID/0/-11/0/-11234sign=10data=IDID<31ID_LEN=5Bits,ID>31ID_LEN=6Bits)sign=11時(shí):sign=00時(shí):sign=01$字母組合$為前綴和后綴標(biāo)志,即:當(dāng)說明該字母組合用于前綴時(shí)的音標(biāo),在字母組合前加字符$此TOKEN表有兩種一種為音標(biāo),另一種為國際音標(biāo)1>DJ音標(biāo)串1音標(biāo)串1音標(biāo)在dict.binsign1bitdatadata格式為:data格式為:ph_id1(Nbits000: 001:一 010:一 011:兩 100:一 101:兩 110:00110:01110:10110:11111:00(sign=0:'off(3bits)...;sign=1:, ';''''/'為分隔符).

統(tǒng)計(jì)詞頻.詞頻*詞長*60%-詞頻*14/8-詞長>060%以上者為高頻詞.生成文件格式:詞頻詞組.去掉重復(fù)的詞組(大包含小):出現(xiàn)頻率相同則刪除長度小(必須完全包含)的詞組.根據(jù)取詞組的原則,檢查詞組的包含關(guān)系時(shí)需要進(jìn)行從詞組頭開始匹配和從詞組為向前匹配兩次匹配檢9.產(chǎn)生的詞組表按照詞組長度排序后作為壓縮用的高頻詞組表,同時(shí)根據(jù)此表對(duì)解釋正根據(jù)高頻詞組表生成高頻詞組表索引表,格式:按照詞組長度分段,即每種長度的詞組在一個(gè)段內(nèi)(共用一個(gè)索引.索引內(nèi)容為:段內(nèi)詞組長度;段首詞組ID;段首起始偏移.生成的高頻詞序.根據(jù)無匹配漢字表生成無匹配漢字的數(shù)據(jù)文件.格式:各個(gè)漢字順序(按照出現(xiàn)頻率由 詞性數(shù)目 無,此時(shí)詞性ID為系統(tǒng)內(nèi)詞性的最大個(gè)數(shù)否則為零至最大個(gè)數(shù)減一=1...一個(gè)1為一 1111...0(編碼原理數(shù)值大的編碼也較長)nbitsn2bitssign=01時(shí):sign=10時(shí):data=1 =0 sents.bin(onepage512bytessents_idsents_data_lenhost_word_idword_numword_id...sents_expl 壓縮動(dòng)詞過去式,過去分詞生成verb.bin(onepage256bytes)格式:data_lenhost_word_iddid_numdid_word_iddone_numdone_word_id8 17 壓縮形容詞,(onepage256bytes)格式(onepage256bytes (onepage512bytes)diff.bin格式diff_idword_id16 pageIDword_numword_id16bits8 hostfirstsentence(英文+中文)English...?(styleneed)secondsentence(英文+中文)nexthostsents.formatsents.txt經(jīng)處理生成,與diff/diff.format合并生成sents.all.sents.format格式為:hostword/word_num/word1/.../wordn/hostword/word_num/word1/.../wordn/hostwordID/IDID(ifwordID>=130000)格分隔)例句中文部分每個(gè)記錄之后存一個(gè)換行符.(對(duì)于單復(fù)數(shù),過去式,過去分詞,,,現(xiàn)在時(shí),現(xiàn)在分詞,"'s"等重新編碼從最大單詞數(shù)開始?jí)嚎s時(shí)存放單詞ID變換方式碼)..116283ID47句子單詞 句子解釋的壓縮數(shù) 不sents.txtsents.format取得例句原始數(shù)據(jù)文件(sa)中的單詞,在字典數(shù)據(jù)文件中檢索該單詞的單詞號(hào)(ID)寫入新文件sdc(對(duì)于單復(fù)數(shù),過去式,過去分詞,,,現(xiàn)在時(shí),現(xiàn)在分詞,"'sID產(chǎn)生sents.tabhostword1/hostword2/hostword1IDword1word2IDword2的解釋word3IDdiff.bin512Bytes字段 字段含 字段長度該易混詞組 公共解釋壓縮數(shù) 不 單詞 1 1(有易混)2 1 0 1 處理diff.txt:diff.format(易混詞例句文件),其格式為:hostword1/公共解釋/hostword1解釋/hostword1例句hostword2/公共解釋/hostword2hostword2hostword3/公共解釋/hostword3hostword3diff.formatjunksents.format~~~~~尾去掉sents.d中的/~~~~~產(chǎn)生文件處理diff.formatdiff.formatdiff.tab處理diff.docdiff.bin(需要處理完解釋).hosthostwordID0nextword nextwordID即:firstwordsecondwordsecondwordthree wordfirsthostword/1,2.../1,2hostword/sign/1,.../sign/1,...hostwordID/sign/1ID,.../sign/1ID... ..adj.bin256data_len(8bits)hostwordID(17bits)+sign(2bit)+ID(17bit)+sign(2bits)+ID(17bit)注:signhostword/復(fù)數(shù)形式hostwordID復(fù)數(shù)word..hostwordID(17bitsword256byte整字節(jié)輸出hostword/sing/word,../sing/word,..sign:同形容詞hostwordID/sign/過去式,.../sign/(17bits)+sign(2bits)+過去分詞1ID(17bits)+過去分詞2ID(17b)256byte**情態(tài)動(dòng)詞無過去分詞的,ID處理步驟:同形容詞hostwordID/wordhostwordIDword hostwordID1IDN1IDN注:phras.txtdict.txtantonym.txtsynonym.txt動(dòng)詞標(biāo) 反義詞標(biāo) 同義詞標(biāo) 無詞數(shù) 詞無詞數(shù) 詞 voc0.txtdict.txt出處N單詞數(shù)目(2bytes)文件頭大小漢語詞組[>>/$(全角)]英語詞性/英語詞性(可省)1}英語單詞;英語單詞...2}英語單詞;英語單詞...N}英語單詞;英語單詞...@英語詞性/英語詞性(可省) >>/$是繁體/簡(jiǎn)體標(biāo)志(兩者不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論