




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
[???nn字母組合.對(duì)于任何單詞都有詞頭,但是不一定任何單詞都有詞尾和高頻字母組合.且在每個(gè)詞中詞頭與詞尾只有一個(gè),高頻字母組合可能有多個(gè).對(duì)一個(gè)單詞來講先取詞頭,從剩余部分取詞尾,再從1>.從dict.txt中提取所有單詞,每個(gè)單詞一行all.eng.條詞頭實(shí)際數(shù)據(jù)在文件中的偏移地址.實(shí)際數(shù)據(jù)的結(jié)束字符最為1.單詞詞頭ID單詞首字母(主要是壓縮單詞時(shí)用)ID(ID=-1ID1ID/0/-11/0/-11234sign=10data=IDID<31ID_LEN=5Bits,ID>31ID_LEN=6Bits)sign=11時(shí):sign=00時(shí):sign=01$字母組合$為前綴和后綴標(biāo)志,即:當(dāng)說明該字母組合用于前綴時(shí)的音標(biāo),在字母組合前加字符$此TOKEN表有兩種一種為音標(biāo),另一種為國際音標(biāo)1>DJ音標(biāo)串1音標(biāo)串1音標(biāo)在dict.binsign1bitdatadata格式為:data格式為:ph_id1(Nbits000: 001:一 010:一 011:兩 100:一 101:兩 110:00110:01110:10110:11111:00(sign=0:'off(3bits)...;sign=1:, ';''''/'為分隔符).
統(tǒng)計(jì)詞頻.詞頻*詞長*60%-詞頻*14/8-詞長>060%以上者為高頻詞.生成文件格式:詞頻詞組.去掉重復(fù)的詞組(大包含小):出現(xiàn)頻率相同則刪除長度小(必須完全包含)的詞組.根據(jù)取詞組的原則,檢查詞組的包含關(guān)系時(shí)需要進(jìn)行從詞組頭開始匹配和從詞組為向前匹配兩次匹配檢9.產(chǎn)生的詞組表按照詞組長度排序后作為壓縮用的高頻詞組表,同時(shí)根據(jù)此表對(duì)解釋正根據(jù)高頻詞組表生成高頻詞組表索引表,格式:按照詞組長度分段,即每種長度的詞組在一個(gè)段內(nèi)(共用一個(gè)索引.索引內(nèi)容為:段內(nèi)詞組長度;段首詞組ID;段首起始偏移.生成的高頻詞序.根據(jù)無匹配漢字表生成無匹配漢字的數(shù)據(jù)文件.格式:各個(gè)漢字順序(按照出現(xiàn)頻率由 詞性數(shù)目 無,此時(shí)詞性ID為系統(tǒng)內(nèi)詞性的最大個(gè)數(shù)否則為零至最大個(gè)數(shù)減一=1...一個(gè)1為一 1111...0(編碼原理數(shù)值大的編碼也較長)nbitsn2bitssign=01時(shí):sign=10時(shí):data=1 =0 sents.bin(onepage512bytessents_idsents_data_lenhost_word_idword_numword_id...sents_expl 壓縮動(dòng)詞過去式,過去分詞生成verb.bin(onepage256bytes)格式:data_lenhost_word_iddid_numdid_word_iddone_numdone_word_id8 17 壓縮形容詞,(onepage256bytes)格式(onepage256bytes (onepage512bytes)diff.bin格式diff_idword_id16 pageIDword_numword_id16bits8 hostfirstsentence(英文+中文)English...?(styleneed)secondsentence(英文+中文)nexthostsents.formatsents.txt經(jīng)處理生成,與diff/diff.format合并生成sents.all.sents.format格式為:hostword/word_num/word1/.../wordn/hostword/word_num/word1/.../wordn/hostwordID/IDID(ifwordID>=130000)格分隔)例句中文部分每個(gè)記錄之后存一個(gè)換行符.(對(duì)于單復(fù)數(shù),過去式,過去分詞,,,現(xiàn)在時(shí),現(xiàn)在分詞,"'s"等重新編碼從最大單詞數(shù)開始?jí)嚎s時(shí)存放單詞ID變換方式碼)..116283ID47句子單詞 句子解釋的壓縮數(shù) 不sents.txtsents.format取得例句原始數(shù)據(jù)文件(sa)中的單詞,在字典數(shù)據(jù)文件中檢索該單詞的單詞號(hào)(ID)寫入新文件sdc(對(duì)于單復(fù)數(shù),過去式,過去分詞,,,現(xiàn)在時(shí),現(xiàn)在分詞,"'sID產(chǎn)生sents.tabhostword1/hostword2/hostword1IDword1word2IDword2的解釋word3IDdiff.bin512Bytes字段 字段含 字段長度該易混詞組 公共解釋壓縮數(shù) 不 單詞 1 1(有易混)2 1 0 1 處理diff.txt:diff.format(易混詞例句文件),其格式為:hostword1/公共解釋/hostword1解釋/hostword1例句hostword2/公共解釋/hostword2hostword2hostword3/公共解釋/hostword3hostword3diff.formatjunksents.format~~~~~尾去掉sents.d中的/~~~~~產(chǎn)生文件處理diff.formatdiff.formatdiff.tab處理diff.docdiff.bin(需要處理完解釋).hosthostwordID0nextword nextwordID即:firstwordsecondwordsecondwordthree wordfirsthostword/1,2.../1,2hostword/sign/1,.../sign/1,...hostwordID/sign/1ID,.../sign/1ID... ..adj.bin256data_len(8bits)hostwordID(17bits)+sign(2bit)+ID(17bit)+sign(2bits)+ID(17bit)注:signhostword/復(fù)數(shù)形式hostwordID復(fù)數(shù)word..hostwordID(17bitsword256byte整字節(jié)輸出hostword/sing/word,../sing/word,..sign:同形容詞hostwordID/sign/過去式,.../sign/(17bits)+sign(2bits)+過去分詞1ID(17bits)+過去分詞2ID(17b)256byte**情態(tài)動(dòng)詞無過去分詞的,ID處理步驟:同形容詞hostwordID/wordhostwordIDword hostwordID1IDN1IDN注:phras.txtdict.txtantonym.txtsynonym.txt動(dòng)詞標(biāo) 反義詞標(biāo) 同義詞標(biāo) 無詞數(shù) 詞無詞數(shù) 詞 voc0.txtdict.txt出處N單詞數(shù)目(2bytes)文件頭大小漢語詞組[>>/$(全角)]英語詞性/英語詞性(可省)1}英語單詞;英語單詞...2}英語單詞;英語單詞...N}英語單詞;英語單詞...@英語詞性/英語詞性(可省) >>/$是繁體/簡(jiǎn)體標(biāo)志(兩者不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 試用期提前轉(zhuǎn)正了合同5篇
- 項(xiàng)目資金預(yù)算表-項(xiàng)目資金籌措與預(yù)算
- 建筑工程合同種類
- 2025年淮南資格證模擬考試
- 2025年江西貨運(yùn)從業(yè)資格證考試題答案解析大全
- 云服務(wù)器托管服務(wù)及支持合同
- 個(gè)人酒店承包經(jīng)營合同8篇
- 上海員工的勞動(dòng)合同范本5篇
- 課題申報(bào)書參考文獻(xiàn)格式
- 中國電建合同范本
- 鎳礦石購銷合同
- (新版)電工三級(jí)-職業(yè)技能等級(jí)認(rèn)定考試題庫(學(xué)生用)
- 《高性能樹脂》課件
- 中央2024年中央宣傳部直屬單位招聘106人筆試歷年典型考題及考點(diǎn)附答案解析
- 《教育向美而生-》讀書分享課件
- 拒絕校園欺凌從我做起完整版課件
- 幼兒園《認(rèn)識(shí)醫(yī)生和護(hù)士》課件
- 技術(shù)進(jìn)口合同登記證
- DZ∕T 0372-2021 固體礦產(chǎn)選冶試驗(yàn)樣品配制規(guī)范(正式版)
- 細(xì)菌的分離培養(yǎng)與培養(yǎng)特性觀察課件講解
- 國家電網(wǎng)公司輸變電工程工藝標(biāo)準(zhǔn)庫變電工程部分
評(píng)論
0/150
提交評(píng)論