



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、基于PKI的密文檢索系統(tǒng)李新中國 北京 中國科學(xué)院計算機網(wǎng)絡(luò)信息中心 OA室,100864摘要:本文在PKI和全文檢索技術(shù)的基礎(chǔ)上,實現(xiàn)了在不解密的條件下的數(shù)據(jù)檢索。本文所論述的密文檢索是對全文檢索技術(shù)的改造,在這里幾乎保留了全文檢索的全部技術(shù),只對索引文件的索引詞進行了加密處理,便于系統(tǒng)實現(xiàn)。密文檢索系統(tǒng)的加密、解密發(fā)生在客戶端,有效的降低了數(shù)據(jù)安全對服務(wù)器和網(wǎng)絡(luò)環(huán)境安全的依賴。文章最后簡要討論了密文檢索中的密鑰共享問題。關(guān)鍵詞:密文檢索、全文檢索、加密Ciphertext Query System Based on PKILI XinOffice Automation Laboratory
2、, Computer Network Information Center, Chinese Academy of Sciences, Beijing, 100080Abstract:Without decrypted, a kind of full search index is set up on the base on PKI and full search index technology. Because the only change between new and old full search index technology is the encryption of inde
3、x words in the index file and the other all is almost same, this system will be easy to set up. Because the encrytion and decryption are do on the client side, the dependence of data security upon the server and network security is decreased greatly. The problem of share of encrypt key is briefly di
4、scussed in the last of this paper.Keyword:Query on Ciphertext, Full Search Index, Encrypt1引言電子文檔的存儲方式為數(shù)據(jù)的檢索和利用提供了極大的方便,因此,越來越多的業(yè)務(wù)數(shù)據(jù)成為電子文檔,其中也包括一些敏感數(shù)據(jù)。為了保護敏感數(shù)據(jù),有時需要進行加密存儲。加密技術(shù)在提高數(shù)據(jù)安全性的同時,也為數(shù)據(jù)的檢索設(shè)置了障礙。源本可以很方便檢索到數(shù)據(jù),經(jīng)過加密處理后成為不可檢索的內(nèi)容。如果密文數(shù)據(jù)的數(shù)量非常龐大,而又缺乏有效的檢索手段,將會嚴(yán)重影響密文數(shù)據(jù)的利用1-2。作者簡介:李新(1966),男,山東淄博人,博士后,副研
5、究員,主要研究領(lǐng)域為信息安全、辦公自動化關(guān)鍵技術(shù)、軟件工程工業(yè)化。一般的明文數(shù)據(jù)檢索系統(tǒng)都有一套權(quán)限管理手段,數(shù)據(jù)的存儲與權(quán)限的管理設(shè)計在系統(tǒng)兩個不同的層次上,這兩個層次的偶合程度非常低,系統(tǒng)邏輯相對簡單。與此不同的是,在密文數(shù)據(jù)檢索系統(tǒng)中,密文數(shù)據(jù)是由明文數(shù)據(jù)與密鑰計算而來,由于密鑰在一定程度上反應(yīng)了權(quán)限邏輯,因此,權(quán)限邏輯通過密鑰傳遞到數(shù)據(jù)存儲層,這大大增加了數(shù)據(jù)存儲與權(quán)限管理兩個層次的偶合程度,系統(tǒng)的設(shè)計相對復(fù)雜。2全文檢索引擎技術(shù)路線的選擇只所以能夠從海量數(shù)據(jù)中較快取得相關(guān)信息,全文檢索依賴事先建立的基于索引項的索引庫。其原理是索引程序掃描數(shù)據(jù)中的索引項,在索引文件中對每一個索引項建立
6、一個索引,指明該索引項在數(shù)據(jù)中出現(xiàn)的次數(shù)和位置;當(dāng)用戶查詢時,檢索程序?qū)⒂脩舨樵儣l件分解為索引項,在事先建立的索引庫中進行查找(而不是從原始數(shù)據(jù)中查找),并將查找的結(jié)果反饋給用戶。英文句子的單詞之間有固定的空格,英文全文檢索系統(tǒng)可以簡單的以單詞為索引項。中文句子中詞與詞之間沒有間隔,因此,在中文全文檢索系統(tǒng)中,索引項的選擇是一個基本的,也是非常重要的問題。據(jù)此,可以將中文全文檢索引擎分成兩大類:基于字的全文檢索引擎和基于詞的全文檢索引擎?;谧值娜臋z索引擎使用單字為索引項,將文章中的每一個字都錄入索引庫中,對用戶的檢索提問根據(jù)單字匹配的原則去進行檢索。按照GB2312的規(guī)定共有6763個漢字
7、。這樣索引集合就非常小,最大不會超過6763,在這一點上基于字的全文檢索引擎具有十分明顯的優(yōu)勢?;谠~的全文檢索引擎以中文句子中的詞為索引項,更符合人的自然思維習(xí)慣。以詞為索引項,就要進行分詞,由于在中文句子中詞與詞之間不存在分隔符,因此,將由漢字組成的字符串進行正確的分詞不是一件十分容易的事。分詞一般都要借助詞典來進行,而中文的構(gòu)詞非常靈活,詞的數(shù)目幾乎是無限的,因此要構(gòu)造完備的詞典幾乎是不可能的。為了克服以詞為索引項所帶來的困難,人們還提出了一些別的方法,如:二元,三元語法索引項等3-4。有兩個指標(biāo)可以評價檢索引擎的檢索質(zhì)量:查全率和查準(zhǔn)率。查全率和查準(zhǔn)率是信息檢索中的一對矛盾,人們在選擇
8、檢索引擎的時候往往不能兩全。一般認為,提高查全率,返回更多的查詢結(jié)果,會相應(yīng)降低查準(zhǔn)率;提高查準(zhǔn)率,只返回精確的匹配結(jié)果,會相應(yīng)降低查全率,即查全率和查準(zhǔn)率成反比。如果被檢索的數(shù)據(jù)量非常大,為防止返回太多的無用信息,可以選擇查準(zhǔn)率較高的搜索引擎;如果被檢索的數(shù)據(jù)量有限,可以選擇查準(zhǔn)率較高的搜索引擎,避免信息遺漏。字是自然語言的最小顆粒,以字為索引單位的搜索引擎,如果查詢條件選擇得當(dāng),從理論上講幾乎不可能遺漏查詢信息,因此,具有較高的查全率和較低的查準(zhǔn)率。詞包含了更準(zhǔn)確的概念,以詞為索引單位的搜索引擎,由于符合人們的思維習(xí)慣,更有可能返回正確查詢結(jié)果,因此,具有較高的查準(zhǔn)率和較低的查全率。基于詞
9、的全文檢索需要維護一個龐大的詞庫,對于明文全文檢索可以將詞庫放在服務(wù)器端,分詞和檢索都在服務(wù)器端進行,客戶端不需要考慮詞庫的維護問題,因此,詞庫的維護不會影響系統(tǒng)實現(xiàn)。而對于密文全文檢索,由于密鑰安全的要求,不能將密鑰送到服務(wù)器端進行檢索詞的加密、解密,分詞需要在客戶端進行,選擇基于字的全文檢索,可以降低系統(tǒng)的復(fù)雜性,避免詞庫維護。3密文檢索技術(shù)原理目前常用的加密方法分為“對稱算法”和“非對稱算法”兩大類。對稱算法以DES、IDEA為代表,加密、解密采用相同的密鑰,其優(yōu)點是加密、解密速度快;非對稱算法以RSA為代表,加密、解密采用不同的密鑰,其優(yōu)點是密鑰的分發(fā)、管理相對容易?!懊荑€對”是RSA
10、算法的核心,將其中的一個密鑰公開,稱為“公開密鑰”;另外一個密鑰由密鑰持有人專用,稱為“私有密鑰”。公開密鑰用于數(shù)據(jù)加密,私有密鑰用于數(shù)據(jù)解密。為提高保密強度,RSA密鑰至少為512位長,一般推薦使用1024位。這就使得加密、解密的計算量很大。為減少計算量,提高加密、解密速度,常采用非對稱算法與對稱算法相結(jié)合的方式,即:數(shù)據(jù)采用DES或IDEA等對稱算法加密,然后使用RSA公開密鑰加密對稱算法“密鑰”。解密時,首先用RSA私有密鑰解密對稱算法“密鑰”,然后用對稱算法“密鑰”解密數(shù)據(jù)。非對稱算法與對稱算法的結(jié)合使得在保持非對稱算法密鑰的分發(fā)、管理優(yōu)勢的同時,大大提高了加密、解密速度。密文全文檢索
11、的索引文件是加密之前建立的,索引文件描述了詞條在原文中的位置,實際的檢索是在索引文件而不是在原文中查找檢索詞,因此,對原文進行加密不會影響檢索。對于索引文件,我們只對其中的索引詞單獨加密,而不是對整個索引文件進行加密,因此,密文索引文件中的索引詞與檢索時單獨加密的檢索詞,如果明文、密鑰一致則密文一致。因此,可以通過比對檢索詞密文和索引文件中的索引詞密文,找到檢索詞在原文中的位置。加密、解密運算以二進制方式處理數(shù)據(jù),為方便處理,可以采用Base64進行編碼,將二進制數(shù)據(jù)轉(zhuǎn)換成字符型數(shù)據(jù)。4密文檢索技術(shù)實現(xiàn)密文檢索技術(shù)包括加密、解密、檢索及密鑰共享四個部分。4.1加密加密前首先要生成對稱密鑰(以下
12、簡稱密鑰),為了防止來自網(wǎng)絡(luò)內(nèi)部,尤其是系統(tǒng)管理員的安全威脅,密鑰應(yīng)該在客戶端生成。按照全文索引的技術(shù)要求,掃描原文、分詞并建立索引文件,用密鑰對索引文件中的索引詞進行加密及Base64編碼處理,生成密文索引文件。用密鑰對原文進行加密處理,生成密文。用自己的公開密鑰對密鑰進行加密處理生成密鑰密文。圖1 數(shù)據(jù)加密流程將密文索引文件、密文、密鑰密文保存到密文庫中,完成加密操作,見圖1。4.2檢索及解密檢索密文前首先要從密文庫中下載密鑰密文,然后用自己的私有密鑰解密,得到密鑰。將查詢提問分解成檢索詞,用密鑰將檢索詞加密,經(jīng)過Base64編碼,得到檢索詞密文,將檢索詞密文送到密文庫,從密文索引文件中查
13、找密文檢索詞,進行全文檢索。下載符合檢索條件到的密文,用密鑰解密,得到原文,見圖2。圖2 密文檢索流程4.3密鑰共享與密文有關(guān)的系統(tǒng)必然帶來密鑰管理問題5-6。從理論上講,對每個數(shù)據(jù)、每個用戶都使用不同的密鑰,系統(tǒng)安全性最高,但過多的密鑰會給系統(tǒng)的性能帶來很大負擔(dān),且管理不便,因此,密鑰管理的關(guān)鍵是密鑰共享。密鑰共享包括兩個方面的內(nèi)容:“不同數(shù)據(jù)間的密鑰共享”和“不同用戶間的密鑰共享”。不同數(shù)據(jù)間的密鑰共享指的是不同數(shù)據(jù)采用相同的密鑰加密、解密,因此,這些數(shù)據(jù)應(yīng)該具有相同的秘密等級或秘密分組。將秘密數(shù)據(jù)分組,同一組數(shù)據(jù)使用相同的密鑰,可以大大減少密鑰數(shù)量,簡化密鑰管理和權(quán)限分配。密文全文檢索系
14、統(tǒng)可以按照這些秘密分組進行設(shè)計,在同一組中檢索數(shù)據(jù)時,因為密鑰相同,相同的檢索詞具有相同的密文,因此,只需一次從密文庫下載密鑰密文,就可以在這個分組內(nèi)查找匹配數(shù)據(jù)。不同的秘密分組由于密鑰不同,需要下載不同的密鑰密文,分別進行檢索,最后將各個秘密分組的檢索結(jié)果合并為一個,呈現(xiàn)給用戶。不同用戶間的密鑰共享指的是不同的用戶對同一數(shù)據(jù)可以使用相同的密鑰加密、解密。因為密鑰相同,因此密文在密文庫可以只保留一份,這不僅大大減少了密文庫的存儲空間耗費,而且也為秘密數(shù)據(jù)的授權(quán)帶來極大方便,可以在不對原文解密的情況下,為其它用戶建立密鑰密文。圖3描述了這樣一個秘密授權(quán)的流程,秘密授權(quán)必須由具有秘密讀權(quán)限的用戶進
15、行。首先,下載自己的密鑰密文,解密得到密鑰;然后,從證書庫下載對方公開密鑰;用對方公開密鑰對密鑰加密,得到對方密鑰密文;最后,將密鑰密文保存到密文庫,完成秘密授權(quán)過程。此后,對方就可以下載和使用新產(chǎn)生的密鑰密文進行密文檢索及數(shù)據(jù)解密了。圖3 秘密授權(quán)流程5結(jié)束語從某種意義上說加密與檢索是一對矛盾,加密是為了防止信息非法擴散,檢索是為信息獲取提供方便。密文檢索是在防止信息非法擴散的同時,為信息獲取提供的方便,是解決這對矛盾的一種有效途徑。本文所論述的密文檢索方法利用了目前明文全文檢索的技術(shù)路線,為了在不解密的條件下實現(xiàn)檢索,對索引文件只加密了索引詞,而索引文件中的其它信息沒有進行加密處理,這或許在有些情況下會對秘密數(shù)據(jù)造成部分泄漏,使用時應(yīng)當(dāng)綜合考慮。參考文獻1 余祥宣,劉偉數(shù)據(jù)庫的密文索引機制J華中科技大學(xué)學(xué)報(自然科學(xué)版)2002,30(3):17-182 宋俊洪,崔國華一種密文數(shù)據(jù)庫的查詢
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二手房買賣合同違約責(zé)任追究協(xié)議
- 財務(wù)報表風(fēng)險敞口應(yīng)對效果評估合同
- 材料疲勞斷裂數(shù)據(jù)校正合同
- 生態(tài)農(nóng)業(yè)園區(qū)場地合作經(jīng)營與產(chǎn)品銷售協(xié)議
- 邊疆地區(qū)古代商業(yè)貿(mào)易考古合同
- 高端裝備制造廠房租賃與智能化改造協(xié)議
- 大學(xué)刑法考試題及答案
- 群體健康策略課件
- 調(diào)研安全生產(chǎn)工作方案
- 安全總監(jiān)個人述職報告3
- 25T汽車吊檢驗報告
- 加工中心刀具庫選擇PLC控制系統(tǒng)設(shè)計
- 主域故障無法啟動,額外域提升Active Directory
- 電商平臺POP模式商家入駐合作協(xié)議書(標(biāo)準(zhǔn)版)
- 初中生物知識點匯總細胞
- (完整版)四年級脫式計算題(160題)
- 高考??颊Z法填空詞性轉(zhuǎn)換匯總
- 上海延安中學(xué)初一新生分班(摸底)數(shù)學(xué)模擬考試(含答案)
- AOI自動光學(xué)檢測設(shè)備程序編寫
- 腎輸尿管結(jié)石病歷模板
- GB∕T 386-2021 柴油十六烷值測定法
評論
0/150
提交評論