身份識別技術(shù)的發(fā)展趨勢.doc_第1頁
身份識別技術(shù)的發(fā)展趨勢.doc_第2頁
身份識別技術(shù)的發(fā)展趨勢.doc_第3頁
身份識別技術(shù)的發(fā)展趨勢.doc_第4頁
身份識別技術(shù)的發(fā)展趨勢.doc_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

.身份識別技術(shù)的發(fā)展趨勢目前隨著電子商務和電子政務的發(fā)展,以及GSM,CPRS,CDMA,WLAN等無線移動通信技術(shù)與相應業(yè)務的發(fā)展,身份認證的理論和技術(shù)已經(jīng)在不斷成熟完善的基礎上,出現(xiàn)了幾個研究熱點。2.1圖像口令技術(shù)傳統(tǒng)的口令認證技術(shù)主要是基于文本口令,大部分安全系統(tǒng)為了保證口令的安全性都會要求用戶選擇較長的復雜口令,這種文本口令提高了安全性但是由于難以記憶,輸入不便,使得很多用戶仍然使用弱口令。圖像口令技術(shù)是用一組圖像組成的集合代替文本字符集合,用戶通過從圖像集合中選擇P個圖像合成自己的口令。認證系統(tǒng)系統(tǒng)在認證時給出T個圖像,用戶從中選出自己生成口令時的P個圖像。由于圖像包括的信息遠大于文本,很難實現(xiàn)自動字典攻擊。而且這種口令很難記錄也不易與人共享,增加了安全性。該系統(tǒng)的安全性在于從T個圖像中選取P個圖像口令的組合數(shù)大小,為了提高安全性應使組合數(shù)T!/(T-P)!P!盡量增加。2.2生物特征識別技術(shù)以上傳統(tǒng)的身份驗證方式,都是基于。whatyouknow?;蛘摺hatyouhave。的驗證手段,它只能說明用戶具有登錄權(quán)限,并不能說明用戶為非冒充者,直到生物識別技術(shù)的出現(xiàn)和越來越多的普及。比爾蓋茨曾斷言,生物識別技術(shù)將成為未來幾年IT產(chǎn)業(yè)的重要革新。越來越多個人、企業(yè)乃至政府都承認,現(xiàn)有身份加密碼或基于智能卡的身份識別系統(tǒng)遠遠不夠,生物特征識別技術(shù)在未來的身份識別方面將占據(jù)不可或缺地位。生物識別技術(shù)是通過提取人體的生物特征數(shù)據(jù)或行為的特征屬性來進行身份認證的一種技術(shù)。生物特征是指人體獨一無二的可通過測量得到,又能被用來利用的身體或者行為特征,它分為身體特征和行為特征兩類。身體特征有:DNA結(jié)構(gòu)、指紋、虹膜、視網(wǎng)膜、臉型、頭發(fā)硬度等;行為特征有:音調(diào)、簽名、行走步態(tài)等。生物識別技術(shù)的出現(xiàn),為解決真正意義上的身份驗證提供了可能,江林升教授提出的在網(wǎng)絡化考試中運用實時人臉識別技術(shù)對身份的驗證,效果顯著,但實現(xiàn)此類技術(shù)所需的硬件、網(wǎng)絡帶寬等要求較高,因而實現(xiàn)難度較大,普及也相對困難。2.3基于數(shù)據(jù)挖掘的身份識別由于數(shù)據(jù)挖掘技術(shù)的出現(xiàn),一種基于數(shù)據(jù)挖掘技術(shù)的身份識別技術(shù)應運而生了。它不必像生物識別技術(shù)那樣需要個體的生物特征,而只需個體的行為特征,又克服了傳統(tǒng)身份識別的單一性缺點。它通過挖掘人們的歷史行為,得到人們的行為模式,再根據(jù)相應的預測算法,來鑒別身份的真實性。目前較為火熱的Web挖掘,不但可以為網(wǎng)站挖掘出具有價值的信息,也能為網(wǎng)站的安全提供安全參考。基于數(shù)據(jù)挖掘技術(shù)的對異常數(shù)據(jù)的捕獲、用戶可信行為的分析等應用也不斷成熟,已為驗證用戶身份真實性提供了可能3一種基于數(shù)據(jù)挖掘的個人身份信息自動識別模型本文提出的基于數(shù)據(jù)挖掘技術(shù)的個人身份信息自動識別模型,如圖1所示。該模型主要由基于正則表達式的信息匹配、文本預處理、權(quán)重計算和特征詞降維以及機器學習四部分組成。其中基于正則表達式的信息匹配主要是便于快速地從電子郵件中匹配出包含有個人身份信息的電子郵件的模塊;文本預處理則是將非結(jié)構(gòu)化的基于人類自然語言的文本轉(zhuǎn)換為機器可識別的文本;權(quán)重計算和特征降維是對分出來的詞進行一定的處理,以便進行機器學習;機器學習則是對特征向量進行訓練,最終形成個人身份信息識別模型。3.1正則表達式目前已經(jīng)有很多用來匹配個人身份識別信息的算法,文獻2提出了一種基于正則表達式的郵件類協(xié)議識別與跟蹤的協(xié)議識別方法,通過提取協(xié)議應用的特征以及關鍵詞,撰寫相對應的正則表達式。正則表達式是一種用來查找一個串中是否含有某個子串,替換或者取出匹配的子串,是一種用于模式匹配和替換的工具,在Linux中應用廣泛。Vi編輯器,Awk,Sendshell等程序都是基于正則表達式。而且正則表達式已經(jīng)超出語言和系統(tǒng)的局限,在計算機程序中應用廣泛,用戶通過編寫基于正則表達式的匹配模式,然后把這些匹配模式和一些數(shù)據(jù),例如web數(shù)據(jù)輸入進行比較,根據(jù)比較的結(jié)果執(zhí)行相應的操作。正則表達式可用于字符串模式匹配和替換,最簡單的模式就是一個所要查找的字符串。模式在處理文檔工作中是非常普遍的,語句SELECT*FROMTABLE1WHERENAME=”TOMSMITH”中的字符串”TOMSMITH”就是一個簡單的模式。實際應用中用戶所要查詢的是更為一般,更為通用的模式。合理地使用正則表達式進行數(shù)據(jù)庫查詢不僅可以降低查詢語句的復雜程度,而且還能簡化對出錯語句的修改工作。本文之所以采用正則表達式來進行個人身份信息的篩選,一方面因為它簡單易用;另一方面則是正則表達式所表現(xiàn)出來的匹配能力。3.2特征詞的抽取和降維通過正則表達式匹配出來的電子郵件的主題和內(nèi)容存儲為文本形式的文檔,由于所轉(zhuǎn)化出來的文本文檔都是非結(jié)構(gòu)化的,不利于計算機自動分析處理,因此需要對文本進行一定的預處理。利用基于向量空間模型的方法來抽取特征詞。其基本原理是把文檔簡化為以特征項的權(quán)重為分量的向量表示:(W1,W2,Wn),其中Wi為第i個特征項的權(quán)重。權(quán)重采用歸一化的相對詞頻,其計算方法運用TF-IDF公式:其中,W(t,d)為詞t在文本d中的權(quán)重,而tf(t,d)為詞t在文本d中的詞頻,n為訓練文本的總數(shù),nt為訓練文本集中出現(xiàn)t的文本數(shù),分母為歸一化因子。經(jīng)過以上處理和計算后可以將文檔庫表示為m*n的詞-文檔矩陣(Term-DocumentMatrix):公式(2)中,m為文檔庫中包含的所有不同詞的個數(shù);ij為由公式(1)計算得到的W(t,d)表示第i個詞在第j個文檔中出現(xiàn)的權(quán)重。不同的詞對應矩陣A不同的一行,每個文檔則對應矩陣A的一列。通過上述步驟生成的向量空間是一個高維向量空間,可以達到幾萬維甚至幾十萬維。在這樣一個高維特征空間上進行訓練和分類存在一定的問題和困難,因此需要進行降維處理,把特征維數(shù)壓縮到與訓練樣本個數(shù)相適應的地步。降維后可以刪除噪音,避免過學習現(xiàn)象,提高分類效率和分類精度。本文中選用互信息特征選擇方法,算法基本思想是,特征詞t與類別C的互信息越大,說明特征t中包含的與類別有關的鑒別信息就越多。算法基本過程如下:對于每個詞,根據(jù)公式計算詞和類別的互信息量:其中:其中,P(tCk)為t詞在Ck中出現(xiàn)的比重,D為該類的訓練文本數(shù),N(t,dI)表示dI中t的詞頻,V表示總的詞數(shù),Ntj,diDi=1=表示這個文本類中所有詞的詞頻之和。P(t)表示詞在所有訓練文本中的比重。計算公式相同,但D的含義為全體訓練的文本數(shù)。根據(jù)公式(3)計算結(jié)果將取值最大的前m個特征保留下來,實現(xiàn)降維。m值的確定一般采用先給定一個初始值,然后根據(jù)實驗測試和統(tǒng)計結(jié)果逐漸調(diào)整最終確定最佳值。文本預處理后,每一個文本可以被表示為d=(w1,w2,wm),這樣就將n個文本轉(zhuǎn)化為m維的單位向量。3.3機器學習分類是數(shù)據(jù)挖掘和機器學習領域的一個主要任務。分類要解決的問題是將一個事件或?qū)ο髿w類,其特點是先對不同類別加以定義,并由預先已分好類的樣構(gòu)成訓練集,為每個類別作出準確的描述或建立分析模型或挖掘出分類規(guī)則,然后對其他數(shù)據(jù)庫中的數(shù)據(jù)進行分類。用于分類分析的技術(shù)很多,典型的方法有統(tǒng)計方法的貝葉斯分類#機器學習的判定樹歸納分類#神經(jīng)網(wǎng)絡的后向傳播分類等。還有其他一些分類方法,包括K-最臨近分類、遺傳算法、粗糙集和模糊集方法以及支持向量機。本文所架構(gòu)的個人身份信息識別模型是建立在分類技術(shù)基礎之上的。具體來說,將個人身份識別看成是文本的分類問題,利用采用支持向量機和Lingpipe。分類算法來實現(xiàn)。支持向量機是基于統(tǒng)計學習理論的機器學習技術(shù),在解決小樣本、非線性問題中表現(xiàn)出獨特優(yōu)勢,其遵循結(jié)構(gòu)風險最小化原則,具有很強的學習能力和泛化性能,能夠較好地解決小樣本、高維數(shù)、非線性、局部極小等問題,可以有效地進行分類、回歸、密度估計等。由于有這些優(yōu)點,支持向量機已成為機器學習領域的研究熱點。Lingpipe是由Alias公司開發(fā)的一款功能非常強大的自然語言處理軟件包。其包括的模塊主要有主題分類(TopClassification)、命名實體識別(NamedEntityRecognition)、詞性標注(Part-ofSpeechTagging)、句題檢測(SentenceDetection)、查詢拼寫錯誤(QuerySpellChecking)、興趣短語檢測(InterestingPhraseDetection)、聚類(Clustering)等。Lingpipe上展示的不僅僅只是一個工具包,而且可以找到很多自然語言處理方面的信息,包括從基本的字符語言模型到語義層次的傾向性發(fā)掘等,從以往的研究到最新動向,都可以得到不少借鑒參考。此外,大多數(shù)的實驗證明Lin

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論