




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
PAGEIPAGEKNN算法在敏感信息識別中的應用研究摘要:科技的進步雖然幫助我們更快更多地獲取到信息,但同時信息量的爆炸也給不法分子留下了可乘之機。不法分子在網(wǎng)絡上大肆傳播不良信息,這也給公安工作中的敏感信息研判帶來了困難。KNN算法是一種文本分類算法,具有容易理解,易于實現(xiàn)等優(yōu)點,常常被運用于文本的分類及預測。本文試通過簡述KNN算法工作原理,優(yōu)化KNN算法,加快其對敏感信息的識別速度,提高識別敏感信息的效率,為公安工作中敏感信息的識別提供幫助,節(jié)省警力使用,使公安信息工作更加快速、高效,同時為實現(xiàn)智慧警務做一份貢獻。關鍵詞:KNN算法;敏感信息;文本分類;敏感信息
SensitiveInformationRecognitionBasedonK-NearestNeighborAbstract:Theprogressofscienceandtechnologyhelpsustogetmoreinformationmorequickly,butatthesametimetheinformationexplosionalsoleftanopportunityforcriminals.CriminalsspreadbadinformationontheInterne,whichalsobringsdifficultiestotheresearchandjudgmentofsensitiveinformationinpublicsecuritywork.K-NearestNeighboralgorithmasoneofthebesttextcategorizationalgorithmsiseasytounderstandandimplement.Itisoftenusedintextcategorizationandprediction.Inthispaper,ItrytobrieflydescribetheworkingprincipleofKNNalgorithmandoptimizeKNNalgorithm.Thispaperaimatspeedinguptherecognitionofsensitiveinformationandimprovingtheefficiencyofidentifyingsensitiveinformation,whichcanprovideassistancefortheidentificationofsensitiveinformationinpublicsecuritywork.Keywords:K-NearestNeighboralgorithm;sensitiveinformation;textcategorization;accuracyrate
目錄59341引言 1276431.1研究背景及研究意義 1281031.2國內(nèi)外研究現(xiàn)狀 1135652傳統(tǒng)KNN算法 3209842.1KNN算法三要素 3230062.2KNN算法流程 5167952.3KNN算法優(yōu)缺點 551192.4KNN算法的代碼實現(xiàn) 6194303文本分類 7265403.1文本預處理 769763.2特征選擇 971093.3特征權重計算 10262333.4性能評估 11160064KNN算法的改進 13304864.1特征項的提取 1340184.2特征項的權值計算 13127124.3非敏感信息文本的閾值 13123774.4算法設計 14201545實驗驗證與分析 1629885.1實驗環(huán)境 1657005.2實驗驗證 16217985.3數(shù)據(jù)分析 17214216結(jié)束語 1824837參考文獻 1912006致謝 20PAGEPAGE9PAGE伴隨著信息技術的飛速進步,微博、微信等軟件的出現(xiàn)使得人們接觸信息的方式也愈發(fā)靈活多變,各式各樣的信息呈爆發(fā)式增長。但是,人們在越來越方便快捷地獲取信息的同時,接觸到有害信息的風險也大大增加。敏感信息的大量出現(xiàn)對社會穩(wěn)定和經(jīng)濟發(fā)展有著不容小視的惡劣影響,對未成年人的健康成長更是十分不利。敏感信息主要包括涉及敏感政治的信息、淫穢色情信息、暴力信息、涉及邪教的信息等等,因其具有普遍廣泛性、社會危險性、隱蔽性高等特點,對社會和諧穩(wěn)定產(chǎn)生了巨大威脅。網(wǎng)絡信息多種多樣,敏感信息可以以圖像、視頻、音頻等形式存在和傳播,這給公安民警有效地識別和分類這些敏感信息帶來了困難。現(xiàn)有的文本分類算法有很多,其中經(jīng)常使用的有KNN(K-NearestNeighboralgorithm)算法、樸素貝葉斯(NB)分類算法和神經(jīng)網(wǎng)絡(NN)算法等。本文提出將KNN算法運用于敏感信息的識別當中,KNN算法作為一種實施簡便、不需要對文本進行訓練的惰性學習算法,被廣泛應用于各個領域。但是,在實際應用中,KNN算法也有很大的不足,在實際應用中往往需要面對海量的數(shù)據(jù),而KNN算法需要計算測試樣本到每一個訓練樣本間距離,計算量過于龐大,大大降低了分類效率。為此,本文將從特征項的選擇以及特征值權重的計算方法這兩方面對KNN算法進行改進,以達到基于KNN算法對網(wǎng)絡敏感信息進行識別的效果。最近幾年,一些學者對敏感信息識別的新技術做了有關研究調(diào)查。其中,李楊,潘泉等撰寫的《基于短文本情感分析的敏感信息識別》中,通過設定情感敏感關鍵詞對情感類型進行分析,實現(xiàn)了敏感信息的識別;李城也在其文章《微博敏感信息追蹤溯源關鍵技術研究》中運用WEB爬蟲程序?qū)μ囟P鍵詞下的相關敏感微博進行爬取,實現(xiàn)了對微博上的敏感信息進行識別。近年來,對KNN算法在文本分類中的研究也取得了不小進步。例如,康進峰,王國營撰寫的文章《用于色情網(wǎng)頁過濾中的KNN算法改進》通過改進權值計算公式以及特征項的選取,有效提高了KNN算法的準確率;鄭偉,王若怡等的文章《KNN算法在輿情領域中的應用研究》,在KNN中采用相似度作為權重參與計算,對KNN算法下的網(wǎng)絡輿情的識別與分類進行了研究;黃超,陳軍華撰寫的《基于改進K最近鄰算法的中文文本分類》利用DF-卡方統(tǒng)計量法對特征維數(shù)進行了有效約減,提升了KNN算法進行文本分類的性能。國外不少學者也對KNN算法很感興趣,并對其進行了深入研究。文章《Anewextractingalgorithmofknearestneighborssearchingforpointclouds》提出了一種在搜索開始前通過提取最近鄰點來減少給定數(shù)據(jù)集中目標點數(shù)量的新策略和相應的算法,避免了提取最鄰近點過程中反復計算歐氏距離,節(jié)省了時間;文章《KRNN:kRare-classNearestNeighbourclassification》研究了KNN算法面向特定學習算法的局部策略,提出了一種K稀有類最近鄰算法,即KRNN算法,通過直接調(diào)整KRNN的誘導偏差,解決了數(shù)據(jù)稀疏性的不平衡問題。在實際應用中,算法的效率往往受到多種因素的影響,例如樣本的數(shù)量、樣本的分布以及實現(xiàn)算法數(shù)據(jù)結(jié)構的選擇。因此,嚴謹公正地比較不同算法在解決同一問題時的效率就顯得格外重要。本文通過設計實驗來比較經(jīng)典KNN算法和改進以后的KNN算法在解決敏感信息識別這一問題上的效率。
KNN(K-NearestNeighbor)算法,其核心思想是:在眾多的樣本種找到和目標樣本最近的,并且要找到K個。然后在此基礎上分類進行統(tǒng)計找到包含目標樣本最多的組合,并且做上標記。輸入:目標文本,文本的類別,以及目標文本向量。輸出:目標文本所屬類別。2.1.1距離度量對于KNN算法而言,挑選出與訓練樣本距離最近的K個測試樣本是整個算法的關鍵。要想得出測試樣本與訓練樣本間距離,第一步就是選擇合適的計算樣本之間距離的最優(yōu)的算法。(1)歐氏距離(EuclideanDistance)歐氏距離是我們接觸最早的方法,也是最容易讓人理解的,在接受小學教育時,在平面空間中求兩點之間的距離的方法就是歐式距離。到了初中和高中,學到了三維立體空間,更是對歐式算法的運用。計算公式相信我們也非常熟悉,如下:假設二維平面上有兩個點,其坐標分別為,,兩點之間的歐式距離為:維維空間中的兩個點的坐標分別表示如下,,歐式距離為:切比雪夫距離(ChebyshevDistance)根據(jù)國際象棋的規(guī)則中,我們看到將可以走向附近的任意一格。所以,將從格子到格子要走多遠的距離呢。這個問題非常值得人思考,將走的距離就稱之為切比雪夫距離。其計算公式如下:二維平面上的兩點,,間的切比雪夫距離為:N維空間中的兩個向量,的切比雪夫距離為:(3)曼哈頓距離(ManhattanDistance)曼哈頓距離,根據(jù)名字就可以進行大概、簡單的理解,就是從的一個十字路口為起點到下一個十字路口,這之間開車的距離顯而易見不可能時直線,所以把這種不是直線距離的兩個識字路口的路程稱之為曼哈頓距離。公式就是下面所展示的這樣:假設二維平面上有兩個點,分別為,,這兩點之間的曼哈頓距離可以做如下表示:多維空間中的兩個點,,,他們之間的曼哈頓距離可以表示如下:(4)余弦相似度(CosineSimilarity)二維空間里,點可以用坐標表示成兩個向量,的余弦夾角:類比推理可得,多維空間中的兩個向量,的余弦夾角:2.1.2K值的選擇K值的選擇也是KNN算法中是十分重要的一部分。如果選擇的K值較小,就等同于依照較小范圍內(nèi)的訓練樣本對于測試樣本的類別進行判別,使得算法變得過于復雜,則產(chǎn)生的誤差也會變大;如果選擇的K值較大,就等同于依照較大范圍內(nèi)的訓練樣本對測試樣本進行判別,使得算法過于簡單,也大大增加了誤差產(chǎn)生的可能。只有選擇的K值可以使測試樣本與訓練樣本較為接近時,KNN算法才能充分發(fā)揮其作用。一般采用交叉驗證法來選取合適的K值。2.1.3分類決策規(guī)則看哪個類別中聚集的目標樣本附近的臨近樣本多,則我們找的目標樣本就在這個類別當中,這種原理就類似于投票原理的少數(shù)人聽多數(shù)人的一樣的道理。(1)就是運用之前分析提到的計算距離的方法計算出每一個訓練樣本和目標樣本之間的距離;(2)將這些距離按照大小以此進行排序;(2)找出K值,將距離目標樣本最近的K個訓練樣本挑選出來;(3)確定這K個訓練樣本在哪個類別中的個數(shù)最多;(4)根據(jù)推理和KNN算法的基本原理,得出結(jié)論:目標樣本也在訓練樣本最多的那個類別中。KNN算法優(yōu)點:(1)非常的簡答,通俗易懂、便于理解,容易操作,由于KNN算法的核心思想比較簡單,其理論推導和算法步驟也相對簡單,因此比較容易實現(xiàn)。(2)KNN算法作為一種惰性學習(lazy-learning),其在進行分類時不需要對樣本進行訓練,只要輸入大量的樣本,計算機就可以進行分類,再輸入一個新的樣本,計算機就可以進行識別。(3)KNN算法在進行分類時,其計算時間只與樣本的數(shù)量有關,計算時間與樣本數(shù)量成正比關系,即樣本數(shù)量越多,花費時間越多。(4)由于KNN算法只需要計算測試樣本到訓練樣本的距離,就可以進行分類,計算過程相對簡單,所以KNN算法常被用于解決許多現(xiàn)實生活中的分類問題。KNN算法缺點:(1)計算量較大,KNN算法在進行分類時雖然只需要計算每一個測試樣本與所有訓練樣本之間的距離,計算十分簡單,但是當樣本數(shù)量龐大時,KNN算法所需計算量也會比較大,這對計算機的性能也是一種挑戰(zhàn)。(2)在運用KNN算法進行文本分類時,如果一種類別里面的樣本數(shù)量非常多,而另外一個類別中則恰恰相反,包含的樣本數(shù)量非常少。這時,就說明我們設計的樣本類別不合理,需要重新根據(jù)數(shù)據(jù)的分布確定一個新的類別。以此才能縮小目標樣本在哪個類別中的范圍。我們要做的就是在數(shù)量多的哪個類別中重新分類。如果不這樣做的話帶來的后果將會是導致測試樣本大多被分進包含樣本數(shù)量較大的那個類別的情況,導致錯誤判斷,使得KNN算法進行分類出來的結(jié)果將不再具有準確性,且不具有說服力。defknn(k,testdata,traindata,labels):defknn(k,testdata,traindata,labels):#k代表分類數(shù),測試數(shù)據(jù),訓練數(shù)據(jù),所得到的測試結(jié)果屬于哪一類(labels)traindata.shape[0]#shape返回兩個參數(shù)(數(shù)組),shape[0]得到訓練集行數(shù)dif=np.tile(testdata,(traindata,1))-traindata#利用numpy中的tile擴展維數(shù)后,才能進行計算,列數(shù)確定一直,擴展行(行擴展一直,列不變)sqdif=dif**2#對差值的每個元素取平方sumsqdif=sqdif.sum(axis=1)#按行進行計算,得到列向量組,axis=0則得到的是行向量distance=sumsqdif**0.5sortdistance=distance.argsort()#按照升序去排count={}#建立一個空字典foriinrange(0,k):vote=labels[sortdistance[i]]count[vote]=count.get(vote,0)+1#get(5,0)+1,意思是在count字典中出現(xiàn)一次vote值,則對應加1{5:1,,,},多次循環(huán)累加sortcount=sorted(count.items(),key=operator.itemgetter(1),reverse=True)#排序依據(jù)字典中的第一個詞去排序,默認是升序(False)#key指定依據(jù)哪個區(qū)排,operator.itemgeter(1)指定第一個元素去排returnsortcount[0][0]
如果想要將KNN算法運用于敏感信息的識別當中,首先要實現(xiàn)KNN算法的文本分類。文本分類的流程如下:分類器進行分類分類器進行分類分類結(jié)果評估分類結(jié)果評估圖3.1文本分類流程對文本進行分類需要分五個階段分別進行:先對文本的數(shù)據(jù)進行粗略的排出和挑選,避免差異較大的數(shù)據(jù)混在其中干擾結(jié)果、按照數(shù)據(jù)的特征進行排序光合分類、權重計算階段、算法設計階段、性能評估階段。目前為止,計算機還無法對文本中的信息進行識別,所以,當然計算及就無法處理文本中的數(shù)據(jù)。因此我們在遇到文本時樣本時,就需要人工進行預處理和排除干擾項。文本預處理的作用主要在于:剔除對文本分類沒有作用的信息,為計算提供便利。文本預處理階段主要需要進行:分詞處理、停止使用的詞進行處理、選擇不同的文本類型等。3.1.1分詞處理英文文本的通常做法時各個單詞之間用空格去隔開,組成句子;分開來;而中文文本和英文文本之間就不同,字與字之間、詞與詞之間沒有任何間隔和符號標記,這就不利于用計算機對其進行智能的識別,所以,這就是中文文本面臨的難題,也是文本識別必須要解決的問題。所以,識別中文文本就是要在詞與詞之間留下特征處理的關鍵就是要自動識別詞語詞之間的分隔,將一連串的漢字作為一個詞組組。現(xiàn)在在使用的分詞方法有以下幾種:通過字符串粉刺、通過理解分詞和基于大數(shù)據(jù)的統(tǒng)計來分詞。3.1.2停用詞處理停用詞就是指在文中經(jīng)常可以看到,但是又不起什么作用的詞語,這些詞語出現(xiàn)在文本中對中文文本的分類毫無幫助。這些詞在文本中經(jīng)常出現(xiàn),卻并沒有什么實際意義,如果不將其從本文中剔除,會嚴重干擾特征詞的選取。停用詞一般通過人工搜索整理,制作停用詞表。3.1.3文本表示模型現(xiàn)在,我們經(jīng)??梢钥吹轿谋颈硎灸P椭饕幸韵聨追N有:詞袋模型(BagofWordsModel)、布爾模型(BooleanModel)、向量空間模型(VectorSpaceModel)等。向量空間模型時運用的最多的,可能時因為方便理解,方便使用,準確率還相對較高,并且我們在基礎數(shù)學中經(jīng)??梢钥吹皆谶\用。詞袋模型(BagofWordsModel)詞袋模型的基本思想是:如果很多文本中都出現(xiàn)同一個詞,那么這個詞可能是一個比較常用的詞,對文本分類的幫助較小,因此對這種詞的權重進行降低。布爾模型(BooleanModel)布爾模型的核心思想是:每個詞在文檔中出現(xiàn)則記為1,不出現(xiàn)則記為0,依靠這種思想將每一個文本轉(zhuǎn)化為向量。布爾模型具有原理簡單易懂,運行速度快,易于實現(xiàn)的優(yōu)點,但是由于其非常“剛性”:“與”意味著全部;“或”意味著任何一個
,“非”意味著沒有,查詢過于死板,靈活性不足,導致查詢結(jié)果不準確。向量空間模型(VectorSpaceModel)向量空間模型(VectorSpaceModel)是一個數(shù)學模型,它將文本當做一個向量,將文本中的各個詞語看做是向量的各個維數(shù),大大降低了計算的復雜程度,為特征項相似度的計算與排序提供了便利。本文也采用向量空間模型來表示文本。一個經(jīng)過了文本預處理之后的文本,往往會生成大量詞條。假設將一個文本內(nèi)的所有詞條都視為這個文本的特征項,就會使得這個文本的特征項尤其巨大,且由于文本的特征項過多,可能導致有效的特征項未被識別出來,這對文本分類的效果有著巨大的影響。正因如此,我們需要對進行過文本預處理所產(chǎn)生的詞條進行特征選擇,把最能體現(xiàn)文本特征的詞條選擇出來,這樣不僅可以避免分類準確率的降低,甚至可以提高分類的精準度。3.2.1文檔頻數(shù)(DF)文檔頻數(shù)(DF)意思是某個單詞在文中出現(xiàn)的次數(shù)。如果出現(xiàn)的次數(shù)越多的詞說明該詞語對該篇文本的重要性程度高的概率機越大。所以我們可以通過該詞的出現(xiàn)的次數(shù)來看出該詞是否對于該篇文章非常的重要,如果不重要就進行剔除,然后按照之前就確定好的閾值剔除文檔頻數(shù)高于或者低于閾值的特征項。
文檔頻數(shù)(DF)的優(yōu)點在于計算量較小且計算簡單,可以運用于各種樣本類型。但是文檔頻數(shù)(DF)存在著不足之處,如果某一特征項可能同樣包含著重要的信息,但是由于其在文本中十分稀有,所以就可能被無故拋棄,致使分類的準確率降低。3.2.2統(tǒng)計(CHI)CHI算法就是將特征詞和目標詞之間的關聯(lián)性程度進行量化,例如,可以用1、2、3、4、5等來表示,可以用來表示,來判斷該特征詞是否可以代表該類別。越大,值越大則說明關聯(lián)性程度就越高,在該類別中就越有可能包含目標詞。開方檢驗就是通過比較實際值和我們設定的值之間的差距來判斷之前的理論理論是否正確。計算公式如下:其中,N為訓練樣本的總數(shù),A為每個詞的正文檔出現(xiàn)頻率、B為每個詞負文檔出現(xiàn)頻率、C為每個詞在正文中不出現(xiàn)的概率、D為每個詞負文檔不出現(xiàn)的概率。3.2.3信息增益(IG)信息增益,就是該詞在該文檔中出現(xiàn)可以為特征的分類提供信息的多少。如果提供的有用信息越多,就說明該信息對于該篇文檔就越重要。其計算公式為:其中,代表特征出現(xiàn),代表特征不出現(xiàn),代表第各類別。經(jīng)過文本預處理、特征選擇之后,我們需要對選出的特征項進行權重計算,以賦予其權值。如果特征項對文本分類的作用越大,則賦予這個特征項越大的權值。正因如此,能否挑選到合適的特征加權算法對最終的分類結(jié)果有著重要影響。本文采用TF-IDF權重法。3.3.1TF-IDF權重法TF-IDF就是用權重來衡量詞語對于文本的重要性程度,詞語在文本中出現(xiàn)的次數(shù)越頻繁,所占的權重就越大,對于文本來說,該詞就越重要。相應的,在整篇文檔中的權重就會變小。簡單來說,就是一個字詞出現(xiàn)在某個文本中次數(shù)越多,但是在其他文本中出現(xiàn)頻率較低,這個字詞就越可以表示這個文本。其核心思想是:一個字詞在某一文本出現(xiàn)次數(shù)越多,就賦予其越高的權值;但是,一個字詞果在整個訓練文本頻繁出現(xiàn),就賦予其較低的權值。TF,即詞頻,是指某一個詞在文本中出現(xiàn)的頻率。其公式為:IDF,就是將IF的原理逆向運用:如果某一字詞在整個訓練文本中出現(xiàn)的頻率很低,則其IDF越大,表明該字詞可以對文本做成很好的分類。計算公式如下:
(分母加1是為了避免分母是0)特征項權重計算公式如下:對文本分類結(jié)果的評判可以從速率和準確率這兩方面入手。分類的速率由算法的復雜度決定,而分類的準確率可以通過與人工分類的結(jié)果進行對比,進而得出準確率的高低。文本分類的速率一般通過分類所用時長進行衡量,文本分類的準確率可以通過查準率(P)、召回率(R)、F1值和宏平均、微平均進行評價。下面是分類結(jié)果判定表:表3.1分類結(jié)果判定表實際屬于該類實際不屬于該類判定屬于該類ab判定不屬于該類cd本文對基于KNN算法的敏感信息識別的效果評估,主要采用查準率(P)、召回率(R)、F1值,下面對其進行介紹。查準率(P)是該詞在文本中出現(xiàn)的正確的概率。并且歸納出以下的計算公式進行量化:召回率(R)是在整篇文檔中,我們能夠辨別出來是正確的詞語占總數(shù)量的比例。其計算公式如下:由于查準率(P)和召回率(R)在某些情況下是矛盾的,所以又提出了一個新的評估標準F1。F1值可以同時兼顧查準率和召回率這兩個指標其計算公式如下:
在文本分類過程中,特征項的選取與分類效果的好壞有著密切的聯(lián)系。本文采用CHI算法對文本中的特征項進行選取,確??梢詼蚀_提取出代表非敏感信息文本以及敏感信息文本的特征詞。CHI算法可以用來衡量特征詞及其類別之間的相關性,它不僅考慮了特征存在時的情況也考慮到了特征不存在時的情況。而對于敏感信息的識別而言,一個文本要么是敏感信息文本,要么是非敏感信息文本,所以在對敏感信息進行識別時,更適合采用CHI算法進行特征項的提取。CHI算法的計算公式等在上文3.2.2中介紹。要想構建一個出色的空間向量模型,不僅需要選擇一個合適的提取特征項的算法,選擇一個合理的計算特征詞權重的算法也是不可或缺的。本文采用了CHI算法來對文本中的特征項進行提取,根據(jù)CHI算法的性質(zhì),若特征項值越大,則該特征項與其類別的相關性就越強,包含該特征項的文本屬于該類別的可能性也就越大。所以,文本將歸一化思想運用于權值計算當中,提出了一種新的賦予權值的方法:其中,表示特征項在類別中的權值,表示能夠代表類別的特征項的維數(shù)。在實際應用中,非敏感信息的數(shù)量是遠遠大于敏感信息的,正因如此,在使用KNN算法對敏感信息進行識別以前,運用設定閾值的方法,讓部分明顯屬于非敏感信息的文本快速通過,從而加快識別速度,是十分必要的一步。設定一個閾值,若測試文本與非敏感信息文本的特征項之間的相似度大于,則表明該測試文本屬于非敏感信息文本,直接讓其通過以下是閾值的公式:其中,C1代表非敏感信息文本;為非敏感信息文本特征項集合的維數(shù);為C1的文本數(shù);C2代表敏感信息文本;為C2的文本數(shù);表示非敏感信息文本特征項在文本類C1的第篇文本中出現(xiàn)的次數(shù);是先前為非敏感信息特征項所定義的權值大小。同理,表示非敏感信息文本特征項在文本類C2的第篇文本中出現(xiàn)的次數(shù);是先前為非敏感信息文本特征項所定義的權值大小。對敏感信息進行識別實際就是將敏感信息與非敏感信息區(qū)分開。KNN算法本來就是文本分類算法的一種,所以本文對KNN算法加以改進將其運用于敏感信息的識別之中。利用KNN算法進行敏感信息識別時,首先使用CHI算法對敏感信息文本和非敏感信息文本的特征項提取出來,然后對特征項所占的權重計算出來,比較測試文本更接近敏感信息文本還是更接近非敏感信息文本,最后據(jù)此判斷測試文本所屬類別。將測試文本和非敏感信息文本的特征項的集合的親近程度定義為。值越大,測試文本屬于非敏感信息的概率就越大。其中,為代表代表非敏感信息文本的特征項維數(shù),表示特征項在文本中出現(xiàn)的頻率。其流程如圖所示。
本次實驗使用的計算機配置表:電腦型號 :Alienware17R2筆記本電腦操作系統(tǒng):Windows10專業(yè)版處理器:英特爾第四代酷睿i7-4720HQ@2.60GHz四核主板:Alienware17R2(LynxPoint)內(nèi)存: 16GB(海力士DDR3L1600MHz)系統(tǒng)類型:64位操作系統(tǒng)主硬盤: 浦科特PX-128M6G-2280(128GB/固態(tài)硬盤)顯卡:NvidiaGeForceGTX980M(4GB/戴爾)顯示器:三星SDC4C48(17.2英寸)聲卡:創(chuàng)新SoundBlasterRecon3Di@英特爾LynxPoint高保真音頻網(wǎng)卡:鈺碩KillerE2200GigabitEthernetController/戴爾采集工具:八爪魚V7.3.4運行環(huán)境:Python為了驗證改進的KNN算法在敏感信息識別中的效果,本文選取200個文本作為樣本庫進行訓練,其中150個為非敏感信息文本,50個為敏感信息文本。首先使用經(jīng)典的KNN算法,其中N值取25,特征向量維數(shù)取為100,對敏感信息進行識別,這是本文的第一個實驗。第二個實驗,采用CHI算法對非敏感信息文本和敏感信息文本的特征項進行提取,并利用新提出的特征權重計算方法對特征項進行計算,然后根據(jù)設計的算法對敏感信息的進行識別。實驗結(jié)果如表1所示。表1實驗結(jié)果算法準確率召回率F1值經(jīng)典KNN類別10.9250.9160.920經(jīng)典KNN類別20.9460.9520.949改進KNN類別10.9481.0000.930改進KNN類別21.0000.9250.916從實驗數(shù)據(jù)中可以看出,在對敏感信息進行識別時,改進后的KNN與經(jīng)典KNN算法相比,雖然在準確率、召回率和F1值上相差不大,但是改進后的KNN算法上大大減少了分類時間。這是因為,經(jīng)典KNN算法在進行文本分類時需要計算測試文本到每一個訓練文本之間的距離,然后進行排序,選出相似度最大的K個樣本,根據(jù)這K個樣本的類別,判斷測試樣本所屬類別,這就大大增加了計算量,導致使用分類時間增多。而對于改進后的KNN算法而言,只需要計算測試樣本與敏感信息文本及非敏感信息文本得特征項集合之間的親近程度,就可以判斷出測試文本類別。由于網(wǎng)絡上的信息成千上萬,使用經(jīng)典KNN算法對其進行一一計算顯然是不可能的,所以通過改進KNN算法大大降低分類速度是十分有必要的。
本文利用CHI算法進行特征項的提取,同時運用歸一化思想提出了一個新的權值賦予的方法,對在之前的KNN算法的基礎之上做了適當?shù)母倪M。并且通過這個實驗證明:用按照筆者改進后的新KNN算法各個方面都有了很大的進步,雖然KNN算法的基本原理沒有做變動。但是新KNN算法在識別敏感信息時所花費的時間大大減少,提高了KNN算法分類效率,滿足了敏感信息快速識別的要求。同時改進后的KNN算法不需要再對K值進行反復調(diào)試,選取最優(yōu),在進一步提高分類效率的同時也降低了誤差產(chǎn)生的可能性。隨著互聯(lián)網(wǎng)的高速進步,公眾獲取和發(fā)布信息的途徑越來越多元化,廣泛化和即時化。隨之而來的是敏感信息的大量增長,本文通過研究并改進KNN算法,將其運用于網(wǎng)絡敏感信息的識別當中。希望在日后的公安工作中,該算法能夠為公安機關識別網(wǎng)絡敏感信息提供助力,進而實現(xiàn)在公安工作中引導輿論動向的技術先期優(yōu)勢。
[1]張愛華,靖紅芳,王斌,等.文本分類中特征權重因子的作用研究[J].中文信息學報,2010(3).[2]李強,李建華.基于向量空間模型的過濾不良文本方法[J].計算機工程,2006,32(10):4-8.[3]王增民,王開玨.基于熵權的K最臨近算法改進[J].計算機工程與應用,2009,45(30):129-131.[4]辛英.基于k-鄰近算法的手寫識別系統(tǒng)的研究與實現(xiàn)[J].電子設計工程,2018,(7).[5]桑應賓.基于k近鄰的分類算法研究[D].重慶大學,2009.[6]閉小梅,閉瑞華.KNN算法綜述[J].科技創(chuàng)新導報,2009,(14).[7]奉國和,吳敬學.KNN分類算法改進研究進展[J].圖書情報工作,2012,56(21).[8]甄志龍.文本分類中的特征選擇方法研究[M].長春:吉林大學出版社,2016.[9]鄭俊飛.文本分類特征選擇與分類算法的改進[D].西安:西安電子科技大學,2012.[10]周慶平,譚長慶,王宏君,等.基于聚類改進的KNN文本分類算法[J].計算機應用研究.2016,33(11):3374-3377,3382.[11]劉述昌,張忠林.基于中心向量的多級分類KNN算法研究[J].計算機工程與科學,2017,39(9):1758-1764.[12]邱定,張激,王金華,等.基于Rocchio和KNN提出的新的文本分類技術[J].自動化與儀器儀表,2017(8):107-110.[13]肖斌,王錦陽,任啟強.分布式KNN算法在微信公眾號分類中的應用[J].計算機應用,2017,37(增刊1):295-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《語文詩歌欣賞:《春望》教學計劃》
- 汽車美容店業(yè)務轉(zhuǎn)讓合同
- 會計師事務所審計工作流程預案
- 提升客戶服務質(zhì)量措施
- 好官壞學生教育手冊
- 旅游服務安全免責協(xié)議書
- 農(nóng)業(yè)生產(chǎn)管理實施方案
- 商務往來文書格式規(guī)范與范例匯編
- 市場營銷團隊績效考核標準
- 高科技人才引進及培養(yǎng)項目合作協(xié)議
- 2025年黑龍江民族職業(yè)學院單招職業(yè)技能測試題庫必考題
- 《CAD發(fā)展歷程》課件
- 統(tǒng)編版語文八年級下冊全冊大單元整體教學設計表格式教案
- 2023年新改版教科版科學三年級下冊活動手冊參考答案(word可編輯)
- 施工方案(行車拆除)
- 開網(wǎng)店全部流程PPT課件
- 《春》帶拼音
- 真速通信密拍暗訪取證系統(tǒng)分冊
- 質(zhì)量監(jiān)督檢查整改回復單格式(共4頁)
- 淺談一年級數(shù)學計算教學的有效策略
- FPC產(chǎn)品簡介及設計規(guī)范
評論
0/150
提交評論