版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
chap.9內(nèi)容安全網(wǎng)絡(luò)信息安全本章內(nèi)容要點(diǎn)概述
文本內(nèi)容安全與編程圖像內(nèi)容安全與編程語(yǔ)音內(nèi)容安全與編程在互聯(lián)網(wǎng)傳播的信息內(nèi)容中,面臨的不良和非法信息威脅主要有如下三類(lèi)。(1)垃圾信息,主要是指隱藏在文本、評(píng)論、彈幕、郵件等中的各種無(wú)用、不需要信息,包括:垃圾文本,垃圾廣告、垃圾郵件等;(2)色情信息,主要是指有性誘惑、性暗示的和涉黃露點(diǎn)的文字、圖片和視頻等信息;(3)涉政信息,指危害國(guó)家安全,影響社會(huì)穩(wěn)定,反黨反政府的謠言、虛假信息和暴力恐怖信息等。信息內(nèi)容安全對(duì)網(wǎng)絡(luò)信息傳播進(jìn)行管控,對(duì)于加強(qiáng)互聯(lián)網(wǎng)內(nèi)容建設(shè)、營(yíng)造清朗的網(wǎng)絡(luò)空間、保障社會(huì)的和諧穩(wěn)定具有重要意義。9.1.1內(nèi)容安全定義1.信息獲取技術(shù)
分為主動(dòng)獲取技術(shù)和被動(dòng)獲取技術(shù)。
主動(dòng)獲取技術(shù)通過(guò)向網(wǎng)絡(luò)注入數(shù)據(jù)包后的反饋來(lái)獲取信息,特點(diǎn)是接入方式簡(jiǎn)單,能夠獲取更廣泛的信息內(nèi)容,但會(huì)對(duì)網(wǎng)絡(luò)造成額外的負(fù)擔(dān)。
被動(dòng)獲取技術(shù)則在網(wǎng)絡(luò)出入口上通過(guò)鏡像或旁路偵聽(tīng)方式獲取網(wǎng)絡(luò)信息,特點(diǎn)是接入需要網(wǎng)絡(luò)管理者的協(xié)作,獲取的內(nèi)容僅限于進(jìn)出本地網(wǎng)絡(luò)的數(shù)據(jù)流,但不會(huì)對(duì)網(wǎng)絡(luò)造成額外流量。9.1.2內(nèi)容安全技術(shù)2.信息內(nèi)容識(shí)別技術(shù)
信息內(nèi)容識(shí)別是指對(duì)獲取的網(wǎng)絡(luò)信息內(nèi)容進(jìn)行識(shí)別、判斷、分類(lèi),確定其是否為所需要的目標(biāo)內(nèi)容,識(shí)別的準(zhǔn)確度和速度是其中的重要指標(biāo)。主要分為文字、音頻、圖像、圖形識(shí)別。目前文字識(shí)別技術(shù)已得到廣泛應(yīng)用,音頻識(shí)別也在一定范圍內(nèi)使用,但圖像識(shí)別的準(zhǔn)確性還有待進(jìn)一步提高離實(shí)際應(yīng)用尚有一定的距離。3.控制/阻斷技術(shù)
對(duì)于識(shí)別出的非法信息內(nèi)容,阻止或中斷用戶(hù)對(duì)其訪問(wèn),成功率和實(shí)時(shí)性是兩個(gè)重要指標(biāo)。
從阻斷依據(jù)上分為基于IP地址阻斷、基于內(nèi)容的阻斷;從實(shí)現(xiàn)方式上分為軟件阻斷和硬件阻斷;
從阻斷方法上分為數(shù)據(jù)包重定向和數(shù)據(jù)包丟棄。
具體地,在垃圾郵件剔除、涉密內(nèi)容過(guò)濾、著作權(quán)盜用的取證、有害及色情內(nèi)容的阻斷和警告等方面已經(jīng)投入使用。4.信息內(nèi)容分級(jí)
網(wǎng)絡(luò)“無(wú)時(shí)差、零距離”的特點(diǎn)使得不良內(nèi)容以前所未有的速度在全球擴(kuò)散,網(wǎng)絡(luò)不良內(nèi)容甚至還會(huì)造成青少年生理上的傷害。應(yīng)該建立自己的網(wǎng)上內(nèi)容分級(jí)標(biāo)準(zhǔn),讓父母保護(hù)他們的孩子遠(yuǎn)離互聯(lián)網(wǎng)上有潛在危害的內(nèi)容。5.圖像過(guò)濾
一些不良網(wǎng)絡(luò)信息的提供者采取了回避某些敏感詞匯,將文本嵌入到圖像文件中,或直接以圖像文件的形式出現(xiàn)等方法,從而可以輕易地通過(guò)網(wǎng)絡(luò)過(guò)濾和監(jiān)測(cè)系統(tǒng)。為此,需要對(duì)網(wǎng)頁(yè)中的圖像進(jìn)行分析和理解實(shí)現(xiàn)網(wǎng)絡(luò)過(guò)濾。目前這一技術(shù)還沒(méi)有達(dá)到實(shí)用系統(tǒng)的要求。6.信息內(nèi)容審計(jì)
信息內(nèi)容審計(jì)的目標(biāo)就是真實(shí)全面地將發(fā)生在網(wǎng)絡(luò)上的所有事件記錄下來(lái),為事后的追查提供完整準(zhǔn)確的資料。通過(guò)對(duì)網(wǎng)絡(luò)信息進(jìn)行審計(jì),政府部門(mén)可以實(shí)時(shí)監(jiān)控本區(qū)域內(nèi)Internet的使用情況,為信息安全的執(zhí)法提供依據(jù)。雖然審計(jì)措施相對(duì)網(wǎng)上的攻擊和竊密行為是有些被動(dòng),它對(duì)追查網(wǎng)上發(fā)生的犯罪行為起到十分重要的作用,也對(duì)內(nèi)部人員犯罪起到了威懾作用。
采用的主要技術(shù)是以旁路方式捕獲受控網(wǎng)段內(nèi)的數(shù)據(jù)流,通過(guò)協(xié)議分析、模式匹配等技術(shù)手段對(duì)網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行審計(jì),并對(duì)非法流量進(jìn)行監(jiān)控和取證。9.1.3信息內(nèi)容識(shí)別原理1.文本內(nèi)容識(shí)別傳統(tǒng)文本類(lèi)內(nèi)容安全識(shí)別系統(tǒng)一般由3個(gè)部分組成,即:敏感詞庫(kù)、信息采集、匹配算法。敏感詞庫(kù)一般依照相關(guān)法律、法規(guī)、行政要求、企業(yè)規(guī)章和標(biāo)準(zhǔn)規(guī)定制定,滿(mǎn)足匹配過(guò)濾的需求。敏感詞庫(kù)的內(nèi)容以詞語(yǔ)為主,輔以少量短語(yǔ)或句子,此外還可以包含通過(guò)對(duì)詞語(yǔ)進(jìn)行與或非的關(guān)系組成的敏感詞組合,以達(dá)到更準(zhǔn)確過(guò)濾違法違規(guī)和不良信息的目的。匹配算法通過(guò)規(guī)則匹配敏感詞庫(kù),對(duì)信息采集后的文本類(lèi)數(shù)據(jù)進(jìn)行分析,判斷其是否為違法違規(guī)和不良信息,以及屬于哪一類(lèi)違法違規(guī)和不良信息。傳統(tǒng)文本類(lèi)內(nèi)容安全識(shí)別方法的關(guān)鍵在于對(duì)采集的文本信息進(jìn)行詞語(yǔ)或詞組匹配,但這種方式存在誤報(bào)漏報(bào)的風(fēng)險(xiǎn)。2.圖像內(nèi)容識(shí)別最初的不良圖片/視頻識(shí)別,主要是通過(guò)建立不良圖片/視頻的MD5種子庫(kù),并用將戶(hù)新上傳的圖片/視頻方式進(jìn)行比較,如果一致,則判斷為不良內(nèi)容。MD5比對(duì),本質(zhì)上是把圖像當(dāng)作一個(gè)二進(jìn)制文件,通過(guò)比對(duì)二進(jìn)制內(nèi)容來(lái)判斷是否違規(guī),這種方式忽略了圖像本身的表征屬性,其短板是無(wú)法解決同一張圖的變種問(wèn)題。3.語(yǔ)音內(nèi)容識(shí)別音頻的特點(diǎn)是信息隱蔽和識(shí)別都很困難。傳統(tǒng)利用音頻指紋等幾何校準(zhǔn)匹配的方法,可以有效被動(dòng)攔截互聯(lián)網(wǎng)的有害內(nèi)容。而隨著技術(shù)的不斷演繹和迭代,針對(duì)音頻的識(shí)別也變被動(dòng)為主動(dòng),例如:獲取到音頻后通過(guò)音頻分類(lèi)將里面可能含有色情的聲音識(shí)別出來(lái),之后利用語(yǔ)音切分技術(shù)提取有效的語(yǔ)音部分;或是,利用說(shuō)話(huà)人識(shí)別技術(shù)判斷得到的音頻是否含有特定人物和語(yǔ)種信息,以決定該音頻是否含有不良信息;再有就是利用語(yǔ)音轉(zhuǎn)文字技術(shù),將聽(tīng)見(jiàn)轉(zhuǎn)化為看見(jiàn),并且實(shí)現(xiàn)將段、句、字、音素的文本信息和原始音頻進(jìn)行對(duì)齊,得到整段音頻的對(duì)應(yīng)文字信息,再通過(guò)文本安全技術(shù)就可以識(shí)別了。9.2.1文本內(nèi)容安全算法1.字符串匹配BF算法KMP算法Horspool算法BM算法Shift-And算法RK算法2.詞頻計(jì)算在文檔中,并不是每個(gè)詞對(duì)于文章含義的貢獻(xiàn)都是一樣的,而字符串匹配的方法并未考慮這一點(diǎn)。因此,要設(shè)計(jì)算法計(jì)算文章中詞的貢獻(xiàn)度,將最能表達(dá)文章含義內(nèi)容的詞(關(guān)鍵詞)篩選出來(lái)再進(jìn)行比對(duì)。TF-IDF詞頻計(jì)算一種解決方案。3.潛語(yǔ)義計(jì)算潛語(yǔ)義分析(LatentSemanticAnalysis,簡(jiǎn)稱(chēng)LSA/LSI)試圖去解決這個(gè)問(wèn)題,它把詞和文檔都映射到一個(gè)潛在語(yǔ)義空間,在這個(gè)空間內(nèi)進(jìn)行計(jì)算分析,取得良好的效果。潛語(yǔ)義空間的維度個(gè)數(shù)可以由分析者指定,并且往往比傳統(tǒng)向量空間維度更少,所以LSA/LSI也可視為一種降維技術(shù)。4.自然語(yǔ)言處理如前所述,為了像人類(lèi)一樣對(duì)語(yǔ)言進(jìn)行理解和運(yùn)用,文本計(jì)算中人們還會(huì)采用NLP。NLP利用人類(lèi)交流所使用的自然語(yǔ)言與機(jī)器進(jìn)行交互通訊的技術(shù)。通過(guò)自然語(yǔ)言處理,使得計(jì)算機(jī)對(duì)人類(lèi)自然語(yǔ)言能夠可讀并理解。NLP的相關(guān)研究始于人類(lèi)對(duì)機(jī)器翻譯的探索,涉及語(yǔ)音、語(yǔ)法、語(yǔ)義、語(yǔ)用等多維度的操作。簡(jiǎn)而言之,其基本任務(wù)是基于本體詞典、詞頻統(tǒng)計(jì)、上下文語(yǔ)義分析等方式對(duì)待處理語(yǔ)料進(jìn)行分詞,形成以最小詞性為單位且富含語(yǔ)義的詞項(xiàng)單元。然而,NLP技術(shù)距離成熟運(yùn)用也還有很長(zhǎng)的路要走。9.2.2文本內(nèi)容分析工具jieba庫(kù)sklearn.feature_extraction.text庫(kù)Wordcloud庫(kù)Gensim其它9.2.3文本內(nèi)容安全程序設(shè)計(jì)1.BF字符串匹配首先將原字符串(例如:ABCDEFG)和子串(例如:DEF)左端對(duì)齊,逐一比較;如果第一個(gè)字符不能匹配,則子串向后移動(dòng)一位繼續(xù)比較;如果第一個(gè)字符匹配,則繼續(xù)比較后續(xù)字符,直至全部匹配,如下圖9-1所示。
start=time.time()whilei<=len(t)-len(p):j=0whilet[i]==p[j]:#?i=i+1j=j+1ifj==len(p):breakifj==len(p)-1:count=count+1i=i+1#?j=0
print(count)print("耗時(shí)",time.time()-start,"秒")2.中文詞頻提取詞頻可以反映出詞對(duì)文本的貢獻(xiàn)程度,下面代碼利用了sklearn.feature_extraction.text庫(kù)的TfidfVectorizer類(lèi),對(duì)中文的TF-IDF的提取過(guò)程,注意中文處理要先采用jieba進(jìn)行分詞。TF-IDF的主要思想基于,如果某個(gè)詞或者短語(yǔ)在一篇文章中出現(xiàn)的概率高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類(lèi)別區(qū)分能力,適合用來(lái)分類(lèi)。TF-IDF算法步驟包括如下三步。(1)計(jì)算詞頻:詞頻=某個(gè)詞在文章中出現(xiàn)的次數(shù)考慮到文本有長(zhǎng)短之分,考慮到不同文本之間的比較,將詞頻進(jìn)行標(biāo)準(zhǔn)化計(jì)算:詞頻=某個(gè)詞在文本中出現(xiàn)的次數(shù)/文本的總詞數(shù)詞頻=某個(gè)詞在文本中出現(xiàn)的次數(shù)/該文出現(xiàn)次數(shù)最多的詞出現(xiàn)的次數(shù)(2)計(jì)算逆文檔頻率需要一個(gè)語(yǔ)料庫(kù)(corpus)來(lái)模擬語(yǔ)言的使用環(huán)境。逆文檔頻率=log(語(yǔ)料庫(kù)的文檔總數(shù)/(包含該詞的文檔數(shù)+1))(3)計(jì)算TF-IDFTF-IDF=詞頻(TF)*逆文檔頻率(IDF)TF-IDF算法的優(yōu)點(diǎn)是簡(jiǎn)單快速,結(jié)果比較符合實(shí)際情況,但是單純以“詞頻”衡量一個(gè)詞的重要性,不夠全面,有時(shí)候重要的詞可能出現(xiàn)的次數(shù)并不多,而且這種算法無(wú)法體現(xiàn)詞的位置信息,出現(xiàn)位置靠前的詞和出現(xiàn)位置靠后的詞,都被視為同樣重要,是不合理的。defchinVec():
#中文特征值化
c1,c2,c3=cutWord()
print(c1,c2,c3)
tf=TfidfVectorizer()
#特征值提取
data=tf.fit_transform([c1,c2,c3])#?
print(data)#sparse格式的權(quán)重
print(data.toarray())#輸出權(quán)重矩陣
#統(tǒng)計(jì)單詞
print(tf.get_feature_names())
print(len(tf.get_feature_names()))
returnNone
3.詞云關(guān)鍵詞提取f=open('content1.txt',encoding='utf-8').read().\replace("\n","").replace("\t","").replace("\u3000","")#?
#中文分詞text=''.join(jieba.cut(f))#?
#?創(chuàng)建set集合來(lái)保存停用詞stopwords=set()s=open("baidu_stopwords.txt","r",encoding="utf-8")line_contents=s.readline()whileline_contents:#去掉回車(chē)line_contents=line_contents.replace("\n","").replace("\t","").replace("\u3000","")stopwords.add(line_contents)line_contents=s.readline()
w=wordcloud.WordCloud(font_path='msyh.ttf',stopwords=stopwords,background_color="white")#?w.generate(text)w.to_file("pywcloud.png")
#顯示詞云plt.imshow(w,interpolation='bilinear')plt.axis('off')plt.show()4.潛語(yǔ)義分析單詞-文檔矩陣(term-document):構(gòu)造與分解
單詞-文檔矩陣(term-document):構(gòu)造與分解
defLSI():dictionary,corpus=GenDictandCorpus()corpus_tfidf=Tfidf()#?
#?初始化LSI轉(zhuǎn)化器lsi=models.LsiModel(corpus_tfidf,id2word=dictionary,num_topics=2)corpus_lsi=lsi[corpus_tfidf]#?在這里實(shí)際執(zhí)行了bow->tfidf和tfidf->lsi轉(zhuǎn)換fordocincorpus_lsi:print(doc)
lsi.save('/tmp/model.lsi')#?lsi=models.LsiModel.load('/tmp/model.lsi')#?9.3.1圖像內(nèi)容安全算法圖像內(nèi)容安全是內(nèi)容安全領(lǐng)域相對(duì)特殊的領(lǐng)域,其所面對(duì)的安全分析目標(biāo)往往定義并不明確,數(shù)據(jù)種類(lèi)繁雜且多變(分類(lèi)如圖9-6所示,具體可分為:涉黃、涉政、暴恐、違禁、廣告幾類(lèi))、圖像質(zhì)量差距大,而且還會(huì)經(jīng)常面臨對(duì)抗攻擊(對(duì)圖片進(jìn)行縮放、旋轉(zhuǎn)、裁剪、過(guò)濾等),因此對(duì)算法識(shí)別能力和魯棒性的要求較高。圖像內(nèi)容安全的困難性主要體現(xiàn)出兩個(gè)方面:由于線(xiàn)上數(shù)據(jù)正常比例較高,且圖像類(lèi)型眾多,誤判問(wèn)題非常容易集中體現(xiàn);另一方面,由于圖像質(zhì)量參差不齊,圖像敏感特征往往不夠明顯,小目標(biāo)、模糊、形變等問(wèn)題較常出現(xiàn),因此實(shí)現(xiàn)起來(lái)非常困難。9.3.2圖像內(nèi)容分析工具OpenCV庫(kù)TensorFlow庫(kù)Keras庫(kù)Pillow庫(kù)其它9.3.3圖像內(nèi)容安全程序設(shè)計(jì)1.基于比對(duì)的圖片內(nèi)容安全檢測(cè)defsift(image):#計(jì)算特征點(diǎn)提取&生成描述時(shí)間start=time.time()sift=cv2.xfeatures2d.SIFT_create()#?使用SIFT查找關(guān)鍵點(diǎn)keypoints和描述符descriptorskp,des=sift.detectAndCompute(image,None)end=time.time()print("特征點(diǎn)提取&生成描述運(yùn)行時(shí)間:%.2f秒"%(end-start))#將特征點(diǎn)保存到文件np.savetxt(".\SIFT.txt",des,fmt='%d')
returnkp,desdefshow_sift(kp,des):#查看關(guān)鍵點(diǎn)print("關(guān)鍵點(diǎn)數(shù)目:",len(kp))
#打印關(guān)鍵點(diǎn)參數(shù)foriinrange(2):print("關(guān)鍵點(diǎn)",i)print("數(shù)據(jù)類(lèi)型:",type(kp[i]))print("關(guān)鍵點(diǎn)坐標(biāo):",kp[i].pt)
print("================")
#查看描述print("描述的shape:",des.shape)#SIFT關(guān)鍵點(diǎn)描述子為128維的向量,所以輸出為描述的shape:(關(guān)鍵點(diǎn)個(gè)數(shù),128)#128維的每一維都是一個(gè)雙精度浮點(diǎn)型數(shù)foriinrange(2):print("描述",i)print(des[i])kp_image=cv2.drawKeypoints(image,kp,None)plt.figure()plt.imshow(kp_image)plt.savefig('kp_image.png',dpi=300)plt.show()2.深度學(xué)習(xí)內(nèi)容安全編程深度學(xué)習(xí)內(nèi)容安全編程的代碼參考了圖像深度學(xué)習(xí)二分類(lèi)問(wèn)題設(shè)計(jì)思想,搜集安全與不安全的圖像樣本訓(xùn)練模型,對(duì)測(cè)試樣本進(jìn)行分析。這一過(guò)程包括:數(shù)據(jù)準(zhǔn)備、構(gòu)建模型、模型訓(xùn)練(含數(shù)據(jù)預(yù)處理)、預(yù)測(cè)幾個(gè)步驟,如果樣本太少還需要進(jìn)行數(shù)據(jù)增強(qiáng),流程圖如圖9-24所示。生物神經(jīng)元生物神經(jīng)元通過(guò)改變連接的強(qiáng)度進(jìn)行學(xué)習(xí)!MP神經(jīng)元模型MP是構(gòu)建神經(jīng)網(wǎng)絡(luò)大廈的基石!MP模型中的權(quán)重是預(yù)先設(shè)置的,因此不能學(xué)習(xí)。因此需要設(shè)計(jì)能夠調(diào)整權(quán)值的方法實(shí)現(xiàn)學(xué)習(xí)。從神經(jīng)元到感知機(jī)(Perceptron)神經(jīng)元感知機(jī)區(qū)別:感知機(jī)有兩層(輸入層、輸出層),神經(jīng)元一層神經(jīng)元的權(quán)值是固定的,感知機(jī)的權(quán)值可以改變感知機(jī)模型(兩層神經(jīng)元組成),每一個(gè)輸入x與其權(quán)值w相乘求和然后加上一個(gè)偏置,然后輸入到激活函數(shù)f中。w和b可以不斷調(diào)整,調(diào)整的過(guò)程就是學(xué)習(xí)過(guò)程!感知機(jī)初步解決了學(xué)習(xí)的問(wèn)題,卻存在一個(gè)致命的問(wèn)題,無(wú)法解決異或問(wèn)題!如圖,從左到右,“與”、“非”、“或”問(wèn)題都是線(xiàn)性可分的,感知機(jī)可以很容易通過(guò)調(diào)節(jié)參數(shù)獲得其決策邊界,但是“異或”卻是線(xiàn)性不可分的,感知機(jī)對(duì)其無(wú)能為力。生活中的異或問(wèn)題:動(dòng)物異性生殖,襪子左右成對(duì)…最早的神經(jīng)網(wǎng)絡(luò)就是前饋神經(jīng)網(wǎng)絡(luò),他它包括輸入層、隱藏層、輸出層。感知機(jī)就是沒(méi)有隱藏層的前饋神經(jīng)網(wǎng)絡(luò)。前饋神經(jīng)網(wǎng)絡(luò)也就是多層感知機(jī)!多層感知機(jī)解決了非線(xiàn)性可分問(wèn)題。萬(wàn)能近似定理(UniversalApproximationTheorem)是由美國(guó)數(shù)學(xué)家卡爾·米勒(KarlMenger)在1932年提出的:對(duì)于一個(gè)任意的連續(xù)函數(shù),都可以用一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)近似表示。這個(gè)定理有助于證明神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的函數(shù)近似能力。他證明了,對(duì)于任意的連續(xù)函數(shù),都可以用一個(gè)無(wú)窮多項(xiàng)式來(lái)近似表示,這個(gè)定理后來(lái)被擴(kuò)展到神經(jīng)網(wǎng)絡(luò)的領(lǐng)域。萬(wàn)能近似定理的意義在于,它證明了神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的函數(shù)近似能力。這使得神經(jīng)網(wǎng)絡(luò)在許多應(yīng)用中得到了廣泛的使用,如圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等。構(gòu)建網(wǎng)絡(luò)fromkerasimportmodelsimporttensorflowastf
defget_img(img_path):img=tf.io.read_file(img_path)#根據(jù)路徑讀取圖片img=tf.image.decode_jpeg(img,channels=0)#解碼圖片為jpg格式img=tf.image.resize(img,[150,150])#圖像大小縮放img=tf.cast(img,dtype=tf.float32)/255.#轉(zhuǎn)換成張量img=tf.expand_dims(img,0)returnimg
if__name__=='__main__':img=get_img("./test.png")predict_model=models.load_model('legal_and_illegal_1.h5')result=predict_model.predict(img)print("類(lèi)別:",result.argmax(axis=1),"\n概率:",result)樣本數(shù)據(jù)增強(qiáng)有了上述訓(xùn)練的模型,就可以未知樣本進(jìn)行預(yù)測(cè)了3在線(xiàn)深度學(xué)習(xí)內(nèi)容審核工具上述基于深度學(xué)習(xí)的模型訓(xùn)練與使用,對(duì)于沒(méi)有人工智能專(zhuān)業(yè)基礎(chǔ)的程序員而言是相對(duì)困難的,尤其是在缺乏大量數(shù)據(jù)的條件下,更是難以實(shí)施。此時(shí),可以借助華為云(/)提供的“內(nèi)容審核-圖像Moderation(Image)”(/moderation/index.html),直接利用華為已經(jīng)訓(xùn)練好的模型對(duì)圖像進(jìn)行識(shí)別。該內(nèi)容審核-圖像Moderation(Image),基于深度學(xué)習(xí)的圖像智能審核方案,準(zhǔn)確識(shí)別圖片中的涉黃、涉暴、政治敏感、廣告、不良場(chǎng)景等內(nèi)容,識(shí)別快速準(zhǔn)確,幫助企業(yè)降低人力審核成本。使用步驟包括以下。步驟一:通過(guò)Token或AK/SK獲取認(rèn)證信息(/api-moderation/moderation_03_0003.html)。步驟二:下載獲取內(nèi)容審核SDK軟件包(/sdk?MODERATION)。步驟三:環(huán)境配置及SDK工程導(dǎo)入。步驟四:使用SDK提供的API。內(nèi)容審核服務(wù)所提供的API包括文本審核、扭曲校正、清晰度檢測(cè)。圖像內(nèi)容審核代碼在moderation_image_aksk_demo.py(ak/sk方式)和moderation_image_token_demo.py(token方式),圖像ModerationSDK文件結(jié)構(gòu)如圖9-31。frommoderation_sdk.utilsimportencode_to_base64frommoderation_sdk.moderation_imageimportmoderation_image_akskfrommoderation_sdk.utilsimportinit_global_env
if__name__=='__main__':init_global_env('cn-north-4')#?
app_key='*************'#?app_secret='************'
#?本地文件方式result=moderation_image_aksk(app_key,\app_secret,encode_to_base64('data/moderation-terrorism.jpg'),'',['porn','politics','terrorism','ad'],'')print(result)
demo_data_url=
'/terrorism.jpg'#?url方式result=moderation_image_aksk(app_key,app_secret,"",demo_data_url,\['porn','politics','terrorism','ad'],'')print(result)9.4.1語(yǔ)音內(nèi)容安全模型圖9-32MFCC語(yǔ)音特征分析一般的模式識(shí)別包括預(yù)處理,特征提取,模式匹配等基本模塊。音頻的預(yù)處理,采用對(duì)輸入語(yǔ)音進(jìn)行分幀,加窗,預(yù)加重等方法實(shí)現(xiàn),然后進(jìn)行特征提取。常用的特征參數(shù)包括:基音周期,共振峰、短時(shí)平均能量或幅度、線(xiàn)性預(yù)測(cè)系數(shù)(LPC)、感知加權(quán)預(yù)測(cè)系數(shù)(PLP)、短時(shí)平均過(guò)零率、線(xiàn)性預(yù)測(cè)倒譜系數(shù)(LPCC)、自相關(guān)函數(shù)、梅爾倒譜系數(shù)(MFCC)、小波變換系數(shù)、經(jīng)驗(yàn)?zāi)B(tài)分解系數(shù)(EMD)、伽馬通濾波器系數(shù)(GFCC)等。在第六章中,已經(jīng)對(duì)MFCC進(jìn)行了介紹。幀是語(yǔ)音特征的最基本單位,每幀的長(zhǎng)度為25毫秒,稱(chēng)為幀長(zhǎng)。每?jī)蓭g有25-10=15毫秒的交疊。分幀后,語(yǔ)音就變成了很多小段。以MFCC為例,連續(xù)的聲音經(jīng)過(guò)特征提取的幀序列就成了一個(gè)12行(假設(shè)聲學(xué)特征選取12維)、N列的一個(gè)矩陣(N為總幀數(shù))。對(duì)于得到的特征,會(huì)將其按照幀、狀態(tài)、音素的尺度順序組合,最后經(jīng)過(guò)模式匹配合成單詞/詞,這個(gè)過(guò)程經(jīng)過(guò)三個(gè)步驟:第一步,把幀識(shí)別成狀態(tài);第二步,把狀態(tài)組合成音素;第三步,把音素組合成單詞。9.4.2語(yǔ)音內(nèi)容分析工具SpeechRecognitionAipSpeech9.4
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版船舶設(shè)備維修保養(yǎng)綜合服務(wù)合同3篇
- 2024版河道清渠建設(shè)施工協(xié)議范本一
- 2024甲乙雙方就電子商務(wù)平臺(tái)建設(shè)與運(yùn)營(yíng)之合作協(xié)議
- 九下語(yǔ)文《送東陽(yáng)馬生序》閱讀問(wèn)答題必刷必背(答案版)
- 2024年退役士兵供養(yǎng)合同3篇
- 2024弱電智能化系統(tǒng)集成與調(diào)試服務(wù)合同2篇
- 2024年物流司機(jī)勞務(wù)合同
- ups不間斷電源建設(shè)項(xiàng)目合同(2024年)
- 2024年龍門(mén)吊設(shè)備租賃服務(wù)協(xié)議版B版
- 2024年石料供應(yīng)合同模板3篇
- 八年級(jí)數(shù)學(xué)上冊(cè)《第十八章 平行四邊形》單元測(cè)試卷及答案(人教版)
- 中職計(jì)算機(jī)應(yīng)用基礎(chǔ)教案
- 盤(pán)龍煤礦礦山地質(zhì)環(huán)境保護(hù)與土地復(fù)墾方案
- 消防安全評(píng)估質(zhì)量控制體系(2020年整理)課件
- 新生兒沐浴及撫觸護(hù)理
- 理想氣體的性質(zhì)與熱力過(guò)程
- 2022年浙江省各地市中考生物試卷合輯7套(含答案)
- 性病轉(zhuǎn)診與會(huì)診制度
- 教學(xué)案例 英語(yǔ)教學(xué)案例 市賽一等獎(jiǎng)
- 南京市勞動(dòng)合同書(shū)(全日制文本)
- GB/T 28859-2012電子元器件用環(huán)氧粉末包封料
評(píng)論
0/150
提交評(píng)論