計算機(jī)科學(xué)與技術(shù)-基于卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別系統(tǒng)開發(fā)與設(shè)計_第1頁
計算機(jī)科學(xué)與技術(shù)-基于卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別系統(tǒng)開發(fā)與設(shè)計_第2頁
計算機(jī)科學(xué)與技術(shù)-基于卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別系統(tǒng)開發(fā)與設(shè)計_第3頁
計算機(jī)科學(xué)與技術(shù)-基于卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別系統(tǒng)開發(fā)與設(shè)計_第4頁
計算機(jī)科學(xué)與技術(shù)-基于卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別系統(tǒng)開發(fā)與設(shè)計_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

PAGE摘要基于卷積神經(jīng)網(wǎng)絡(luò)的人體行為識別的開發(fā)與設(shè)計摘要:隨著計算機(jī)領(lǐng)域不斷的創(chuàng)新、其它行業(yè)對計算機(jī)的應(yīng)用需求的提高以及社會對解放勞動力的迫切,人機(jī)交互成為人們關(guān)注的問題。深度學(xué)習(xí)的出現(xiàn)幫助了人們實現(xiàn)人機(jī)交互,而卷積神經(jīng)網(wǎng)絡(luò)是其的代表算法的一種,被普遍應(yīng)用在計算機(jī)視覺領(lǐng)域?qū)崿F(xiàn)圖片識別。人體行為識別是指將一系列數(shù)據(jù)喂入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),計算機(jī)對數(shù)據(jù)進(jìn)行特征提取然后識別分類,其中數(shù)據(jù)包括視頻、圖片序列或者傳感器數(shù)據(jù)等。本文采用的網(wǎng)絡(luò)結(jié)構(gòu)包括4層卷積層、1層全連接層、1層最大池化層、1層平均池化層,使用了一維卷積、Relu激活函數(shù)、Softmax和Dropout技術(shù)。采用的數(shù)據(jù)集為WISDM實驗室的發(fā)布的第一版數(shù)據(jù)集,參與測試的人數(shù)共36人,使用加速度傳感器,采樣率為20HZ,數(shù)據(jù)集包含的行為類型共6種:Downstairs下樓梯、Jogging慢跑、Sitting坐、Standing站立、Upstairs上樓梯和Wallking走路。本文的篇首分析了研究人體行為識別的背景和研究意義,介紹國內(nèi)和國外的研究現(xiàn)狀。接著詳細(xì)介紹ANN相關(guān)的知識,及兩個簡單且具有代表性的網(wǎng)絡(luò)結(jié)構(gòu)。然后闡述CNN的相關(guān)理論知識其中包括傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),再重點介紹用于本文的CNN神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),以及如何用本文的設(shè)計的網(wǎng)絡(luò)模型在WISDM數(shù)據(jù)集上實現(xiàn)行為識別。最后對模型的性能進(jìn)行分析,得到結(jié)論與提出建議,規(guī)劃展望。關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)、人體行為識別DevelopmentanddesignofhumanbehaviorrecognitionbasedonconvolutionalneuralnetworkAbstract:Withthecontinuousinnovationandbreakthroughsinthecomputerfieldandtheincreasingdemandforcomputerapplicationsinotherfields,human-computerinteractionhasbecomeaconcernofpeople.Theemergenceofdeeplearninghashelpedpeopleachievehuman-computerinteraction,andconvolutionalneuralnetworkisoneofitsrepresentativealgorithms,whichiswidelyusedinthefieldofcomputervisiontorealizepicturerecognition.Humanbehaviorrecognitionreferstofeedingaseriesofdataintoatrainedneuralnetwork,andthecomputerperformsfeatureextractiononthedataandthenrecognizesandclassifiesthedata,includingdatasuchasvideos,imagesequences,orsensordata.Thenetworkstructureusedinthispaperincludes4convolutionallayers,1fullyconnectedlayer,1maximumpoolinglayer,and1averagepoolinglayer,usingone-dimensionalconvolution,Reluactivationfunction,SoftmaxandDropouttechnology.ThedatasetusedisthefirstversionofthedatasetreleasedbytheWISDMlaboratory.Atotalof36peopleparticipatedinthetest.Theaccelerationsensorisusedandthesamplingfrequencyis20HZ.Thedatasetcontains6typesofbehaviors:Downstairs,JoggingJog,Sitting,Standing,UpstairsandWalking.Thefirstpartofthisarticleanalyzesthebackgroundandsignificanceofresearchonhumanbehaviorrecognition,andintroducesthedomesticandforeignresearchstatus.Next,weintroduceANNandtwosimpleandrepresentativenetworkstructuresindetail,includingrelatedcontentsofneuronsandactivationfunctions.Thenelaboratetherelevanttheoreticalknowledgeofconvolutionalneuralnetworks,includingthetraditionalconvolutionalneuralnetworkstructure,andthenfocusontheCNNnetworkmodelstructureusedinthisarticleandhowtousethisneuralnetworkmodeltoachievehumanbehaviorrecognitionontheWISDMdataset.Finally,theperformanceofthemodelisanalyzed,andconclusionsandsuggestionsaremade,andplanningprospects.Keywords:Convolutionalneuralnetwork,humanbehaviorrecognition目錄第1章緒論 11.1研究背景和意義 11.1.1研究人體行為識別的目的 11.1.2本課題的研究意義 11.2國內(nèi)外研究現(xiàn)狀 21.2.1國內(nèi)研究 21.2.2國外研究 21.3課題研究方法和內(nèi)容 31.3.1研究方法 31.3.2研究內(nèi)容 3第2章人工神經(jīng)網(wǎng)絡(luò) 42.1人工神經(jīng)元 42.1.1生物神經(jīng)元 42.1.2神經(jīng)元 42.1.3激活函數(shù) 52.1.4損失函數(shù) 82.2感知器神經(jīng)網(wǎng)絡(luò) 82.3BP神經(jīng)網(wǎng)絡(luò) 9第3章卷積神經(jīng)網(wǎng)絡(luò)相關(guān)理論知識 113.1前饋神經(jīng)網(wǎng)絡(luò) 113.2卷積神經(jīng)網(wǎng)絡(luò) 123.2.1卷積層 123.2.2池化層 123.2.3全連接層 133.3傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu) 13第4章基于卷積網(wǎng)絡(luò)的人體行為識別系統(tǒng)的實現(xiàn) 154.1處理數(shù)據(jù)集 154.24.2處理訓(xùn)練集數(shù)據(jù) 174.3構(gòu)建神經(jīng)網(wǎng)絡(luò)模型 18第5章測試與分析 205.1編譯模型 205.2實驗結(jié)果 205.2.1模型準(zhǔn)確率和損失 205.2.2模型識別的正確率 215.2.3混淆矩陣 22總結(jié)與展望 23參考文獻(xiàn) 24致謝 26PAGE26緒論研究背景和意義研究人體行為識別的目的根據(jù)深圳市最新出臺的管理條例我們可以了解到,今年深圳市內(nèi)公共場合將分布多大200萬臺的各類攝像頭。其中,包括10萬多臺一類攝像頭以及190多萬臺二三類攝像頭。如此龐大的數(shù)量,再乘上每天24小時,可以想象監(jiān)控人員的工作量之大,而人體識別系統(tǒng)的出現(xiàn)可以很好的解決為這一問題從而釋放勞動力。計算機(jī)通過應(yīng)用此系統(tǒng)從海量的監(jiān)控視頻中對人的行為進(jìn)行識別、分類,并在其中提取出異常的行為,及時報警!系統(tǒng)將解放監(jiān)控人員的勞動力,以及為維護(hù)社會提供安全和穩(wěn)定的服務(wù)。人體行為識別可以簡單的分為特征提取、特征表示和識別分類[1]三個部分。特征提取是指從視頻或圖片序列中提取人工特征,如STIP(時空興趣點)[2],BOVW(視覺詞袋)[3-4],HOG(方向梯度直方圖)[5-7],和MHI(運動歷史圖像)[8]等。特征表示,則指將提取的特征構(gòu)成更加具有區(qū)分性的描述子特征,并通過一些變換和聚類等技術(shù)來實現(xiàn),如FTT(傅里葉時態(tài)變換)[9-10]和K均值聚類[11]等。識別分類,使用像SVM,Adaboost[12]之類的分類器對描述子特征進(jìn)行分類識別。而卷積網(wǎng)絡(luò)較全連接網(wǎng)絡(luò)來說最大的優(yōu)勢是其在計算機(jī)視覺領(lǐng)域中可以實現(xiàn)過濾參數(shù),即保留少量重要的參數(shù)以及去掉大量不重要的參數(shù),以此使網(wǎng)絡(luò)模型達(dá)到更好的學(xué)習(xí)效果!本課題的研究意義隨著我國社會、經(jīng)濟(jì)的顯著提高,老百姓不再只擔(dān)心溫飽問題,人身安全得到了前所未有的關(guān)注,人們對于視頻監(jiān)控系統(tǒng)的需求直線上升。監(jiān)控設(shè)備我們的日常生活中可謂如影隨形,出現(xiàn)在幾乎所有的公共場合,無論是小區(qū)、超市、商場、飯店甚至城市街道。但是這些監(jiān)控設(shè)備常常只是記錄發(fā)生的事情,并無法主動的保護(hù)人們的安全。因此,人們對于智能監(jiān)控設(shè)備迫切渴望,它不僅能夠?qū)崟r監(jiān)控24小時內(nèi)發(fā)生的事情,還能通過分析人類行為,判斷情況,自動報警,從而避免一些危險的事情發(fā)生!本課題的實現(xiàn)對于維護(hù)社會安全以及打擊犯罪等具有重大的意義。國內(nèi)外研究現(xiàn)狀國內(nèi)研究人體行為識別在中國的研究開展地較晚但是經(jīng)過與日俱增的發(fā)展取得了關(guān)鍵性的研究。隸屬于中國科學(xué)院自動化所的CBSR(生物識別與安全技術(shù)研究中心)和微軟亞洲研究院(MAR)都是較早在中國投入運營的研究所,較早研究人體行為識別的中國本土大學(xué)有:清華大學(xué)、北京大學(xué)和浙江大學(xué)。王喜昌等人設(shè)計一種基于三維加速度傳感器的上肢動作識別系統(tǒng)[13],具有理想的識別準(zhǔn)確率。田國會等人利用Kinect體感設(shè)備獲取人體的關(guān)節(jié)數(shù)據(jù)[14],較好的解決識別問題,取得較為理想的結(jié)果。衡霞等人提出運用手機(jī)加速度傳感器來獲得數(shù)據(jù),從而實現(xiàn)人體行為識別[15]。國外研究國外大學(xué)和研究機(jī)構(gòu)較對人體行為識別的研究開展的比較早,1973年心理學(xué)家Johansson通過二維模型研究三維的人體運動感知開展了移動光斑的運動感知實驗[16]。其實驗表明,人體上光斑的數(shù)量和分布與運動感知有關(guān)。特別是,發(fā)現(xiàn)隨著光點數(shù)量的增加,運動理解中的模糊性減少了[17]。實驗還表明人類視覺即能夠檢測運動方向還能夠檢測不同類型的肢體運動模式,包括識別活動的速度和不同運動模式[18]。1977年,D.Marr基于計算機(jī)科學(xué),結(jié)合數(shù)學(xué)、心理物理學(xué)和神經(jīng)生理學(xué)提出了視覺計算理論[19-20]。D.Marr的視覺計算理論創(chuàng)建后,計算機(jī)視覺研究的進(jìn)程得到突飛猛進(jìn)的提高,研究機(jī)構(gòu)如雨后春筍般開始致力于人體運動分析。美國在1997年設(shè)立了以戰(zhàn)場為主要應(yīng)用領(lǐng)域的VSAM項目(視覺監(jiān)控項目)。隨后IVPL實驗室(圖像和視頻處理實驗室)、AIRVL實驗室(人工智能、機(jī)器人與視覺實驗室)和LPAC實驗室(感知,行動與認(rèn)知實驗室)相繼開展了人體行為識別的研究。英國雷丁大學(xué)先后推出兩個項目來參與人體行為識別的研究:REASON(監(jiān)視和了解公共場所人員項目)和ISCAPs(治安密集地區(qū)綜合監(jiān)視項目)。課題研究方法和內(nèi)容研究方法本文在撰寫的過程中主要運用了如下兩種方法進(jìn)行研究:文獻(xiàn)研究法。根據(jù)本文的課題去確定文獻(xiàn)需求,有計劃性地去查閱與本文課題相關(guān)的文獻(xiàn),以此獲得相關(guān)資料去增加自己去課題的認(rèn)識,從而全面、客觀、正確地了解本文的研究題目,啟發(fā)思考。理論研究法。通過實踐,即實際設(shè)計與開發(fā)出基識別系統(tǒng),然后將整個開發(fā)的過程及結(jié)果進(jìn)行分析、總結(jié),形成自己的見解看法。研究內(nèi)容本文共有6章來循序漸進(jìn)地闡述人體行為識別這個課題,具體內(nèi)容的結(jié)構(gòu)和安排如下:第1章。以論題的背景與研究目的為中心展開進(jìn)行說明,分析并闡述人體行為識別的實現(xiàn)對社會有怎樣的意義。同時,收集大量人體識別的相關(guān)文獻(xiàn)資料并進(jìn)行綜述,介紹國內(nèi)外研究現(xiàn)況。第2章。分別從ANN的結(jié)構(gòu)、常用的激活函數(shù)來介紹ANN的相關(guān)理論知識。然后介紹再介紹基礎(chǔ)的感知器神經(jīng)網(wǎng)絡(luò),以此擴(kuò)展對ANN的了解。第3章。在上一章節(jié)的基礎(chǔ)上過渡講述CNN相關(guān)理論知識。首先介紹前饋神經(jīng)網(wǎng)絡(luò),其次介紹包括卷積層、池化層、全連接層在內(nèi)的卷積網(wǎng)絡(luò)的結(jié)構(gòu)構(gòu)成,以Lenet-5為例子加深理解。第4章。詳細(xì)說明處理數(shù)據(jù)集以及搭建、訓(xùn)練神經(jīng)網(wǎng)絡(luò),包括代碼和結(jié)果展示。第5-6章。首先編譯上文所構(gòu)建的神經(jīng)網(wǎng)絡(luò)并分析結(jié)果,然后根據(jù)前文內(nèi)容進(jìn)行總結(jié),同時規(guī)劃展望。

人工神經(jīng)網(wǎng)絡(luò)ANN是一種由許多的神經(jīng)元之間聯(lián)接而構(gòu)成的計算模型,它將生物神經(jīng)元處理信息的過程進(jìn)行抽象、建立模型,不一樣的聯(lián)接方式組成的網(wǎng)絡(luò)也不同。人工神經(jīng)元生物神經(jīng)元深度學(xué)習(xí)實際就是模擬生物神經(jīng)元接收處理信息的過程。一個完整的生物神經(jīng)元的可以分為細(xì)胞體和突起,其中突起又包括樹突和軸突兩種,軸突末端呈樹狀且沒有細(xì)胞核的為神經(jīng)末梢。一個完整的生物神經(jīng)元的結(jié)構(gòu)如圖2-1所示:圖2-1生物神經(jīng)元結(jié)構(gòu)示意圖樹突:電信號從這些交叉部分進(jìn)入,接受其他神經(jīng)元軸突傳入的電信號傳給細(xì)胞體。細(xì)胞核:電信號進(jìn)入到細(xì)胞核后,細(xì)胞核會將多個電信號聯(lián)合在一起進(jìn)行運算最后得到唯一的電信號。軸突:唯一的電信號通過軸突傳送。神經(jīng)末梢:將軸突傳來的電信號分解成若干個部分,以每個分叉?zhèn)鬟f給外面的神經(jīng)元。神經(jīng)元神經(jīng)元是NNs(神經(jīng)網(wǎng)絡(luò))最核心也是基本的部分,它是模擬生物神經(jīng)元的一種數(shù)學(xué)模型,單個神經(jīng)元可以接收多個輸入數(shù)據(jù)。兩個神經(jīng)元之間的聯(lián)接強(qiáng)度決定信號傳遞的強(qiáng)弱,且聯(lián)接強(qiáng)度不是固定不變的,它可以伴隨訓(xùn)練輪數(shù)發(fā)生變化。一個基本的神經(jīng)元模型如圖2-2所示:圖2-2人工神經(jīng)元結(jié)構(gòu)示意圖圖2-2的計算結(jié)果為:其中為輸入信號,為每個輸入信號所對應(yīng)的的權(quán)值,為偏置值,為激活函數(shù)。激活函數(shù)激活函數(shù)在ANN模型中起到至關(guān)重要的作用,它將非線性激活因素拉入到我們的模型中,提高了模型的表達(dá)力,使得諸多非線性模型可以應(yīng)用在神經(jīng)網(wǎng)絡(luò)中。如果模型中沒有引入函數(shù),那每層網(wǎng)絡(luò)都相當(dāng)于只進(jìn)行了矩陣相乘,輸入輸出都是線性組合。以下三種函數(shù)是平時使用的最多的:激活函數(shù)ReluRelu函數(shù),函數(shù)數(shù)學(xué)圖形如圖2-3所示,因其計算簡單且有效,是一種常用于ANN中的激活函數(shù)。圖2-3relu函數(shù)數(shù)學(xué)圖形Relu函數(shù)通常指數(shù)學(xué)中的斜坡函數(shù),其數(shù)學(xué)表達(dá)式為:由公式可見,其實Relu函數(shù)就是分段線性函數(shù),它將所有小于0的數(shù)即負(fù)數(shù)都變?yōu)?,而正數(shù)和0的不變。這表示如果輸入是一個負(fù)數(shù),那么激活函數(shù)將輸出0,則神經(jīng)元不會被激活。所以同一時間只有部分的神經(jīng)元被激活,使得神經(jīng)元具有稀疏激活性,提高計算的效率。激活函數(shù)Sigmoid函數(shù)在定義域內(nèi)單調(diào)遞增,其反函數(shù)在定義域內(nèi)也是單調(diào)遞增。函數(shù)的數(shù)學(xué)圖形如2-4所示。圖2-4Sigmoid函數(shù)數(shù)學(xué)圖形從圖2-4可以看到函數(shù)的曲線平滑,則表明函數(shù)易于求導(dǎo),其數(shù)學(xué)表達(dá)式為:其求導(dǎo)為:再將結(jié)果用表示:由公式和數(shù)學(xué)圖形可知,Sigmoid函數(shù)在x軸上單調(diào)連續(xù)、值域為{y|0<y<1}。這意味著此函數(shù)可以將任意一個實數(shù)映射到(0,1)的區(qū)間內(nèi),所以當(dāng)遇到二分類的情況下可以使用函數(shù)。但是當(dāng)函數(shù)的輸出值接近0或接近1時,輸出就不會發(fā)生明顯變化了,這稱為函數(shù)接近線性變換。所以函數(shù)在特征之間比較相似或者相差較大的情況下實現(xiàn)的效果比較好。激活函數(shù)Tanh雙曲正切函數(shù)其實屬于Sigmoid型函數(shù)的一種,兩個函數(shù)的數(shù)學(xué)圖形曲線相似。如果將Sigmoid函數(shù)的對稱點在y軸上向下移到0,將得到雙曲正切函數(shù)。函數(shù)的數(shù)學(xué)圖形如2-5所示。圖2-5.Tanh函數(shù)數(shù)學(xué)圖形其數(shù)學(xué)表達(dá)式為:與Sigmoid函數(shù)的關(guān)系為:求導(dǎo)為:再將結(jié)果用表示:由TanH函數(shù)數(shù)學(xué)圖形和數(shù)學(xué)表達(dá)式可知,其值域為(-1,1),以0為中心反對稱,且原點近似恒等。但是,在輸入數(shù)據(jù)很大或很小時,輸出曲線接近線性變換,不利于權(quán)重更新容易出現(xiàn)梯度消失和飽和的問題。在遇到二分類問題時,構(gòu)建的網(wǎng)絡(luò)模型的隱藏層一般用雙曲正切函數(shù),而輸出層則用Sigmoid函數(shù)。損失函數(shù)損失函數(shù)一般指預(yù)測值與已知標(biāo)準(zhǔn)答案兩者之差,可以通過它了解模型的優(yōu)劣。損失函數(shù)越小,表示網(wǎng)絡(luò)模型的準(zhǔn)確率越高。要想提高模型的準(zhǔn)確率、縮小損失函數(shù),只能通過在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中改變網(wǎng)絡(luò)中的參數(shù)。下面將詳細(xì)講解以下三種最常被使用的函數(shù)(lossfunction):均方誤差均方誤差是最常被使用的函數(shù),它是n個樣本的預(yù)測值y與已知答案y’之差的平方和,再求平均值。公式如下自定義自定義是損失函數(shù)要指根據(jù)實際問題來定制,也就是說函數(shù)要符合問題的實際情況。比如當(dāng)需要預(yù)測某個商品的銷量時,如果預(yù)測的銷量大于實際的銷量,則會損失成本,反之損失利潤,所以這時使用均方誤差則明顯不適合。這時我們應(yīng)該自定義一個函數(shù),公式如下:上述公式中,y表示預(yù)測結(jié)果,y’表示標(biāo)準(zhǔn)答案。當(dāng)y小于y’時,利潤profit乘以y與y’之差作為損失函數(shù)。反之,當(dāng)y大于y’時,成本cost乘以y與y’之差作為損失函數(shù)。這樣分段定義損失函數(shù)才能夠有效解決預(yù)測商品銷量的問題且最大程度縮小損失,而且使loss值達(dá)到最小。交叉熵交叉熵用來表示兩個概率之間的差異,即兩個概率分布之間的舉例。交叉熵的值與差異、距離成正比,值越小距離越近越相似。公式如下:感知器神經(jīng)網(wǎng)絡(luò)感知器神經(jīng)網(wǎng)絡(luò)是最簡單的一種人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使用線性函數(shù)為激活函數(shù),常被應(yīng)用于解決二分類。模型如圖2-6所示,其數(shù)學(xué)表達(dá)式為:其中,為輸入數(shù)據(jù),為所對應(yīng)的的權(quán)重向量,為偏置。圖2-6感知器模型可以把感知器是當(dāng)作一個二分類模型,其特點是預(yù)測的數(shù)據(jù)是可以線性分割的。它就是在一個2D空間中找到一條線將不同的點進(jìn)行分割,這要求數(shù)據(jù)必須是可以獨立分割的,所以輸入數(shù)據(jù)必須要滿足于圖2-6中的①,也就是說預(yù)測的數(shù)據(jù)特點可以在它們之間拉出一條線把數(shù)據(jù)分成兩個部分;即要求我們必須找到這條虛線。而②中,我們找不到這條線,所以是線性不可分割。圖2-7數(shù)據(jù)分布圖BP神經(jīng)網(wǎng)絡(luò)BP神經(jīng)網(wǎng)絡(luò)是最傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),也是使用的最運頻繁的神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)為一層輸入層,一層或多層隱含層,一層輸出層。它使用了BP反向傳播算法,其核心特點是信號前向傳播,誤差反向傳播。所以我們可以將整個神經(jīng)網(wǎng)絡(luò)的過程拆分為兩段,第一段過程是信號從輸入層到隱含層,又從隱含層到達(dá)輸出層的整個過程,即前向傳播。第二段過程是誤差從輸出經(jīng)過隱含層到達(dá)輸出層,期間調(diào)節(jié)權(quán)重和偏置,即反向傳播。模型如圖2-8所示。圖2-8BP神經(jīng)網(wǎng)絡(luò)模型BP神經(jīng)網(wǎng)絡(luò)能夠有效的解決感知器神經(jīng)網(wǎng)絡(luò)不能解決的異或,并且BP神經(jīng)網(wǎng)絡(luò)的神經(jīng)元激活函數(shù)既可以使用線性激活函數(shù),又可以使用非線性激活函數(shù)。

卷積神經(jīng)網(wǎng)絡(luò)相關(guān)理論知識CNN是多層感知器的一種擴(kuò)展,能夠有效地幫助我們解決圖像識別,接下來將詳細(xì)闡述與其相關(guān)的理論知識。前饋神經(jīng)網(wǎng)絡(luò)前饋神經(jīng)網(wǎng)絡(luò),又稱為前向神經(jīng)網(wǎng)絡(luò),是最簡易的網(wǎng)絡(luò)結(jié)構(gòu)之一。多個神經(jīng)元排列組成一層,多個層組成前饋神經(jīng)網(wǎng)絡(luò)。其中,每個神經(jīng)元只接受前一層輸出的信息,并作為下一層的輸入進(jìn)行傳遞。圖3-1的神經(jīng)元接受n=4個輸入(x1,x2,x3,x4),其輸出為圖3-1前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖其中為輸入向量,為權(quán)重向量,為偏置,函數(shù)為激活函數(shù)。圖3-1中的神經(jīng)網(wǎng)絡(luò),包含了1層輸入層,2層隱藏層和1層輸出層,該神經(jīng)網(wǎng)絡(luò)的層數(shù)為3層。所有參數(shù)w的個數(shù)余所有參數(shù)b的之和為總參數(shù)的個數(shù),第一層用四行五列的二階張量表示,第二層用五行三列的二階張量,第三層用三行一列的二階張量。總參數(shù)=4×5+5+5×3+3+3×1+1=47。一個前饋神經(jīng)網(wǎng)絡(luò)有一個輸入層,然后接零個或多個隱藏層,最后接一個輸出層。輸入層接受待處理的數(shù)據(jù),經(jīng)過層層隱藏層,神經(jīng)元進(jìn)行計算,輸出層輸出結(jié)果。前向神經(jīng)網(wǎng)絡(luò),以神經(jīng)元為基本單位,結(jié)構(gòu)簡單,大部分都是學(xué)習(xí)網(wǎng)絡(luò)。常用的網(wǎng)絡(luò)有:感知器網(wǎng)絡(luò)、BP網(wǎng)絡(luò)和RBF網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)CNN是前饋神經(jīng)網(wǎng)絡(luò)其中一種,但不同的是其能夠進(jìn)行卷積計算且具有深度結(jié)構(gòu)。對于圖像識別來說,CNN更加有效的過濾了不重要、不完整的輸入?yún)?shù)。卷積層卷積層內(nèi)包含多個卷積核,實現(xiàn)對輸入數(shù)據(jù)進(jìn)行有效特征提取。每一個卷積核如圖3-2所示,都要遍歷圖片上的每一個像素點。圖片與卷積核重合區(qū)域內(nèi)對應(yīng)的每一個像素值乘以卷積核相對應(yīng)點的權(quán)重之和、加上偏置為圖片的一個像素值。如圖3-2所示,結(jié)果應(yīng)為:圖3-2卷積過程卷積層參數(shù)包括卷積核大小、步長和填充,卷積核越大,可提取的輸入特征越復(fù)雜。每進(jìn)行一次卷積,圖像都會縮小,所以為了圖像被縮小到消失,我們采取填充。即在每次卷積前,在圖像周圍補(bǔ)上空白,這樣圖像被縮小后還是跟原圖大小一樣。填充padding又分為SAME和VALID兩種。池化層也稱下采樣層,此層能夠保留主要特征、減少參數(shù)和計算量,提高計算速度防止過擬合。池化模型一般表示形式為:其中,為步長,為像素,為預(yù)設(shè)參數(shù)。當(dāng)=1時,得到均值,所以稱為平均池化。當(dāng)時,得到最大值,所以稱為最大池化。在實際應(yīng)用中,最大池化應(yīng)用的比較多。圖3-3最大池化和平均池化在圖3-3的例子中,如果使用最大池化,每個2*2的四宮格中選出最大值作為輸出矩陣的值,如輸入矩陣第一個2*2四宮格中最大值是3,那么輸出矩陣的第一個元素就是6,如此類推。如果使用平均池化,則就計算每個2*2的四宮格的平均值作為輸出矩陣的值。全連接層全連接層實際相當(dāng)于“分類器”,全連接的核心操作就是矩陣向量乘積

y=Wx,即把之前的局部特征重新通過權(quán)值矩陣成為完整的特征。當(dāng)網(wǎng)絡(luò)模型在此層找到全部局部特征時,神經(jīng)元被激活,將重組特征然后輸出給輸出層,經(jīng)過softmax函數(shù)最后得到識別結(jié)果。一般來說,只用一層全連接層優(yōu)勢解決不了非線性問題,所以一般都使用兩層以上。傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)在CNN網(wǎng)絡(luò)結(jié)構(gòu)的演化上,出現(xiàn)了許多經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型,如Lenet-5、Alenet、VGGNet和ResNet等。每一種網(wǎng)絡(luò)結(jié)構(gòu)都是基于卷積、激活、池化、全連接四個操作上進(jìn)行不同的擴(kuò)展。Lenet-5[21]是由Lecun團(tuán)隊提出的,是最早出現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò),它能有效的解決手寫數(shù)字識別的問題。它的輸入為32×32×1,經(jīng)過6個5×5×1的卷積核,步長為1,采用非全零填充模式。卷積后將結(jié)果輸入到Relu非線性激活函數(shù)。接著經(jīng)過第一層池化大小為2×2的池化層,采用非零填充,步長為2。再進(jìn)行第二次卷積,16個5×5×6的卷積核,步長為1,采用非全零填充模式,再次將卷積后的結(jié)果通過Relu非線性激活函數(shù)。經(jīng)過第二層池化層,參數(shù)與第一層池化層相同。最后將輸出拉直后送入下一層,即全連接層。圖3-4Lenet神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Mnist數(shù)據(jù)集內(nèi)的每張圖都為大小28×28的單通道灰度圖片,所以只需對輸入為28×28×1的Lenet神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào)就可以應(yīng)用到Mnist數(shù)據(jù)集繼而實現(xiàn)手寫數(shù)字識別。識別結(jié)果如圖3-5所示。圖3-5Lenet在Mnist的識別結(jié)果

基于卷積網(wǎng)絡(luò)的人體行為識別系統(tǒng)的實現(xiàn)本章將詳細(xì)介紹如何實現(xiàn)在Tensorfolw平臺上構(gòu)建CNN結(jié)構(gòu)實現(xiàn)人體行為識別。數(shù)據(jù)集使用的是3軸加速度傳感數(shù)據(jù)對36位志愿者進(jìn)行采樣數(shù)據(jù),共六個動作。處理數(shù)據(jù)集下載WISDM實驗室發(fā)布的數(shù)據(jù)集后,只使用其中的WISDM_ar_v1.1_raw.txt。WISDM數(shù)據(jù)集內(nèi)的數(shù)據(jù)格式如圖4-1所示:圖4-1.WISDM數(shù)據(jù)集從圖4-1可以看到每條數(shù)據(jù)后面都有一個“;”,如果直接加載數(shù)據(jù)集會導(dǎo)致報錯,所以首先要去掉分號,實現(xiàn)代碼如圖4-1所示:圖4-2去分號實現(xiàn)代碼當(dāng)加載數(shù)據(jù)集到模型中,從圖4-3,我們可以看到數(shù)據(jù)集前20條記錄,包括用戶id,行為名稱,時間戳,加速器x軸、y軸、z軸的數(shù)據(jù)。圖4-3WISDM數(shù)據(jù)集前20條數(shù)據(jù)用matplotlib工具畫出數(shù)據(jù)集中的行為數(shù)量和用戶數(shù)量的柱狀圖,從圖4-4中可以知道,整個數(shù)據(jù)集中共有六個行為,分為Walking、Jogging、Upstairs、Downstairs、Sitting、Standing,且Walking和Jogging兩個的數(shù)據(jù)多于其他行為的數(shù)據(jù)。從圖4-5知,一共有36個人參與了此次試驗。圖4-4訓(xùn)練集行為數(shù)量分布圖4-5訓(xùn)練集用戶分布將數(shù)據(jù)集分割成訓(xùn)練集(TrainingSet)和測試集(TestSet),使訓(xùn)練集用于模型的訓(xùn)練,測試集用于驗證。在這個數(shù)據(jù)集中,可以以用戶名為依據(jù)來進(jìn)行分割,這樣就不會導(dǎo)致測試集的數(shù)據(jù)滲入到訓(xùn)練集中。一般訓(xùn)練集的數(shù)據(jù)越多模型訓(xùn)練效果的越好,所以將用戶名1到28用于訓(xùn)練集,大于28的則用于測試集。實現(xiàn)代碼如圖4-6所示:圖4-6分割數(shù)據(jù)集實現(xiàn)代碼處理訓(xùn)練集數(shù)據(jù)在將數(shù)據(jù)喂入神經(jīng)網(wǎng)絡(luò)前,要歸一化數(shù)據(jù)集中的特征,值在0到1之間。要注意的是,傳感器x、y、z三軸的數(shù)據(jù)要用同樣的規(guī)范化方法,實現(xiàn)代碼如圖4-7所示:圖4-7歸一化特征實現(xiàn)代碼為了使用keras框架,要將數(shù)據(jù)reshape。定義一個函數(shù)接收dataFrame和標(biāo)簽名、每個記錄的長度。將一次分割的的步數(shù)設(shè)置為80,采樣率為20hz,所以時間間隔為:time_step=。reshape數(shù)據(jù)實現(xiàn)代碼如圖4-8所示:圖4-8reshape數(shù)據(jù)實現(xiàn)代碼將數(shù)據(jù)分段后,得到x_train、y_train。從圖4-9可知,x_train、y_train分別都有20868條記錄,其中x_train中20868條記錄中的每一條都是803的二維矩陣。圖4-9數(shù)據(jù)分段后的shape將特征數(shù)據(jù)和標(biāo)簽數(shù)據(jù)轉(zhuǎn)換成keras可以接受的類型,且對標(biāo)簽進(jìn)行一次熱編碼。實現(xiàn)編碼如圖4-10所示,結(jié)果如圖4-11所示。圖4-10熱編碼實現(xiàn)代碼圖4-11熱編碼后y_train的shape構(gòu)建神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)采用六層結(jié)構(gòu),包括四個卷積層,一層全連接層,一個輸出層(不包括下采樣層和輸入層)。其中下采樣層有兩層,一層采用最大下采樣,一層采用平均采樣。下面詳細(xì)描述網(wǎng)絡(luò)結(jié)構(gòu)。第一層是卷積層,keras要求第一層輸入shape,所以輸入的input_shape為803的二維數(shù)組。有100個卷積核去卷積,使用的是conv1d一維卷積,卷積時只看縱列卷積核的尺寸為10。使用relu非線性激活函數(shù),padding默認(rèn)為vaild,strade默認(rèn)為1。所以輸出shape為(None,71,100),一共有3100個參數(shù)。第二層也是卷積層,同樣有100個卷積核去卷積,卷積核的尺寸為10,使用relu非線性激活函數(shù),padding默認(rèn)為vaild。輸出shape為(None,62,100),一共100100個參數(shù)。下一層是一個最大采樣層,在縱列的維度上,進(jìn)行尺度為3的下采樣,所以輸出shape為(None,20,100)。第三層是卷積層,有160個卷積核去卷積,卷積核的尺寸為10。使用relu非線性激活函數(shù),padding默認(rèn)為vaild,strade默認(rèn)為1。輸出shape為(None,11,160),共160160個參數(shù)。第四層還是卷積層,160個尺寸為10的卷積核。相關(guān)參數(shù)與第三層一樣。輸出shape為(None,2,160),共256160個參數(shù)。下一層為平均下采樣層,輸出為(None,160)。接下來是dropout層,設(shè)定概率為0.5,防止過擬合。最后,把全連接層的輸出參數(shù)放入到一個sofmax分類其中。CNN結(jié)構(gòu)示意圖如圖4-13所示,實現(xiàn)代碼如圖4-12所示:圖4-12構(gòu)建網(wǎng)絡(luò)模型實現(xiàn)代碼圖4-13神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖

測試與分析這一章將針對上一章構(gòu)建的神經(jīng)網(wǎng)絡(luò)在WISDM數(shù)據(jù)集上驗證的結(jié)果進(jìn)行全面的分析,其中包括神經(jīng)網(wǎng)絡(luò)的性能和識別的正確率。編譯模型為了更好的檢測模型的訓(xùn)練過程,創(chuàng)建一個回調(diào)函數(shù),模型訓(xùn)練過程中任意時間都會調(diào)用此函數(shù)。它將保存最佳模型到filepath中,實現(xiàn)代碼如圖5-1所示:圖5-1回調(diào)函數(shù)實現(xiàn)代碼接下來就是編譯模型,實現(xiàn)代碼如圖5-2所示:圖5-2編譯模型實現(xiàn)代碼模型訓(xùn)練,以x_train個樣本為一個batch進(jìn)行迭代。每個batch包含400個樣本數(shù),訓(xùn)練達(dá)到50時停止,實現(xiàn)代碼如圖5-3所示圖5-3訓(xùn)練模型實現(xiàn)代碼實驗結(jié)果模型準(zhǔn)確率和損失使用matplotlib可視化工具,實現(xiàn)函數(shù)可視化,畫出模型準(zhǔn)確率的損失,如圖5-4所示。使用validationdata代替testdata是為了防止過度擬合。圖5-4模型準(zhǔn)確率從圖5-4可以看到,訓(xùn)練數(shù)據(jù)的準(zhǔn)確率比較好,而測試數(shù)據(jù)的準(zhǔn)確率僅達(dá)到80%以上。訓(xùn)練數(shù)據(jù)的損失率在0.2左右,測試數(shù)據(jù)的損失率在0.5左右。模型還有很大的提升空間,要將測試數(shù)據(jù)的準(zhǔn)確率提高,和降低測試數(shù)據(jù)的損失率。模型識別的正確率數(shù)據(jù)集共有六類行為,在測試階段對所有測試樣本進(jìn)行測試,并得到分類結(jié)果。再將分類結(jié)果與測試樣本的標(biāo)簽進(jìn)行比較,相同則正確,反之則錯誤。圖5-5中,得到測試數(shù)據(jù)的準(zhǔn)確率、損失率、宏平均、微平均、樣本權(quán)重平均,以及每個行為的準(zhǔn)確率、召回率、F值。圖5-5模型評估結(jié)果從圖5-5,可以得到模型對Downstairs的識別準(zhǔn)確率僅為71%,對Jogging識別的準(zhǔn)確率卻高達(dá)97%,對Sitting識別的準(zhǔn)確率為85%,對Standing識別的準(zhǔn)確率達(dá)到94%,對Walking的識別準(zhǔn)確率也達(dá)到90%,但是對Upstairs識別的準(zhǔn)確率為58%。測試數(shù)據(jù)集的識別準(zhǔn)確率為86%,損失率為71%。準(zhǔn)確率的微平均為86%,宏平均為83%,權(quán)重平均為87%?;煜仃嚮煜仃嚲褪敲恳活惖臏y試數(shù)據(jù)被分到不同類的情況,我們可以看到哪個行為容易在網(wǎng)絡(luò)結(jié)構(gòu)中混淆。矩陣的行代表測試樣本的正確標(biāo)簽,行代表數(shù)據(jù)的類別。列代表測試樣本在實際測試中被神經(jīng)網(wǎng)絡(luò)分到了哪一類。如果主對角線的數(shù)字和真實的值一樣的個數(shù),即代表網(wǎng)絡(luò)對了。主對角線以外的就是代表網(wǎng)絡(luò)犯的錯,也就是讓網(wǎng)絡(luò)感到混淆的地方?;煜仃嚨闹鲗蔷€的數(shù)字越大,代表神經(jīng)網(wǎng)絡(luò)的分類越好。圖5-6為生成混淆矩陣的實現(xiàn)代碼,圖5-7為混淆矩陣的結(jié)果示意圖:圖5-76混淆矩陣實現(xiàn)代碼圖5-7混淆矩陣從圖5-7可以大致看出來,Jogging和Walking主對角線的值較大,Standing的混淆區(qū)域的總值最小,實際這三個行為的識別準(zhǔn)確率也最高,都為90%以上。

總結(jié)與展望行為識別是指計算機(jī)從包含人的視頻或圖片序列中提取人體行為特征,對人的行為進(jìn)行理解和分類,是計算機(jī)視覺領(lǐng)域中應(yīng)用廣泛的方向。隨著社會對實現(xiàn)人工智能的日趨迫切,機(jī)器學(xué)習(xí)成為必經(jīng)的途徑,而深度學(xué)習(xí)作為其代表方向被普遍學(xué)習(xí)應(yīng)用。本文基于Tensorflow使用CNN來實現(xiàn)識別,數(shù)據(jù)來源WISDM實驗室。本文主要以基于卷積網(wǎng)絡(luò)的行為識別這一論題為中心進(jìn)行研究與介紹,主要結(jié)論如下:闡述了基本ANN的相關(guān)理論知識,CNN是其派生物,要掌握CNN就得先了解ANN。以ANN為基礎(chǔ)自然地銜接了CNN相關(guān)的知識,層層遞進(jìn),更好的了解CNN以及兩者之間的差別。設(shè)計了一種卷積網(wǎng)絡(luò)用于識別行為,基于Tensorflow平臺用Python來實現(xiàn)網(wǎng)絡(luò),并且卷積層使用的是一維卷積技術(shù)。使用WISDM數(shù)據(jù)集來實驗本文網(wǎng)絡(luò),并對實驗結(jié)果進(jìn)行了分析。本文設(shè)計的神經(jīng)網(wǎng)絡(luò)得到的準(zhǔn)確率在86%左右,應(yīng)該再提升這個正確率到90%以上。對Jogging識別的準(zhǔn)確率高達(dá)97%,對Sitting坐、Standing站立、Walking行走三個行為的識別準(zhǔn)確率也達(dá)到85%以上,但是對Upstairs和Downstairs的識別準(zhǔn)確率卻連低于80%,尤其對Downstairs下樓梯這個行為的識別準(zhǔn)確率只有57%。所以后續(xù)應(yīng)該將模型對上、下樓梯兩個行為的識別準(zhǔn)確率進(jìn)行提升。WISDIM中Jogging的數(shù)據(jù)最多最后得到的準(zhǔn)確率也最高,所以增加數(shù)據(jù)集中上、下樓梯數(shù)據(jù)的數(shù)量是最優(yōu)先考慮的方法。其次改進(jìn)網(wǎng)絡(luò)的結(jié)構(gòu)也是比較優(yōu)先考慮的方法,包括對激活函數(shù)的改進(jìn)、使用二維或者三維卷積、以及增加網(wǎng)絡(luò)的層數(shù)。而更改數(shù)據(jù)集也是可考慮的方法,本文使用的數(shù)據(jù)集基于三維傳感器,可更換成基于視頻的數(shù)據(jù)集,或者通過獲取局部關(guān)節(jié)位置來實現(xiàn)識別。以上提出的問題和方法,都值得思考和嘗試。

參考文獻(xiàn)邢健飛,羅志增,席旭剛.基于深度神經(jīng)網(wǎng)絡(luò)的實時人臉識別[J].杭州電子科技大學(xué)學(xué)報,2013(6).PengX,QiaoY,PengQ.Motionboundarybasedsamplingand3dco-occurrencedescriptorsforactionrecognition[J].ImageandVisionComputing,2014,32(9):616–628.RoshtkhariMJ,LevineMD.Humanactivityrecognitioninvideosusingasingleexample[J].ImageandVisionComputing,2013,31(11):864–876O'HaraS,LuiYM,DraperBA.Usingaproductmanifolddistanceforunsupervisedactionrecognition[J].ImageandVisionComputing,2012,30(3):206–216.YangX,ZhangC,TianYL.Recognizingactionsusingdepthmotionmaps-basedhistogramsoforientedgradients[C]//ACMInternationalConferenceonMultimedia.NewYork:ACM,2012:1057-1060.OreifejO,LiuZ.HON4D:Histogramoforiented4Dnormalsforactivityrecognitionfromdepthsequences[C]//ComputerVisionandPatternRecognition.NewYork:IEEE,2013:716-723LaptevI,MarszalekM,SchmidC,etal.Learningrealistichumanactionsfrommovies[C]//ComputerVisionandPatternRecognition,2008,IEEEConferenceon.NewYork:IEEE,2008:1-8.DavisJW,BobickAF.Therepresentationandrecognitionofhumanmovementusingtemporaltemplates[C]//ConferenceonComputerVisionandPatternRecognition.Washington,D.C:IEEEComputerSociety,1997:928.WuY.Miningactionletensembleforactionrecognitionwithdepthcameras[C]//IEEEConferenceonComputerVisionandPatternRecognition.Washington,D.C:IEEEComputerSociety,2012:1290-1297.VemulapalliR,ArrateF,ChellappaR.Humanactionrecognitionbyrepresenting3Dskeletonsaspointsinaliegroup[C]//ComputerVisionand

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論