體育視頻標(biāo)注和解析,本研究有大力支持_第1頁(yè)
體育視頻標(biāo)注和解析,本研究有大力支持_第2頁(yè)
體育視頻標(biāo)注和解析,本研究有大力支持_第3頁(yè)
體育視頻標(biāo)注和解析,本研究有大力支持_第4頁(yè)
體育視頻標(biāo)注和解析,本研究有大力支持_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

體育視頻標(biāo)注和解析,本研究有大力支持本次體育視頻內(nèi)容標(biāo)注與分析技術(shù)研究的關(guān)鍵詞是內(nèi)容、研究、體育、技術(shù)、視頻、

一、發(fā)展本研究的意義

近年來(lái),數(shù)字視頻得到了廣泛應(yīng)用,如視頻點(diǎn)播、數(shù)字電視、數(shù)字圖書(shū)館、視頻會(huì)議、遠(yuǎn)程教育等。,這已經(jīng)被越來(lái)越多的人所接受和熟悉。面對(duì)大量涌現(xiàn)的視頻數(shù)據(jù),如何找到所需的視頻信息成為亟待解決的問(wèn)題。

簡(jiǎn)單的視頻名稱查詢和類似錄像機(jī)的播放功能已經(jīng)不能滿足人們的需求。就像一本書(shū)通常有目錄和索引來(lái)幫忙人們快速瀏覽和查詢內(nèi)容一樣,一個(gè)視頻也需要有效的目錄和索引。傳統(tǒng)的辦法需要人們對(duì)視頻內(nèi)容進(jìn)行標(biāo)記,非常費(fèi)時(shí)費(fèi)勁,尤其是在視頻資源數(shù)量巨大或者處理速度接近實(shí)時(shí)的情況下。所有的手工辦法都會(huì)遇到難以克服的困難。為了解決這一問(wèn)題,20世紀(jì)90年代以來(lái),出現(xiàn)了基于內(nèi)容的視頻分析與檢索[1][2][3]。其核心是通過(guò)計(jì)算機(jī)分析和理解視頻內(nèi)容,建立結(jié)構(gòu)和語(yǔ)義索引,方便用戶檢索。

巨大的商業(yè)前景和重要的學(xué)術(shù)價(jià)值吸引了來(lái)自不同行業(yè)和學(xué)術(shù)界的研究人員對(duì)這一問(wèn)題進(jìn)行研究。一些原型系統(tǒng)相繼提出,主要有IBM的QBIC/CueVideo[4][5],Virage公司的視頻引擎體育視頻,即體育比賽的電視轉(zhuǎn)播,作為一個(gè)重要的應(yīng)用領(lǐng)域,一直備受關(guān)注。體育比賽通常很長(zhǎng),但對(duì)于大多數(shù)觀眾來(lái)說(shuō),只有一小局部是真正關(guān)懷的,很可能會(huì)被反復(fù)觀看。示例,一場(chǎng)跳水比賽往往持續(xù)幾個(gè)小時(shí),但其中令人興奮的局部——運(yùn)發(fā)動(dòng)跳入水中的過(guò)程只有幾分鐘。人們需要一種方便快捷的方式來(lái)獲取體育視頻的內(nèi)容。,卡耐基梅隆大學(xué)的InforMedia與其他視頻相比,體育視頻有自己的特點(diǎn)。首先,體育視頻中有一些領(lǐng)域相關(guān)的語(yǔ)義事件,比方運(yùn)發(fā)動(dòng)在跳水比賽中的跳水、足球比賽中的射門等。這些語(yǔ)義事件通常是視頻中最有價(jià)值的局部,需要標(biāo)記以便于檢索。其次,體育比賽一般都有很強(qiáng)的結(jié)構(gòu)性,比方跳水比賽由幾個(gè)回合組成。每一輪由幾個(gè)玩家等組成。為了方便瀏覽視頻內(nèi)容,需要根據(jù)這些結(jié)構(gòu)對(duì)原始視頻數(shù)據(jù)進(jìn)行分析,并組織成一個(gè)分層目錄。本課題的目標(biāo)是研究體育視頻內(nèi)容的語(yǔ)義標(biāo)注和結(jié)構(gòu)分析技術(shù)。,哥倫比亞大學(xué)的VideoQ雖然由于目前的技術(shù)水平,無(wú)法實(shí)現(xiàn)全自動(dòng)、通用的視頻內(nèi)容理解,但本課題的研究將證明局部解決計(jì)劃是可能的、有價(jià)值的,我們的研究也將為最終的全面解決計(jì)劃奠定根底。除了學(xué)術(shù)意義,本課題的研究還可以有下列直接應(yīng)用:等。這些努力最終促成了國(guó)際規(guī)范MPEG-7(多媒體內(nèi)容描述接口)的誕生。然而,隨著問(wèn)題的深入,研究者面臨著更大的障礙:機(jī)器對(duì)視覺(jué)/聽(tīng)覺(jué)內(nèi)容的理解,即難以建立底層特征與高級(jí)語(yǔ)義之間的聯(lián)系。同樣的問(wèn)題困擾人工智能領(lǐng)域多年。人們普遍認(rèn)為,找到一個(gè)普遍的解決方法是極其困難的。因此,一些研究反而側(cè)重于解決特定領(lǐng)域的應(yīng)用問(wèn)題,如新聞、電影等。在這些特定領(lǐng)域中,通過(guò)結(jié)合相應(yīng)的領(lǐng)域知識(shí),可以在低級(jí)特征和高級(jí)語(yǔ)義之間建立某種聯(lián)系。

[6]

[7]

[8]

1.視頻數(shù)據(jù)庫(kù):適用于各類體育專業(yè)人士或愛(ài)好者查詢、瀏覽、管理采集的體育比賽視頻數(shù)據(jù)。目前,我們已經(jīng)應(yīng)用于國(guó)家體育總局的研究工程——跳水訓(xùn)練圖像分析軟件系統(tǒng)的開(kāi)發(fā)。通過(guò)對(duì)跳水比賽視頻內(nèi)容的標(biāo)注和分析,可以方便快捷地實(shí)現(xiàn)典型動(dòng)作的視頻數(shù)據(jù)庫(kù)。

2.Web多媒體發(fā)布:適用于新聞或體育網(wǎng)站在Web上及時(shí)發(fā)布體育多媒體信息。如今,越來(lái)越多的人習(xí)慣于從互聯(lián)網(wǎng)上獲取最新信息?;谖覀兊募夹g(shù),我們可以第一時(shí)間編輯和發(fā)布包括綜合圖片、文本、視頻和音頻在內(nèi)的體育多媒體信息。

3.個(gè)人移動(dòng)效勞:適用于無(wú)線效勞提供商為個(gè)人提供定制的彩信效勞。我們的內(nèi)容標(biāo)注和解析技術(shù)可以為冗長(zhǎng)的體育視頻生成摘要,從而可以根據(jù)用戶的個(gè)人喜好和終端能力將體育彩信發(fā)送到移動(dòng)設(shè)備。

二、國(guó)內(nèi)外研究現(xiàn)狀分析

國(guó)際上對(duì)體育視頻的研究始于20世紀(jì)90年代中期,屬于視頻檢索領(lǐng)域的一個(gè)子課題。與新聞視頻領(lǐng)域的成功[9][10][11]相比,體育視頻的研究相對(duì)較少,難度更大。這主要是因?yàn)樾侣勔曨l具有根本一致的時(shí)域結(jié)構(gòu)和場(chǎng)景語(yǔ)義,即首先是播音員的鏡頭,然后是新聞報(bào)道,最后回到播音員的鏡頭進(jìn)行后面的新聞報(bào)道。然而,體育視頻并沒(méi)有這樣統(tǒng)一的結(jié)構(gòu)和語(yǔ)義。目前,對(duì)體育視頻的研究還處于探索的初級(jí)階段,對(duì)其過(guò)程和辦法還沒(méi)有統(tǒng)一的結(jié)論,也沒(méi)有實(shí)用的系統(tǒng)可以投入使用。

1、鏡頭檢測(cè)

通常,在分析體育視頻之前,需要將其分成鏡頭。所謂鏡頭,是指攝像機(jī)連續(xù)拍攝的一組幀序列,通常被認(rèn)為是視頻的最小結(jié)構(gòu)單元。為了分割鏡頭,需要檢測(cè)鏡頭邊界。鏡頭之間有兩種邊界:突變和漸變。當(dāng)突變發(fā)生時(shí),鏡頭直接切換到下一個(gè)鏡頭;在漸變的過(guò)程中,從一個(gè)鏡頭到下一個(gè)鏡頭會(huì)有一個(gè)連續(xù)的多幀變化過(guò)程,主要包括淡出淡入、溶解、擦拭等。淡出是指視頻幀逐漸淡出,直到屏幕完全變黑,然后下一個(gè)鏡頭的幀圖像逐漸出現(xiàn)。溶解意味著前一個(gè)鏡頭的幀圖像逐漸含糊,而后一個(gè)鏡頭的幀圖像逐漸增強(qiáng)。

鏡頭檢測(cè)的關(guān)鍵問(wèn)題是如何辨別鏡頭之間的切換和相機(jī)或物體移動(dòng)引起的鏡頭變化。因此,漸變比突變更難發(fā)覺(jué)。早期的工作主要集中在突變檢測(cè)上,最近更多的研究集中在漸變的分析上。

鏡頭檢測(cè)辦法可以分為兩類:非壓縮域和壓縮域。在[12][13]中,實(shí)驗(yàn)評(píng)估了未壓縮域中的各種鏡頭檢測(cè)算法。與未壓縮域的辦法相比,基于壓縮域的辦法不需要對(duì)視頻編碼流進(jìn)行解碼,而是直接利用壓縮域的特征如DCT系數(shù)、運(yùn)動(dòng)矢量、宏塊信息等進(jìn)行分析。從而提高處理速度[14][15][16][17]。如今,大量視頻數(shù)據(jù)以壓縮格式(如MPEG)存儲(chǔ),因此基于壓縮域的辦法往往具有更大的實(shí)用價(jià)值。

2.語(yǔ)義標(biāo)注

語(yǔ)義標(biāo)注是指對(duì)體育視頻中的語(yǔ)義事件進(jìn)行檢測(cè)和標(biāo)注,其本質(zhì)是根據(jù)預(yù)先定義的類別對(duì)視頻片段進(jìn)行辨認(rèn)。目前,國(guó)內(nèi)外對(duì)體育視頻的研究實(shí)際上都集中在這方面,相關(guān)工作介紹如下。

Y.龔等人首先提出了對(duì)足球比賽視頻的分析[18]。他們結(jié)合足球比賽的現(xiàn)場(chǎng)知識(shí),通過(guò)白線辨認(rèn)、攝像頭運(yùn)動(dòng)檢測(cè)、足球和球員檢測(cè)等分析,推斷出視頻的內(nèi)容,包括球場(chǎng)上的什么地方、投籃、角球等。比方場(chǎng)景靠近球門區(qū),足球向球門移動(dòng),就可以推斷是射門。實(shí)驗(yàn)結(jié)果說(shuō)明,該系統(tǒng)能夠準(zhǔn)確辨認(rèn)球場(chǎng)位置,到達(dá)90%,但射門和角球的辨認(rèn)率只有53%,這主要是由于高速運(yùn)動(dòng)和遮擋,使得足球的檢測(cè)更加困難。

哥倫比亞大學(xué)的徐鵬和其他人察看到,足球比賽可以分為兩種狀態(tài):踢和暫停(示例,因?yàn)榍虺鼋缁蛘卟门性谠囂叫缘靥?。他們開(kāi)發(fā)了一個(gè)系統(tǒng),可以檢測(cè)視頻中的足球比賽是在進(jìn)行還是暫停[19]。系統(tǒng)分兩步分析足球視頻。首先,根據(jù)顏色分析,得到每幀的草色比。此功能用于將幀標(biāo)記為三種類型:全局視圖、放大視圖和特寫(xiě)視圖。在檢測(cè)過(guò)程中,該算法可以學(xué)習(xí)并自動(dòng)調(diào)整草的顏色和分類決策。然后對(duì)視頻幀進(jìn)行上述分類標(biāo)記后,根據(jù)經(jīng)驗(yàn)總結(jié)出的規(guī)那么(示例,全景通常是游戲,特寫(xiě)通常是游戲休息等。)來(lái)判斷游戲是進(jìn)行中還是暫停。實(shí)驗(yàn)中使用了4個(gè)來(lái)自不同足球比賽的5分鐘片段,檢測(cè)準(zhǔn)確率最好為86.5%,最差為67.3%。

清華大學(xué)的羅鳴等人還以足球?yàn)槔岢隽艘粋€(gè)體育視頻分析系統(tǒng)[21]。他們的系統(tǒng)根據(jù)視場(chǎng)顏色的比例和關(guān)鍵幀中物體的大小,將鏡頭分為遠(yuǎn)攝和近攝。此外,對(duì)于長(zhǎng)焦拍攝,他們察看到快速相機(jī)移動(dòng)通常會(huì)在拍攝或長(zhǎng)傳過(guò)程中含糊圖像,因此他們提出根據(jù)幀圖像的含糊程度來(lái)檢測(cè)足球比賽中的這些事件。實(shí)驗(yàn)結(jié)果說(shuō)明

DrewD.Saur等人直接利用基于MPEG壓縮域的特征實(shí)現(xiàn)了籃球視頻內(nèi)容的自動(dòng)分析和標(biāo)注[22]。該算法首先基于壓縮域DC圖分割鏡頭,然后計(jì)算每個(gè)P幀的運(yùn)動(dòng)矢量大小。考慮到特寫(xiě)鏡頭一般比廣角鏡頭變化更激烈,視頻分為廣角鏡頭和特寫(xiě)鏡頭。對(duì)于廣角鏡頭,進(jìn)行了進(jìn)一步的分析。

Y.微軟研究院的芮等人提出了一種根據(jù)音頻特征檢測(cè)棒球比賽中精彩事件的辦法,計(jì)算量較小,適用于計(jì)算能力有限的環(huán)境[23]。他們的算法基于機(jī)器學(xué)習(xí),即講述者的興奮語(yǔ)音辨認(rèn)和棒球擊打聲檢測(cè),然后將它們與概率混合來(lái)推斷最終的興奮片段。實(shí)驗(yàn)說(shuō)明,與人工標(biāo)注的精彩片段相比,該算法的準(zhǔn)確率可達(dá)75%。

類似地,對(duì)于棒球,張等人通過(guò)檢測(cè)和辨認(rèn)比賽中得分和狀態(tài)的字幕顯示來(lái)分析語(yǔ)義事件[24][25]的發(fā)生,示例觸地得分和最后一投(投手被送出)。他們使用視頻文本檢測(cè)和辨認(rèn)技術(shù)來(lái)分析游戲中的字幕信息。利用領(lǐng)域知識(shí)模型進(jìn)一步提高了辨認(rèn)結(jié)果。

一場(chǎng)體育比賽播出時(shí),通常會(huì)在精彩事件發(fā)生后及時(shí)穿插慢動(dòng)作重播,這也吸引了眾多研究者的關(guān)注迪。張?jiān)噲D提出一個(gè)體育視頻分析的總體框架3、結(jié)構(gòu)分析。為了兼顧效率和準(zhǔn)確性,他認(rèn)為事件檢測(cè)可以分為兩個(gè)步驟,即基于壓縮域分析的初級(jí)階段和基于對(duì)象級(jí)的驗(yàn)證階段。首先,選擇壓縮域的一些特征,如顏色和運(yùn)動(dòng),通過(guò)統(tǒng)計(jì)學(xué)習(xí)實(shí)現(xiàn)事件的初選。其次,根據(jù)總結(jié)的領(lǐng)域規(guī)那么對(duì)候選場(chǎng)景中的對(duì)象進(jìn)行分割。比方網(wǎng)球比賽的發(fā)球擊球,圖像中應(yīng)該有一個(gè)較大的場(chǎng)地區(qū)域,下方應(yīng)該有一個(gè)較小的球員物體。J.Assfalg等人認(rèn)為體育視頻鏡頭一般可以分為三類:場(chǎng)地、運(yùn)發(fā)動(dòng)和觀眾一個(gè)視頻通常包含數(shù)百個(gè)鏡頭,尤其是體育視頻。這主要是因?yàn)樵陔娨曓D(zhuǎn)播一場(chǎng)體育比賽時(shí),會(huì)有多個(gè)攝像頭從不同的角度拍攝比賽,它們之間的頻繁切換就構(gòu)成了鏡頭。為了更好地訪問(wèn)視頻內(nèi)容,除了語(yǔ)義標(biāo)注,還需要對(duì)鏡頭進(jìn)行有效的組織。結(jié)構(gòu)分析的任務(wù)是通過(guò)鏡頭組織為視頻數(shù)據(jù)流建立一個(gè)類似于書(shū)目的分層瀏覽結(jié)構(gòu)。。場(chǎng)館鏡頭聚焦于運(yùn)動(dòng)本身,由大塊一致的色彩區(qū)域和場(chǎng)館線條代表。在運(yùn)發(fā)動(dòng)的鏡頭中,運(yùn)發(fā)動(dòng)作為物體出現(xiàn)在前景中,而背景變得含糊。在觀眾鏡頭中,個(gè)體往往是不清晰的,觀眾作為一個(gè)整體可以看作是一種質(zhì)感?;谶@些理解,他們通過(guò)邊緣提取它們。本次體育視頻的內(nèi)容標(biāo)注與分析技術(shù)研究的關(guān)鍵詞是內(nèi)容、研究、體育、技術(shù)、視頻、分析等。,可以有效辨認(rèn)三種鏡頭。名詞〔noun的縮寫(xiě)〕Babaguchi結(jié)合了文本和視覺(jué)特征來(lái)檢測(cè)體育視頻中的事件以圖1跳水比賽的樹(shù)形結(jié)構(gòu)4.摘要為代表,一些研究者提出了一種通用的視頻結(jié)構(gòu)分析辦法。他們通過(guò)時(shí)間約束聚類辦法將視覺(jué)上相似的鏡頭和時(shí)間上相鄰的鏡頭聚類在一起,然后基于聚類組構(gòu)建場(chǎng)景轉(zhuǎn)換圖或高級(jí)場(chǎng)景。然后形成分層的瀏覽結(jié)構(gòu)。但這種統(tǒng)一的結(jié)構(gòu)組織(如[34]將視頻分為幀/鏡頭/組/場(chǎng)景四層)并不適合體育視頻的分析,主要是因?yàn)轶w育游戲有其特定的結(jié)構(gòu)(如圖1所示),對(duì)體育視頻的分析要結(jié)合這一領(lǐng)域知識(shí)。。文本信息來(lái)自電視信號(hào)中的隱藏字幕。首先,通過(guò)在文本中搜索與事件相關(guān)的關(guān)鍵詞,我們估計(jì)事件的可能時(shí)間段。然后,分析該時(shí)間段內(nèi)鏡頭的視覺(jué)特征,計(jì)算與已有事件實(shí)例的匹配度,檢測(cè)與事件相關(guān)的鏡頭。。通過(guò)檢測(cè)重播事件,并在之前的視頻中找到內(nèi)容相同的正常場(chǎng)景,可以為冗長(zhǎng)的體育視頻生成令人稱心的精彩指數(shù)。

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

綜上所述,基于對(duì)國(guó)內(nèi)外研究現(xiàn)狀的調(diào)查,我們得出下列結(jié)論:

(1)特征選擇要結(jié)合領(lǐng)域知識(shí)。領(lǐng)域知識(shí)包括游戲相關(guān)和制作相關(guān)。與游戲相關(guān)的領(lǐng)域特征波及特定的運(yùn)動(dòng),示例足球比賽中的草和顏色的比例以及籃球比賽中快攻時(shí)攝像機(jī)的移動(dòng)。制作相關(guān)的領(lǐng)域特征適用于大局部體育視頻的分析,主要來(lái)自于體育視頻制作的總結(jié),比方精彩場(chǎng)景的回放、運(yùn)發(fā)動(dòng)和分?jǐn)?shù)信息的字幕顯示等。結(jié)合這兩種領(lǐng)域知識(shí),選擇適宜的特征進(jìn)行分析是

(2)多模態(tài)融合分析代表了一種新的研究趨勢(shì)。除了視覺(jué)特征之外,整合體育視頻中包含的音頻特征和文本信息可以有效提高視頻分析的準(zhǔn)確性。這也是近年來(lái)的研究熱點(diǎn)。在體育視頻中,一個(gè)語(yǔ)義事件往往是多模式的敘述,如運(yùn)發(fā)動(dòng)的跳水工程既有視覺(jué)運(yùn)動(dòng),又有聽(tīng)覺(jué)踏板聲和水輸入聲,因此僅分析其中一種模式是不完整的。因此,在體育視頻中,有必要對(duì)語(yǔ)義事件進(jìn)行綜合分析。

(3)盡量考慮壓縮域的特征分析。一場(chǎng)體育比賽持續(xù)幾個(gè)小時(shí),其視頻數(shù)據(jù)也非常龐大,因此提高處理速度是有意義的,這在一些需要實(shí)時(shí)應(yīng)用的場(chǎng)合也是必要的。直接基于壓縮域的分析可以顯著提高處理速度,無(wú)需完全解碼。[22][31]說(shuō)明,基于壓縮域的分析不僅可以大大減少計(jì)算量,而且可以得到更好的結(jié)果。

(4)基于統(tǒng)計(jì)的事件檢測(cè)辦法優(yōu)于基于規(guī)那么的辦法。早期的研究大多使用基于規(guī)那么的辦法。然而,體育視頻中的事件檢測(cè)往往需要綜合各種特征分析辦法,適應(yīng)不同的場(chǎng)景。這些都增加了直接設(shè)置規(guī)那么的難度。與統(tǒng)計(jì)算法相比,它易于混合各種特征,具有一定的學(xué)習(xí)能力,因此具有較大的實(shí)用價(jià)值。

(5)無(wú)視事件之間關(guān)系的研究。體育比賽中的各種語(yǔ)義事件不是孤立的,而是有一定的因果關(guān)系或概率相關(guān)性。因此,對(duì)各種事件及其關(guān)系的綜合分析對(duì)于提高分析的準(zhǔn)確性和深度是有價(jià)值的。

(6)不足體育視頻內(nèi)容的結(jié)構(gòu)分析。雖然很多文章都提到了體育視頻的結(jié)構(gòu)分析,但他們的結(jié)構(gòu)分析主要集中在根本場(chǎng)景的分解上,如[20]將足球視頻分為比賽進(jìn)行和暫停,[31]檢測(cè)網(wǎng)球比賽的發(fā)球場(chǎng)景。體育視頻的結(jié)構(gòu),如圖1所示,通常是多層目錄結(jié)構(gòu)。在檢測(cè)根本場(chǎng)景的根底上,有必要進(jìn)一步研究高層結(jié)構(gòu)的分析。

(7)體育視頻內(nèi)容分析沒(méi)有統(tǒng)一的框架。[31]提出了視頻分析的通用框架,但他們的系統(tǒng)主要實(shí)現(xiàn)語(yǔ)義事件的檢測(cè),不足對(duì)視頻結(jié)構(gòu)的充沛分析。根據(jù)體育視頻的特點(diǎn)和應(yīng)用需求,我們認(rèn)為視頻分析的過(guò)程應(yīng)該有一個(gè)根本的框架,這對(duì)于進(jìn)一步的研究無(wú)疑是有意義的。

三是研究目標(biāo)、內(nèi)容和需要解決的關(guān)鍵技術(shù)

本課題的目標(biāo)是研究體育視頻內(nèi)容的語(yǔ)義標(biāo)注和結(jié)構(gòu)分析技術(shù)。在實(shí)際研究中,我們主要選擇跳水比賽作為研究對(duì)象。跳水在中國(guó)極具欣賞性,是奧運(yùn)優(yōu)勢(shì)工程,深受人們喜愛(ài)。跳水比賽具有一般體育比賽的典型特征,如層次結(jié)構(gòu)、領(lǐng)域相關(guān)語(yǔ)義事件等。通過(guò)對(duì)內(nèi)容分析技術(shù)的研究,最終實(shí)現(xiàn)一個(gè)潛水視頻查詢系統(tǒng)。

如果把視頻看作一種語(yǔ)言敘述,則視頻分析在某種程度上與自然語(yǔ)言理解非常相似,其目的是使計(jì)算機(jī)能夠理解信息的內(nèi)容,從而實(shí)現(xiàn)智能信息處理。自然語(yǔ)言理解作為人工智能的一個(gè)重要研究方向,已經(jīng)有40多年的歷史。新興的視頻分析研究一定有很多值得借鑒的地方。自然語(yǔ)言理解一般以詞匯為根本處理對(duì)象,包括自動(dòng)分詞、詞性標(biāo)注、句法分析等階段。同樣,由于鏡頭是視頻中內(nèi)容敘述完整的最小單元,我們將鏡頭作為體育視頻分析的根本單元,提出了如圖2所示的體育視頻內(nèi)容分析框架。

圖2體育視頻內(nèi)容分析框架

1、鏡頭檢測(cè)

與自動(dòng)分詞類似,鏡頭檢測(cè)以鏡頭為根本單位分解視頻流。鏡頭檢測(cè)是視頻內(nèi)容分析的根底步驟,對(duì)整個(gè)系統(tǒng)的性能影響很大。雖然鏡頭檢測(cè)是一個(gè)普遍問(wèn)題,但在體育視頻中也有其特殊要求:

(1)針對(duì)大量的運(yùn)動(dòng)視頻數(shù)據(jù),算法要能實(shí)現(xiàn)快速檢測(cè);

(2)運(yùn)動(dòng)視頻中有大量的運(yùn)動(dòng),算法要盡量防止運(yùn)動(dòng)帶來(lái)的誤判;

(3)作為后期分析的根底,算法要有較高的精度。

2.模式學(xué)習(xí)和語(yǔ)義標(biāo)注

鏡頭檢測(cè)后的視頻流是一組鏡頭序列。在此根底上,語(yǔ)義標(biāo)注通過(guò)事件檢測(cè)對(duì)鏡頭序列進(jìn)行標(biāo)記。我們使用基于統(tǒng)計(jì)的辦法來(lái)辨認(rèn)語(yǔ)義事件。在辨認(rèn)時(shí),我們首先通過(guò)學(xué)習(xí)訓(xùn)練樣本建立一個(gè)分類器,然后使用這個(gè)分類器來(lái)辨認(rèn)鏡頭中的事件。需要解決下列問(wèn)題:

(1)多模式提取和選擇領(lǐng)域相關(guān)特征來(lái)表示語(yǔ)義事件;

(2)應(yīng)用壓縮域分析提高處理速度;

(3)設(shè)計(jì)好學(xué)習(xí)分類模型,實(shí)現(xiàn)高精度辨認(rèn);

(4)標(biāo)記鏡片應(yīng)有利于后續(xù)的結(jié)構(gòu)分析。

3.語(yǔ)法描述和結(jié)構(gòu)分析

語(yǔ)義標(biāo)注后,結(jié)構(gòu)分析的任務(wù)是通過(guò)分析視頻標(biāo)注序列生成體育視頻的分層瀏覽結(jié)構(gòu)。目前這個(gè)領(lǐng)域還沒(méi)有好的算法。為了解決這個(gè)問(wèn)題,我們基于自然語(yǔ)言理解中的語(yǔ)法分析思想,使用語(yǔ)法來(lái)定義語(yǔ)法規(guī)那么。將語(yǔ)法描述引入結(jié)構(gòu)分析具有下列優(yōu)點(diǎn):(1)根據(jù)語(yǔ)法描述,我們可以(2)實(shí)現(xiàn)領(lǐng)域知識(shí)和具體算法的別離。這樣,我們只需要引入相應(yīng)的語(yǔ)法描述,就可以使用統(tǒng)一的解析器來(lái)分析不同類型的體育比賽。關(guān)鍵技術(shù)包括:

(1)自動(dòng)生成體育視頻的分級(jí)瀏覽目錄;

(2)在實(shí)際應(yīng)用中,視頻流可能不完整或標(biāo)記不正確,解析器要有良好的容錯(cuò)能力;

(3)對(duì)于數(shù)據(jù)量較大的體育視頻,對(duì)結(jié)構(gòu)分析的效率要求較高。

第四,提出研究辦法、技術(shù)路線和可行性分析

1.基于壓縮域的鏡頭分割算法

體育視頻中常見(jiàn)的漸變主要有溶解和擦除,尤其是一些有特效的漸變,如圖3所示。這些特定的擦除模式通常出現(xiàn)在慢速鏡像回放的開(kāi)始和結(jié)束,辨認(rèn)這個(gè)鏡頭邊界非常有價(jià)值?,F(xiàn)有的壓縮域算法主要成功地進(jìn)行了剪切檢測(cè),但對(duì)漸變的研究很少。我們將研究一種有效的漸變檢測(cè)辦法,該辦法綜合了壓縮域中的DCT系數(shù)、運(yùn)動(dòng)矢量和宏塊信息。

圖3體育視頻中特定圖案的擦除

2.體育視頻中語(yǔ)義事件的檢測(cè)

(1)通過(guò)地標(biāo)邊界檢測(cè)辨認(rèn)重放事件

[1]重播分為三種:重復(fù)播放的同一個(gè)鏡頭;同樣的鏡頭以慢動(dòng)作模式重播;同一個(gè)場(chǎng)景是由不同的攝像機(jī)從不同的視角拍攝的。很難通過(guò)直接從內(nèi)容中比擬重放事件和先前視頻鏡頭之間的相似性來(lái)準(zhǔn)確辨認(rèn),尤其是對(duì)于最后的重放。

通過(guò)對(duì)體育比賽電視轉(zhuǎn)播的察看,我們可以發(fā)現(xiàn),精彩片段的重播通常是以一個(gè)象征性的鏡頭切換引入,然后以類似的變化結(jié)束,如圖3所示。因此,重放事件的檢測(cè)實(shí)際上可以歸因于這個(gè)符號(hào)鏡頭邊界的檢測(cè),從而簡(jiǎn)化了問(wèn)題。我們將主要研究這種辦法。

(2)使用視頻文本辨認(rèn)來(lái)確定狀態(tài)事件

狀態(tài)性事件直接關(guān)系到體育競(jìng)賽的狀態(tài)變化。通常比賽狀態(tài)變化時(shí),電視轉(zhuǎn)播會(huì)給視頻添加相關(guān)字幕。比方跳水比賽運(yùn)發(fā)動(dòng)進(jìn)入賽場(chǎng),會(huì)有文字表明運(yùn)發(fā)動(dòng)的名字和要做的動(dòng)作。在一輪結(jié)束時(shí),將顯示該輪所有玩家的分?jǐn)?shù)。

根據(jù)這一特點(diǎn),我們提出通過(guò)檢測(cè)和辨認(rèn)視頻中的文本來(lái)檢測(cè)狀態(tài)事件。這種辦法包括兩個(gè)層次。首先,我們可以通過(guò)檢測(cè)視頻文本[36][37][38][39][40]來(lái)初步確定狀態(tài)事件的發(fā)生。然后,我們通過(guò)關(guān)鍵詞匹配辨認(rèn)檢測(cè)到的文本并辨認(rèn)狀態(tài)事件的類別。比方運(yùn)發(fā)動(dòng)入場(chǎng)的字幕顯示中有“回合〞、“排名〞、“DD〞(難度)和“Total〞(總分)等關(guān)鍵詞。通過(guò)匹配這些關(guān)鍵詞,可以判斷當(dāng)前鏡頭是運(yùn)發(fā)動(dòng)入場(chǎng)的狀態(tài)事件。

(3)結(jié)合視頻和音頻雙模的目標(biāo)事件檢測(cè)。

在目標(biāo)工程中,往往有明顯的運(yùn)動(dòng)和聽(tīng)覺(jué)特征,如運(yùn)發(fā)動(dòng)的跳水工程,既有視覺(jué)運(yùn)動(dòng)又有聽(tīng)覺(jué)踏板聲和入水聲。視頻和音頻融合的分析防止了僅利用視覺(jué)或聽(tīng)覺(jué)特征無(wú)法完整描述語(yǔ)義事件的缺乏,能夠有效提高辨認(rèn)準(zhǔn)確率。

在辨認(rèn)過(guò)程中,我們采用了混合隱馬爾可夫模型和支持向量機(jī)的辦法[41]。支持向量機(jī)通過(guò)結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)那么,可以在小樣本條件下實(shí)現(xiàn)有效分類。然而,支持向量機(jī)只是一個(gè)靜態(tài)分類器,不能很好地模擬時(shí)間序列過(guò)程。相反,隱馬爾可夫模型可以更好地處理隨機(jī)時(shí)間序列數(shù)據(jù)的辨認(rèn)。然而,它不能保證訓(xùn)練好的模型能夠很好地對(duì)未知數(shù)據(jù)進(jìn)行分類。這樣,通過(guò)將兩者混合,并將靜態(tài)數(shù)據(jù)辨認(rèn)效果較好的支持向量機(jī)引入隱馬爾可夫模型,可以獲得最正確的視頻流數(shù)據(jù)辨認(rèn)效果。

3、語(yǔ)法指導(dǎo)

本次體育視頻內(nèi)容標(biāo)注與分析技術(shù)研究的關(guān)鍵詞是內(nèi)容、研究、體育、技術(shù)、視頻、結(jié)構(gòu)分析。

為了分析輸入體育視頻數(shù)據(jù)的結(jié)構(gòu),我們首先需要描述這類體育游戲的語(yǔ)法規(guī)那么。喬姆斯基將語(yǔ)法分為四種類型,即0型語(yǔ)法(或短語(yǔ)語(yǔ)法)、1型語(yǔ)法(或高低文敏感語(yǔ)法)、2型語(yǔ)法(或高低文無(wú)關(guān)語(yǔ)法)和3型語(yǔ)法(或常規(guī)語(yǔ)法)。模型越高,施加的約束越多,語(yǔ)言的描述也越多。

我們用高低文無(wú)關(guān)語(yǔ)法來(lái)描述體育競(jìng)賽的結(jié)構(gòu),主要是基于下列考慮:(1)高低文無(wú)關(guān)語(yǔ)法可以充沛描述體育競(jìng)賽的樹(shù)形結(jié)構(gòu);(2)高低文無(wú)關(guān)語(yǔ)法廣泛應(yīng)用于自然語(yǔ)言理解、句法模式辨認(rèn)、編譯技術(shù)等領(lǐng)域,其技術(shù)相對(duì)成熟;(3)基于高低文無(wú)關(guān)語(yǔ)法的解析器不僅能有效生成視頻的分層瀏覽樹(shù),而且具有很強(qiáng)的錯(cuò)誤處理能力。

終結(jié)符r、b、e、u分別代表一輪比賽的結(jié)束、一名選手比賽的開(kāi)始、一名選手比賽的結(jié)束和總桿,非終結(jié)符和和是結(jié)構(gòu)單位,分別代表每一輪比賽和每一名選手的比賽。對(duì)于語(yǔ)義標(biāo)注序列“buuuuuuuuuueeur〞,用語(yǔ)法分析器進(jìn)行分析,得到其層次結(jié)構(gòu)“[buuuuuuuue][buuuuuuuue]euR]〞。序列最后一個(gè)“r〞前的“EU〞是錯(cuò)誤標(biāo)記,可以通過(guò)錯(cuò)誤恢復(fù)策略進(jìn)行處理(示例,當(dāng)發(fā)現(xiàn)終止符不匹配時(shí),會(huì)彈出并給出警告)。因?yàn)榛诮y(tǒng)計(jì)的視頻序列語(yǔ)義標(biāo)注存在一定的不確定性。如果錯(cuò)誤標(biāo)簽具有高度確實(shí)定性,那么可以認(rèn)為錯(cuò)誤發(fā)生在它之前。

以上,我們通過(guò)基于壓縮域的鏡頭分割、語(yǔ)義事件檢測(cè)和句法指導(dǎo)的結(jié)構(gòu)分析,實(shí)現(xiàn)了體育視頻的內(nèi)容標(biāo)注和分析。雖然我們主要以跳水視頻為例進(jìn)行分析,但該技術(shù)完全可以應(yīng)用于其他類似的體育視頻,甚至是一般的視頻處理。我們的研究說(shuō)明,盡管目前的技術(shù)水平,它是完全自動(dòng)的。通用的視頻內(nèi)容理解是不可能的,但通過(guò)有效的人機(jī)交互和應(yīng)用相關(guān)模型,新技術(shù)將能夠面對(duì)大量視頻信息的挑戰(zhàn),給人們帶來(lái)更豐盛、更便捷的體驗(yàn)。

動(dòng)詞〔verb的縮寫(xiě)〕預(yù)期研究成果和創(chuàng)新

一種有效的壓縮域鏡頭邊界檢測(cè)算法

體育視頻中慢鏡像回放的檢測(cè)辦法

基于壓縮域的視頻文本檢測(cè)與分割

體育視頻中狀態(tài)事件的辨認(rèn)

視音頻融合的事件檢測(cè)

基于語(yǔ)法的體育視頻結(jié)構(gòu)分析

一種通用的體育視頻內(nèi)容分析框架及其系統(tǒng)實(shí)現(xiàn)

第六,現(xiàn)有工作根底

1.現(xiàn)有資源:

4.96G潛水游戲視頻數(shù)據(jù),總時(shí)長(zhǎng)約8小時(shí)20分鐘;

5.33G足球比賽視頻數(shù)據(jù),

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論