版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第1講:融媒體技術基礎數(shù)字媒體技術概論本課程的性質及學習目標本課程是數(shù)字媒體技術相關專業(yè)一門非常重要的專業(yè)基礎課程,主要面向相關專業(yè)本科一年級學生。其目標是通過本門課程的學習,了解數(shù)字媒體技術的前沿研究進展和發(fā)展方向,為后續(xù)相關專業(yè)課程的學習和開展相關科學研究打下良好的認知基礎。學習目標:了解數(shù)字媒體技術的前沿研究進展;了解數(shù)字媒體技術的基本方法和應用實踐;了解媒體融合的基本概念和發(fā)展方向;掌握數(shù)字媒體技術的基本概念;掌握數(shù)字圖像、視頻等技術的概念及應用;了解多媒體系統(tǒng)、互動業(yè)務系統(tǒng)的構建?!?】嚴明,《數(shù)字媒體技術概論》(融媒體版),清華大學出版社,2023【2】丁向民,《數(shù)字媒體技術導論》(第2版).清華大學出版社,2016【3】線上資源:中國大學MOOC,《數(shù)字媒體技術概論》/course/CUC-1206705818參考資料:第1章:融媒體技術基礎1融媒體2融媒體技術及發(fā)展3融媒體技術的研究領域4融媒體技術特點及應用一、媒體的發(fā)展歷程精英媒體→大眾媒體→個人媒體農業(yè)時期→工業(yè)時期→信息時期移動網絡人工智能大數(shù)據(jù)媒體融合游戲娛樂教育培訓工業(yè)制造……應用升級§1.1融媒體二、融媒體端到端架構§1.1融媒體媒體類型的融合包含多種媒體類型,如文字、圖片、視頻、音頻等傳輸網絡的融合電信、廣播電視和互聯(lián)網三網融合發(fā)展用戶終端的融合電視大屏逐漸被移動小屏替代,多種終端設備融合發(fā)展三、相關概念§1.1融媒體“媒體”(media)一詞來源于拉丁語“Medius”,意為兩者之間。媒體是信息傳播的媒介:承載信息的載體,如文字、聲音、圖形、圖像、視頻等。儲存、呈現(xiàn)、處理、傳遞信息的實體,如磁帶、磁盤、光盤、報紙、電視、網絡等。1.媒體典型傳統(tǒng)媒體三、相關概念§1.1融媒體數(shù)字媒體主要指以二進制數(shù)的形式記錄、處理、傳播、獲取信息的載體。感覺媒體:數(shù)字化的文字、圖形、圖像、聲音、視頻和動畫等。表示媒體:表示上述感覺媒體的數(shù)字編碼文件。實物媒體:用來存儲、傳輸、顯示表示媒體。數(shù)字媒體技術使抽象的信息變得可感知、可管理和可交互。2005年12月26日,科技部發(fā)布的《2005中國數(shù)字媒體技術發(fā)展白皮書》首次定義了“數(shù)字媒體”:數(shù)字媒體是數(shù)字化的內容作品,以現(xiàn)代網絡為主要傳播載體,通過完善的服務體系,分發(fā)到終端和用戶進行消費的全過程。2.數(shù)字媒體三、相關概念§1.1融媒體“新媒體”是英文“NewMedia”的直接翻譯,最早由美國提出?!靶旅襟w”特指當下與“傳統(tǒng)媒體”相對應的數(shù)字媒體。3.新媒體三、相關概念§1.1融媒體“全媒體”譯自英文“omnimedia”,前綴“omni”:全部。2008年北京奧運會期間,全媒體開始在新聞傳播領域嶄露頭角?!皵U張式的全媒體”和“融合式的全媒體”。4.全媒體“融媒體”的英文是“MediaConvergence”,也譯為“媒體融合”。“融媒體”理念以發(fā)展為前提,把傳統(tǒng)媒體與新媒體的優(yōu)勢發(fā)揮到極致。美國密蘇里大學增設了“媒體融合”的本科專業(yè)。5.融媒體四、媒體分類§1.1融媒體指直接作用于人的感覺器官,使人產生直接感覺的媒體。引起聽覺反應的聲音、音樂,引起視覺反應的圖像、視頻等。1.感覺媒體(Perceptionmedium)在國際電信聯(lián)盟ITU的遠程通信標準化組ITU-T發(fā)布的I.374標準中,將媒體分為以下5類。指傳輸感覺媒體的中介媒體,即用于數(shù)據(jù)交換的編碼。如圖像編碼JPEG、運動圖像專家組MPEG、文本編碼ASCII和聲音編碼MP3等。2.表示媒體(Representationmedium)四、媒體分類§1.1融媒體也稱為“顯示媒體”,指進行信息輸入和輸出的媒體。輸入媒體:鍵盤、鼠標、話筒等;輸出媒體:顯示器、音箱等。3.表現(xiàn)媒體(Presentationmedium)指用于存儲表示媒體的物理介質。如硬盤、軟盤、磁盤、光盤、云存儲等。4.存儲媒體(Storagemedium)指傳輸表示媒體的物理介質。如電纜、光纜、無線電波等。5.傳輸媒體(Transmissionmedium)第1章:融媒體技術基礎1融媒體2融媒體技術及發(fā)展3融媒體技術的研究領域4融媒體技術特點及應用一、互聯(lián)網發(fā)展狀況§1.2融媒體技術及發(fā)展我國近十億網民構成了全球最大的數(shù)字社會。我國的網民總體規(guī)模已占全球網民的五分之一左右?!笆濉逼陂g,我國網民規(guī)模從6.88億增長至9.89億,五年間增長了43.7%?;ヂ?lián)網普及率達70.4%。1.網民規(guī)模一、互聯(lián)網發(fā)展狀況§1.2融媒體技術及發(fā)展截至2020年12月,我國手機上網的網民規(guī)模為9.86億,較2020年3月新增8885萬。網民總體中使用手機上網的比例為99.7%。2.手機網民規(guī)?;ヂ?lián)網,特別是移動互聯(lián)網在我國的快速普及,極大推動了媒體融合的進程。二、融媒體概念發(fā)展§1.2融媒體技術及發(fā)展我國把2014年被定義為“融媒體元年”。2014年8月18日,中央全面深化改革領導小組第四次會議審議通過了《關于推動傳統(tǒng)媒體和新興媒體融合發(fā)展的指導意見》。融媒體元年二、融媒體概念發(fā)展§1.2融媒體技術及發(fā)展2018年至2020年全面推進縣市融媒體中心建設,實現(xiàn)融媒體中心在全國各縣市的全覆蓋。習近平總書記在黨的新聞輿論工作座談會上強調,要完善體制機制、推動融合發(fā)展,盡快從“相加”邁向“相融”,打造一批新型主流媒體。召開推進媒體深度融合工作座談會。以“中央廚房”即融媒體中心建設為龍頭,創(chuàng)新媒體內部組織結構,構建新型采編發(fā)網絡。2016.22017.12018.42018.8建設縣級融媒體中心已成為全國縣級媒體改革的方向,2018年先行啟動600個縣級融媒體中心建設。二、融媒體概念發(fā)展§1.2融媒體技術及發(fā)展習近平總書記強調加快推動媒體融合發(fā)展,使主流媒體具有強大傳播力、引導力、影響力、公信力。中共中央宣傳部對在全國范圍推進縣級融媒體中心建設做出部署安排,要求2020年底基本實現(xiàn)在全國的全覆蓋。中共中央宣傳部和國家廣播電視總局聯(lián)合發(fā)布了《縣級融媒體中心建設規(guī)范》、《縣級融媒體中心省級技術平臺規(guī)范要求》。2018.92019.12019.12019.4《縣級融媒體中心運行維護規(guī)范》、《縣級融媒體中心網絡安全規(guī)范》、《縣級融媒體中心監(jiān)測監(jiān)管規(guī)范》發(fā)布。二、融媒體概念發(fā)展§1.2融媒體技術及發(fā)展國家廣播電視總局印發(fā)《關于加快推進廣播電視媒體深度融合發(fā)展的意見》。習近平主持召開中央全面深化改革委員會第十四次會議并發(fā)表重要講話,會議審議通過了《關于加快推進媒體深度融合發(fā)展的指導意見》。中共中央辦公廳、國務院辦公廳印發(fā)《關于加快推進媒體深度融合發(fā)展的意見》。從重要意義、目標任務、工作原則三個方面明確了媒體深度融合發(fā)展的總體要求。2020.62020.92020.112022.2國家廣播電視總局扎實推進廣播電視媒體融合發(fā)展工作,制訂廣電總局層面推進廣電媒體深度融合發(fā)展年度工作方案。三、融媒體產業(yè)發(fā)展§1.2融媒體技術及發(fā)展2020年中國傳媒產業(yè)總產值規(guī)模達25229.7億元,較2019年增長6.51%。三、融媒體產業(yè)發(fā)展§1.2融媒體技術及發(fā)展2021年我國報紙閱讀率為24.6%,較2020年的25.5%下降了0.9個百分點;期刊閱讀率為18.4%,較2020年的18.7%下降了0.3個百分點。報紙產業(yè)中央級媒體發(fā)揮領跑帶頭作用,加大融合力度,“爆款”頻出。截至2022年10月,新媒體平臺“央視頻”累計下載量超過4億,“央視新聞”用戶規(guī)模超過8億。媒體融合深入推進;2017年至2021年,數(shù)字化方式閱讀(網絡在線閱讀、手機閱讀等)電子報紙和電子期刊的比例逐年上升。2021年數(shù)字化閱讀方式的接觸率為79.6%。數(shù)字化方式轉型第1章:融媒體技術基礎1融媒體2融媒體技術及發(fā)展3融媒體技術的研究領域4融媒體技術特點及應用§1.3融媒體技術的研究領域互聯(lián)網大數(shù)據(jù)人工智能云計算移動通信媒體融合媒體形式、生產平臺和傳播方式變化巨大;研究領域非常廣泛,不僅包含常見的數(shù)字媒體相關技術,還包括移動網絡傳播以及智能媒體等新興技術領域。一、媒體信息處理技術§1.3融媒體技術的研究領域處理對象主要包括融媒體中心信息服務平臺中的視頻、音頻、文檔、圖片等相關文件數(shù)據(jù)類型;處理內容包括視頻數(shù)據(jù)處理、圖像數(shù)據(jù)處理、音頻數(shù)據(jù)處理以及文檔數(shù)據(jù)處理。文字識別技術、語音解析技術以及虛擬現(xiàn)實/增強現(xiàn)實等。1.媒體信息處理內涵音視頻信號采用數(shù)字化表示后數(shù)據(jù)量十分龐大,例如1秒鐘視頻的彩色數(shù)字圖像數(shù)據(jù)量高達150Mb左右,需要進行數(shù)據(jù)壓縮;保證聲音和圖像質量的情況下,盡量減少所需要的數(shù)據(jù)量。利用人的聽覺和視覺的心理特點,也可用較少的數(shù)據(jù)表達同樣主觀效果的聲音和圖像信息。2.媒體信息處理流程一、媒體信息處理技術§1.3融媒體技術的研究領域二、融媒體網絡傳播技術§1.3融媒體技術的研究領域融媒體網絡包含多種網絡傳輸方式,如互聯(lián)網、有線電視網絡、移動通信網絡等。融媒體網絡傳輸技術在5G網絡低延時、高傳輸速率、高可靠性等優(yōu)勢的幫助下迎來了新的發(fā)展。4K超高清:3840像素×2160像素的分辨率8K超高清:7680像素×4320像素的分辨率中央廣播電視總臺在2019年與華為公司和國內三大運營公司共同合作,成功進行了數(shù)次5G網絡超高清電視傳輸測試。1.網絡傳輸方式二、融媒體網絡傳播技術§1.3融媒體技術的研究領域使用5G上行網絡,并將信號傳送到央視頻、央視新聞等終端媒體,實現(xiàn)5G+VR直播。觀眾們在使用接入5G核心網的新媒體設備時,就可以實時觀看春晚4K超高清直播,享受到身臨其境的體驗。2.5G移動通信三、智能媒體技術§1.3融媒體技術的研究領域融媒體業(yè)務每天新增大量短視頻節(jié)目生產及二次制作。1.海量內容處理管理平臺需要支持“采編存管播發(fā)”全業(yè)務場景。2.復雜場景支撐融媒體庫中內容復雜,標簽不統(tǒng)一,影響運營與檢索應用。3.多模態(tài)智能化現(xiàn)有審核方式存在效率低、操作成本高及漏審風險。4.內容風控智能融媒體領域主要挑戰(zhàn)飛速發(fā)展的人工智能技術被用來解決上述挑戰(zhàn)!三、智能媒體技術§1.3融媒體技術的研究領域依托智能媒體平臺,覆蓋智能生產、內容結構化、智能編解碼、智能審核等多方面的相關應用。支持為媒體客戶提供人工智能應用及能力、業(yè)務計量、用戶管理、運維管理。為業(yè)務系統(tǒng)提供統(tǒng)一的API接口進行對接驗證、能力調用與業(yè)務管理。為算法應用提供應用管理、人工智能服務化的能力。三、智能媒體技術§1.3融媒體技術的研究領域支持對多類型視頻進行“音視圖文”的多維度分析??勺R別字幕、標簽、語音等信息。支持視頻拆分、文本糾錯、視頻超分、視頻修復等。單智能應用融合幾十種算法引擎,輸出結果全面,準確率高。三、智能媒體技術§1.3融媒體技術的研究領域基于數(shù)據(jù)標注、機器學習、人工智能應用服務三大平臺,打通從數(shù)據(jù)采集、模型訓練、算法部署與編排、人工智能應用開發(fā)和接入的全流程。平臺采用容器和微服務技術,具備松耦合、資源池化、高擴展性質,提供標準應用程序接口API調用管理。第1章:融媒體技術基礎1融媒體2融媒體技術及發(fā)展3融媒體技術的研究領域4融媒體技術特點及應用一、融媒體技術的特點§1.4融媒體技術特點及應用傳統(tǒng)模擬方式因頻道“稀缺”導致的壟斷將會被打破。不再是傳統(tǒng)的自上而下的傳播方式,大量用戶生產內容,強調的是社交屬性。1.傳播方式多樣化節(jié)目數(shù)量大大增加,節(jié)目內容更加豐富,個性化的增值業(yè)務更多,傳播的內容更豐富多彩。2.傳播內容海量化傳播渠道不再單一,傳播更加分眾化、精確化。同時在廣播電視、互聯(lián)網、電子報刊、移動客戶端等多渠道同步發(fā)布。3.傳播渠道交互化一、融媒體技術的特點§1.4融媒體技術特點及應用數(shù)字媒體不再是“點對面”的廣播式傳播,而是“點對點”的交互式傳播。高效性、易滿足受眾個性化需求。4.用戶需求個性化利用大數(shù)據(jù)、人工智能等技術,實現(xiàn)更為精確的跟蹤和分析,以及媒體信息的個性化精準推薦。5.傳播手段智能化融媒體時代對信息的時效性要求極高,傳播速度決定了傳播的優(yōu)勢。不需要新聞記者到現(xiàn)場進行采訪,個人可以通過多種媒體渠道對事件進行傳播。6.傳播速度實時化二、融媒體技術的應用§1.4融媒體技術特點及應用媒體融合產業(yè)生態(tài)以主流媒體為核心,以中央、省、市、縣四級媒體機構中設立的融媒體中心為主要構成。2020年1月14日,中央廣播電視總臺、三大運營商、華為攜手,為2020年春晚提供5G+超高清技術,融合5G、8K/4K和VR等新技術。5G網絡全面覆蓋中央廣播電視總臺2020春晚主會場與分會場;采用5G+8K技術實現(xiàn)多機位拍攝,制作8K版春晚。用戶可以在客戶端觀看2020春晚VR直播和多視角全景式直播。1.全媒體傳播產業(yè)生態(tài)旅游、公安、交通、教育、金融、醫(yī)療、休閑娛樂、氣象、展覽……二、融媒體技術的應用§1.4融媒體技術特點及應用2020年1月27日,新冠疫情抗疫中,央視頻APP聯(lián)合中國電信對武漢火神山、雷神山醫(yī)院的施工現(xiàn)場不間斷高清網絡直播。通過固定機位、無剪輯、無串場、原生態(tài)的慢直播形式,讓廣大網友當起了“云監(jiān)工”。網友可以選擇近景和全景兩種視角。在直播畫面下了解最新的疫情數(shù)據(jù)并在評論區(qū)聊天互動。1.全媒體傳播二、融媒體技術的應用§1.4融媒體技術特點及應用融媒體技術與旅游行業(yè)的結合將助力智慧旅游的發(fā)展,開拓更加廣闊的旅游市場?!靶禄ā保簩?G、大數(shù)據(jù)中心、人工智能等技術作為新型基礎設施建設。新一代信息技術將成為旅游行業(yè)的基礎設施,推動旅游行業(yè)與數(shù)字經濟深度融合。旅游業(yè)的融媒體技術應用十分廣泛,如4K超高清直播、VR沉浸式體驗、智能游記服務、無人機人流監(jiān)管等。旅游服務、旅游監(jiān)管、旅游傳播?!霸坡糜巍钡姆绞接幸曨l、VR、圖文等。600歲的故宮也順應時代潮流,開啟史上第一次網絡直播:“云游故宮”的奇妙之旅。2.旅游融媒體二、融媒體技術的應用§1.4融媒體技術特點及應用“云游故宮”的界面展示融媒體技術還可以提升線下旅游服務的體驗:通過VR/AR的導覽形式,增強旅游體驗的沉浸感,豐富智慧導覽的形式故宮博物院內展示文物時提供了二維碼,掃一掃就可看到AR效果的“真實”文物。滿足游客在景區(qū)游覽中的深度觀賞需求。二、融媒體技術的應用§1.4融媒體技術特點及應用智慧駕駛服務、智慧管理服務、車載信息服務。第四屆全球未來出行大會上發(fā)布的無人駕駛小巴“藍胖胖”:交互互動、手機在線預約等。采集、回傳數(shù)據(jù),快速處理信息,智慧交通管理。3.智慧交通實現(xiàn)全方位立體化巡防。2020年1月10日,廣州市公安局天河區(qū)分局率先打造出國內首個智慧融媒體警務平臺。自動判斷異常情況,并反饋到指揮中??梢宰詣臃治霾⒆R別人群中的犯罪嫌疑人。4.公共安全通過高清視頻傳輸進行遠程問診,利用VR技術進行遠程手術。建立虛擬的人體模型,借助于跟蹤球、頭盔顯示器、感覺手套,人體內部各器官的結構。VR,3D數(shù)字化,進行大規(guī)模微創(chuàng)手術練習。5.遠程醫(yī)療第2講:數(shù)字圖像及視頻技術數(shù)字媒體技術概論第2章:數(shù)字圖像及視頻技術1數(shù)字圖像基礎知識2數(shù)字圖像處理的關鍵技術3數(shù)字視頻基礎知識4數(shù)字視頻關鍵技術5圖像及視頻技術的應用一、圖像和數(shù)字圖像的定義§2.1數(shù)字圖像基礎知識圖像就是所有具有視覺效果的畫面。圖像的存在形式:紙介質、底片或照片、電視屏幕、投影儀、計算機屏幕等。1.圖像一、圖像和數(shù)字圖像的定義數(shù)字圖像,又稱數(shù)碼圖像或數(shù)位圖像,它是二維圖像用有限數(shù)字、數(shù)值像素的表示。數(shù)字圖像由數(shù)組或矩陣表示,其光照位置和強度都是離散的。將(模擬)圖像數(shù)字化后可以得到數(shù)字圖像,它以像素為基本元素并且可以用數(shù)字計算機或數(shù)字電路存儲和處理。2.數(shù)字圖像模擬圖像數(shù)字化過程如果(數(shù)字)圖像是黑白圖像(也稱為灰度圖像)那么圖像的通道數(shù)為1。黑白圖像中的每個像素可以由0(黑色)到255(白色)之間的單個數(shù)字表示。2.數(shù)字圖像一、圖像和數(shù)字圖像的定義黑白圖像文件片段如果(數(shù)字)圖像是彩色圖像那么圖像的通道數(shù)為3。彩色圖像中的每個像素由三個數(shù)字分別表示三個顏色通道:紅色、綠色和藍色,也就是三原色的構成。各通道的顏色深淺(函數(shù)的幅值)也用0(淺)到255(深)之間的數(shù)字表示。2.數(shù)字圖像一、圖像和數(shù)字圖像的定義彩色圖像文件片段
3.圖像和數(shù)字圖像之間的關系一、圖像和數(shù)字圖像的定義分辨率為M×N的二維數(shù)字圖像的像素矩陣數(shù)字圖像由有限數(shù)量的元素組成,每個元素都有一個特定的位置和數(shù)值,這些元素被稱為像素。像素是廣泛用于表示數(shù)字圖像元素的術語。在計算機內通常用二維數(shù)組來表示數(shù)字圖像的矩陣。3.圖像和數(shù)字圖像之間的關系一、圖像和數(shù)字圖像的定義原圖像采樣得到具體像素的示意圖二、數(shù)字圖像的歷史歷史上第一張數(shù)字相片誕生于1957年。羅素·基爾施(RussellKirsch)就用數(shù)碼掃描的方法,將他兒子的膠片照掃描成圖中這張正方形的數(shù)字相片歷史上第一張數(shù)字圖像二、數(shù)字圖像的歷史20世紀60年代到70年代,數(shù)字成像技術了避免膠卷相機的操作缺點,被用于相關的科學和軍事任務。隨著數(shù)字成像技術在隨后的幾十年中變得越來越便捷,它取代了舊的成像方法。20世紀60年代初,位于加利福尼亞州埃爾塞貢多的自動化工業(yè)公司的弗雷德里克·G·威特和詹姆斯·F·麥克納爾蒂(美國無線電工程師)共同發(fā)明了世界上第一臺實時生成數(shù)字圖像的設備。這種設備生成的圖像是熒光透視數(shù)字射線照片,在熒光鏡的熒光屏上檢測到方波信號以創(chuàng)建數(shù)字圖像。二、數(shù)字圖像的歷史隨著20世紀60年代金屬氧化物半導體(MetalOxideSemiconductor,MOS)集成電路和70年代初微處理器的引入,以及相關計算機內存存儲、顯示技術和數(shù)據(jù)壓縮算法的進步,數(shù)字圖像技術得到了快速發(fā)展。微處理器技術的進步推動了用于圖像捕獲設備的電荷耦合器件(ChargeCoupledDevice,CCD)的發(fā)展,并在20世紀末逐漸取代了攝影和攝像中模擬膠片和磁帶的使用。隨著計算機計算能力的提高,計算機生成的數(shù)字圖像可以達到接近真實照片的精細程度。三、數(shù)字圖像的獲取手機已經逐步取代了數(shù)碼相機成為了人們日常獲取數(shù)碼圖像的主要方式。通過手機中內置的相機和數(shù)碼相機拍攝得到的是聯(lián)合圖像組(JointPictureGroup,JPG)這種通用照片格式,以這種格式存儲的數(shù)碼照片可以在電腦和智能手機的圖片瀏覽器中正常顯示。短短十幾年時間,從11萬像素到1億像素,手機獲取數(shù)字圖像的成像質量越來越好,甚至今后有可能完全取代傳統(tǒng)數(shù)碼相機。1.手機和數(shù)碼相機智能手機拍攝的數(shù)字圖像三、數(shù)字圖像的獲取通過手機和電腦系統(tǒng)中自帶的截圖功能,可以方便及時地將當前屏幕上的內容保存成JPG格式的數(shù)字圖像。2.電子設備屏幕截圖微軟的PowerPoint可以將PPT格式的文件導出成JPEG、PNG、GIF、JPG等不同格式的數(shù)字圖像。AdobeAcrobat可以將PDF格式的文件導出成JPEG、TIFF、PNG等不同格式的數(shù)字圖像。PhotoShop的PSD格式的文件也可以方便地導出成不同格式的數(shù)字圖像。3.軟件中導出數(shù)字圖像三、數(shù)字圖像的獲取使用Windows系統(tǒng)自帶的畫圖軟件,既可以自己繪制圖像然后保存成數(shù)字圖像格式,也可以在文件欄選擇來自掃描儀,直接得到位圖(Bitmap,BMP)格式的圖片。4.繪圖軟件創(chuàng)建數(shù)字圖像第2章:數(shù)字圖像及視頻技術1數(shù)字圖像基礎知識2數(shù)字圖像處理的關鍵技術3數(shù)字視頻基礎知識4數(shù)字視頻關鍵技術5圖像及視頻技術的應用一、圖像增強§2.2數(shù)字圖像處理的關鍵技術增強圖像中的有用信息,目的是改善圖像的視覺效果。針對給定圖像的應用場合,有目的地強調圖像的整體或局部特性,將原來不清晰的圖像變得清晰或強調某些人們通常感興趣的特征,擴大圖像中不同物體特征之間的差別,抑制通常不感興趣的特征,使圖像質量得到改善、豐富信息量,加強圖像判讀和識別效果,滿足某些特殊分析的需要。圖像增強是一個失真的過程。一、圖像增強圖像反轉主要思路是將產生的負片用作投影片。轉換方程:1.圖像反轉一、圖像增強處理后的圖像的動態(tài)范圍遠遠超過顯示設備的顯示能力時,只有圖像最亮的部分在顯示屏上可見,需要對圖像進行動態(tài)范圍壓縮。轉換方程:c:度量常數(shù);r:當前像素的灰度;s:轉換后該像素的灰度。2.動態(tài)范圍壓縮將圖像的[0,255]壓縮到[0,150],動態(tài)范圍壓縮效果對比一、圖像增強
3.對比度拉伸圖像對比度拉伸二、圖像去噪量化噪聲乘性噪聲加性噪聲按噪聲組成來分圖像噪聲是指存在于圖像數(shù)據(jù)中不必要的或多余的干擾信息。噪聲的存在嚴重影響了遙感圖像的質量,因此在圖像增強處理和分類處理之前,必須予以糾正。二、圖像去噪
1.加性噪聲此類噪聲與圖像信號有關,含噪聲的圖像可表示為:飛點掃描器在掃描圖像時的噪聲、電視圖像中的相關噪聲、膠片中的顆粒噪聲均屬于此類噪聲。2.乘性噪聲此類噪聲與輸入圖像信號無關。由于在量化過程存在量化誤差,這種誤差反應到接收端就產生了量化噪聲。3.量化噪聲二、圖像去噪按照噪聲密度分布來分:這類噪聲服從高斯分布,即某個強度的噪聲點個數(shù)最多,離這個強度越遠噪聲點個數(shù)越少,且這個規(guī)律服從高斯分布。高斯噪聲是一種加性噪聲,即噪聲直接加到原圖像上,因此可以用線性濾波器濾除。1.高斯噪聲這類噪聲是指功率譜密度(信號功率在頻域的分布狀況)在整個頻域內是常數(shù)的噪聲。所有頻率具有相同能量密度的隨機噪聲稱為白噪聲。2.均勻噪聲二、圖像去噪這類噪聲類似把椒鹽撒在圖像上,因此得名。它是一種在圖像上出現(xiàn)很多白點或黑點的噪聲,如電視里的雪花噪聲等。椒鹽噪聲可以認為是一種邏輯噪聲,用線性濾波器濾除的結果不好,一般采用中值濾波器濾波可以得到較好的結果。胡椒噪聲是指隨機用0,-1替換像素,屬于低灰度噪聲。鹽噪聲是指隨機用1替換像素,屬于高灰度噪聲。椒鹽噪聲是兩種噪聲同時出現(xiàn),從而呈現(xiàn)出黑白雜點。3.椒鹽噪聲(脈沖噪聲)二、圖像去噪概率密度函數(shù)服從泊松分布的噪聲。4.泊松噪聲概率密度函數(shù)服從瑞利分布的噪聲。5.瑞利噪聲概率密度函數(shù)服從指數(shù)分布的噪聲。6.指數(shù)噪聲概率密度函數(shù)服從伽馬曲線分布的噪聲。7.伽馬噪聲圖像增加了各種類噪聲后的效果二、圖像去噪減少數(shù)字圖像中噪聲的過程稱為圖像去噪?,F(xiàn)實中的數(shù)字圖像在數(shù)字化和傳輸過程中常受到成像設備與外部環(huán)境噪聲干擾等影響,稱為含噪圖像或噪聲圖像。圖像去噪主要有均值濾波、方框濾波、中值濾波等方法。二、圖像去噪
1.均值濾波二、圖像去噪與均值濾波不同,方框濾波可自由選擇采用計算鄰域像素值還是其均值作為濾波結果。2.方框濾波中值濾波法是一種非線性平滑技術,其原理與均值濾波基本相同,只是將每像素的灰度值設置為該像素某鄰域窗口內的所有像素灰度值的中值。由于中值濾波需要對像素值進行排序,因此其需要的運算量較大。在處理過程中噪聲成分很難被選上,可以有效地去除噪聲。3.中值濾波二、圖像去噪雙邊濾波在去噪處理時不僅考慮距離信息,還要考慮色彩信息,故其能夠有效保護圖像的邊緣信息。4.雙邊濾波用特定的卷積核實現(xiàn)卷積操作。5.二維卷積維納濾波是一種基于最小均方誤差準則、對平穩(wěn)過程的最優(yōu)估計器。這種濾波器的輸出與期望輸出之間的均方誤差為最小,是一個最佳濾波系統(tǒng),可用于提取被平穩(wěn)噪聲所污染的信號。6.維納濾波二、圖像去噪高斯濾波是一種線性平滑濾波,適用于消除高斯噪聲,廣泛應用于圖像處理的減噪過程。通俗的講,高斯濾波就是對整幅圖像進行加權平均的過程,每像素的值都由其本身和鄰域內的其他像素值經過加權平均后得到。高斯濾波的具體操作:用一個模板掃描圖像中的每像素,用模板確定的鄰域內像素的加權平均灰度值去替代模板中心像素的值。7.高斯濾波二、圖像去噪一維高斯分布公式:二維高斯分布公式:7.高斯濾波一維高斯分布圖像高斯濾波器的三維透視圖二、圖像去噪傅里葉濾波采用的主要技術是快速傅里葉變換(FastFourierTransform,F(xiàn)FT),它通過對圖片信號在頻域里進行濾波,從而達到去噪效果。8.傅里葉濾波部分濾波去噪方法的效果圖三、空間域上圖像的幾何變換
1.平移變換像素平移的示意圖三、空間域上圖像的幾何變換
1.平移變換三、空間域上圖像的幾何變換由上述敘述可知,只需構造平移變換矩陣,然后將這個矩陣作用于(矩陣左乘)原圖像的每像素,即可實現(xiàn)圖像平移的效果。1.平移變換圖像先向右平移100像素,再向下平移100像素的效果三、空間域上圖像的幾何變換
2.旋轉變換三、空間域上圖像的幾何變換以圖像中心為旋轉中心,逆時針旋轉30°后的效果:三、空間域上圖像的幾何變換
3.縮放變換三、空間域上圖像的幾何變換
3.縮放變換三、空間域上圖像的幾何變換將512×512大小的圖像縮小成190×400大小的圖像效果:四、頻率域上圖像的變換傅里葉變換是一種線性積分變換,用于信號在時域和頻域之間的變換。其基本思想首先由法國學者約瑟夫·傅里葉系統(tǒng)地提出。傅里葉變換將信號分成不同的頻率成分,被稱為數(shù)學棱鏡。對應到數(shù)字圖像中,高頻信號往往是圖像中的邊緣信號和噪聲信號,而低頻信號包含圖像輪廓及背景等信號。1.傅里葉變換傅里葉變換作用類似于數(shù)學棱鏡四、頻率域上圖像的變換數(shù)字圖像進行傅里葉變換后得到的頻譜圖傅里葉變換的數(shù)學公式:1.傅里葉變換四、頻率域上圖像的變換離散余弦轉換(DiscreteCosineTransformation,DCT)是與傅里葉變換相關的一種變換,它類似于離散傅里葉變換,但是只使用實數(shù)。離散余弦變換相當于一個長度大概是它兩倍的離散傅里葉變換,是對一個實偶函數(shù)進行的(因為一個實偶函數(shù)的傅里葉變換仍然是一個實偶函數(shù)),在有些變形里面需要將輸入或者輸出的位置移動半個單位。離散余弦變換經常被信號處理和圖像處理使用,用于對信號和圖像(包括靜止圖像和運動圖像)進行有損數(shù)據(jù)壓縮。離散余弦變換具有很強的“能量集中”特性。2.離散余弦變換四、頻率域上圖像的變換離散余弦變換的公式如下:2.離散余弦變換數(shù)字圖像離散余弦變換的效果第2章:數(shù)字圖像及視頻技術1數(shù)字圖像基礎知識2數(shù)字圖像處理的關鍵技術3數(shù)字視頻基礎知識4數(shù)字視頻關鍵技術5圖像及視頻技術的應用一、視頻的定義§2.3數(shù)字視頻基礎知識根據(jù)維基百科:視頻是一種電子媒體,是用于記錄、復制、播放、廣播和顯示運動的視覺媒體。視頻最初是為機械電視系統(tǒng)開發(fā)的,很快被陰極射線管(CathodeRayTube,CRT)系統(tǒng)取代,后來又被幾種類型的平板顯示器所取代。視頻存在模擬和數(shù)字變體,并且可以在各種媒體上進行傳輸,包括無線電廣播、磁帶、光盤、計算機文件和網絡流媒體。二、視頻的歷史視頻技術最初是為機械電視系統(tǒng)開發(fā)的,最初只是一種現(xiàn)場技術。查爾斯·金斯堡(CharlesGinsburg)領導著Ampex研究團隊,開發(fā)了第一臺實用的磁帶錄像機(VideotapeRecorder,VTR)。11951年,第一臺VTR通過將攝像機的電信號寫入磁性錄像帶來捕獲電視攝像機的實時圖像。1971年,索尼開始在消費市場上銷售盒式磁帶錄像機(VideoCassetteRecorder,VCR)唱盤和磁帶。1.模擬視頻階段二、視頻的歷史DCT編碼使實用的數(shù)字視頻成為可能,這是20世紀70年代初開發(fā)的有損壓縮過程。在20世紀80年代后期,DCT編碼被應用于運動補償?shù)腄CT視頻壓縮。H.261是第一個實用的數(shù)字技術視頻編碼標準。在1997年數(shù)字化視頻光盤(DigitalVideoDisk,DVD)發(fā)明以及2006年藍光光盤發(fā)明之后,錄像帶和記錄設備的銷量直線下降。隨著計算機技術的進步,進一步降低了視頻制作成本,使節(jié)目制作人和廣播公司可以轉向無磁帶制作。數(shù)字廣播的出現(xiàn)以及隨后的數(shù)字電視過渡正在將模擬視頻降級為世界上大多數(shù)地區(qū)的傳統(tǒng)技術。2.數(shù)字視頻階段三、視頻流的特征每單位時間視頻的靜態(tài)圖片數(shù)被稱為幀速率。范圍從舊的機械相機的每秒6或8幀到新的專業(yè)相機的每秒120或更多幀。電影膠片以每秒24幀的較慢幀速率拍攝,這使將電影動態(tài)影像轉換為視頻的過程稍微復雜化了。實現(xiàn)運動圖像的舒適視錯覺的最小幀速率約為16幀/秒;要達成最基本的視覺暫留效果大約需要10幀/秒的速度。1.幀速率三、視頻流的特征隔行掃描是為了減少早期機械和CRT視頻顯示器中的閃爍而又不增加每秒完整幀數(shù)的一種方法。與逐行掃描相比,隔行掃描保留了細節(jié),同時需要較低的帶寬。在隔行掃描視頻中,每個完整幀的水平掃描線被視為連續(xù)編號,并捕獲為兩個場:由奇數(shù)行組成的奇數(shù)場(上場)和由偶數(shù)行組成的偶數(shù)場(下場)。NTSC、PAL和SECAM都是隔行掃描格式。當在逐行掃描設備上顯示本機隔行掃描信號時,總空間分辨率會因簡單的行加倍而降低。去隔行掃描過程可以優(yōu)化來自DVD或衛(wèi)星源的隔行掃描視頻信號在逐行掃描設備上的顯示,但是去隔行掃描不能產生與真正的逐行掃描源素材相當?shù)囊曨l質量。2.隔行掃描與逐行掃描三、視頻流的特征長寬比在圖像中也稱圖像的縱橫比,是其寬度除以它的高度所得的比例,通常用兩個數(shù)字表示,中間用冒號分隔,如16:9。對于x:y的寬高比,圖像的寬度為x個單位,高度為y個單位。廣泛使用的寬高比包括:電影攝影中的1.85:1和2.39:1,電視中的4:3和16:9,以及靜態(tài)照相機攝影中的3:2。長寬比描述了視頻屏幕和視頻像素的寬度和高度之間的比例關系。傳統(tǒng)電視屏幕的寬高比為4:3,或約為1.33:1。高清晰度電視使用的寬高比為16:9,即大約1.78:1。完整的35毫米帶有聲帶的膠卷鏡框的縱橫比(也稱為學院比例)為1.375:13.長寬比三、視頻流的特征4:3標準歷史最久的比例,它在電視機發(fā)明之初就已經存在,現(xiàn)今仍在使用,并且用于許多電腦顯示器上。16:9標準高清晰度電視的國際標準,用于澳洲、日本、加拿大和美國,還有歐洲的衛(wèi)星電視和一些非高清的擴展清晰度電視(ExtendedDefinitionTelevision,EDTV)。寬屏DVD將16:9的畫面壓縮為4:3用作資料存儲,并依照電視的處理能力作出應變。如果電視支持寬屏,那么將影像還原就可以播放,如果不支持,就由DVD播放器將畫面剪裁再送至電視上。3.長寬比三、視頻流的特征14:9標準該標準最早源自英國,曾在英國、愛爾蘭、法國、俄羅斯等國家使用,作為當?shù)啬M電視的傳輸格式,目前大多已被淘汰。3.長寬比以對角線表示的五種標準比例16:9、16:10、3:2、4:3、5:4三、視頻流的特征顏色模型通常指某個三維顏色空間中的一個可見光子集,它包含某個色彩域的所有色彩。常見的顏色模型主要有下面幾種表示形式:典型的顏色亮度信息YIQ模式被用于NTSC電視;亮度色度參量YUV模式被用于PAL電視;YDbDr色彩空間被用于SECAM電視;YCbCr色彩空間被用于數(shù)字視頻。4.顏色模型和深度三、視頻流的特征色調飽和度亮度(HueIntensitySaturation,HIS)是從人的視覺系統(tǒng)出發(fā)的一種色彩模型紅綠藍(RedGreenBlue,RGB)被用于彩色陰極射線管等彩色光柵圖形顯示設備中,青色、洋紅、黃色、黑色(CyanMagentaYellowBlack,CMYK)作為印刷色彩模型被應用于印刷工業(yè)。像素可以代表不同顏色的數(shù)量取決于每像素的位數(shù)表示的顏色深度。減少數(shù)字視頻中所需數(shù)據(jù)量的常用方法是通過色度二次采樣(例如4:4:4、4:2:2等)。4.顏色模型和深度三、視頻流的特征視頻質量是量化一段視頻通過視頻傳輸或處理系統(tǒng)時畫面質量變化(通常是下降)程度的方法。視頻質量可以用諸如正式度量來測量峰值信噪比(PeakSignaltoNoiseRatio,PSNR)或者針對主觀視頻質量采用專家觀察評估。峰值信噪比是一個工程術語,表示信號的最大可能功率與影響其表示保真度的破壞噪聲功率之間的比率。由于許多信號具有非常寬的動態(tài)范圍,因此PSNR使用分貝作為單位,通常用對數(shù)量進行表示。PSNR也常用于量化有損壓縮圖像和視頻的重建質量。5.視頻質量三、視頻流的特征在多種用于壓縮視頻流的方法中,最有效的方法是使用圖片組(GroupofPicture,GOP)減少空間和時間冗余。廣義上講,通過記錄單個幀之間的差異來減少空間冗余,此任務稱為幀內壓縮,與圖像壓縮密切相關。同樣可以通過記錄幀之間的差異來減少時間冗余,此任務稱為幀間壓縮,包括運動補償和其他技術。最常見的現(xiàn)代壓縮標準是MPEG-2(用于DVD,藍光和衛(wèi)星電視)和MPEG-4(用于移動電話和互聯(lián)網)。6.數(shù)字視頻壓縮方法三、視頻流的特征顯示三維(3Dimensional,3D)電影和其他應用程序的立體視頻的方法:兩個通道:通過使用兩個視頻投影儀上彼此偏軸成90度的偏光濾鏡,可以同時查看兩個頻道。戴上帶有匹配偏振濾光鏡的眼鏡可以分別看到這些偏振的通道。浮雕3D:其中一個通道覆蓋有兩個顏色編碼的圖層,這種左和右分層技術有時用于DVD上3D電影的網絡廣播或最近的立體浮雕。交替遮擋:使用與視頻同步的LCD快門眼鏡交替為每個眼睛的左眼和右眼幀提供一個通道,以交替遮擋每只眼睛的圖像,使得適當?shù)难劬梢钥吹秸_的幀。7.立體視頻四、視覺暫留物體在快速運動時,當人眼所看到的影像消失后,人眼仍能繼續(xù)保留其影像0.1-0.4秒左右的圖像,這種現(xiàn)象被稱為視覺暫留現(xiàn)象。視覺暫留現(xiàn)象是光對視網膜所產生的視覺在光停止作用后仍保留一段時間的現(xiàn)象,其具體應用主要有電影的拍攝和放映。視覺暫留是動畫、電影等視覺媒體形成和傳播的依據(jù)。視覺暫留現(xiàn)象很早就被中國人運用,走馬燈便是歷史記載中最早的視覺暫留運用。春節(jié)期間的走馬燈五、主要的視頻編碼標準國際標準化組織(InternationalStandardizationOrganization,ISO)國際電工技術委員會(InternationalElectrotechnicalCommission,IEC)與ITU是制定視頻編碼標準的兩大組織,他們制定的視頻編碼標準主要有MPEG系列和H.26X系列。此外,中國自主知識產權的數(shù)字音視頻編解碼技術標準(AudioVideoStandard,AVS)也已經得到了廣泛的應用。五、主要的視頻編碼標準標準制定的機構與發(fā)布日期標準編號標題典型應用MPEG-1ISO/IEC(1992.11)ISO/IEC11172用于數(shù)據(jù)速率高達大約1.5Mbps的數(shù)字存儲媒體的活動圖像和伴音編碼數(shù)字視頻存儲、VCDMPEG-2ISO/IEC(1994.11)ISO/IEC13818活動圖像和伴音信息的通用編碼數(shù)字電視、DVDMPEG-4ISO/IEC(1999.5)ISO/IEC14496-2視音頻對象編碼因特網、流媒體H.264/AVCITU-T/ISO(2003.3)ISO/IEC14496-10MPEG-4的第10部分或者先進的視頻編碼數(shù)字電視、IPTV、可視電話、網絡視頻點播、數(shù)字視頻存儲HEVC/H.265ITU-T(2013)ISO/IEC高效視頻編碼支持4K和全高清DVSMPTE(1999.7)SMPTE314M基于DV的25Mb/s、50Mb/s視頻壓縮格式錄像機AVS國家標準化管理委員會(2006.2)GB/T20090.2-2006先進音視頻編碼第2部分:視頻數(shù)字電視、IPTV、可視電話、網絡視頻點播數(shù)字視頻存儲國際上主要的視頻編碼標準:五、主要的視頻編碼標準MPEG系列由ISO下屬的運動圖像專家組開發(fā)。MPEG視頻編碼包括MPEG-1(VCD)、MPEG-2(DVD)、MPEG-4、MPEG-4AVC;音頻編碼主要包括MPEGAudioLayer1/2、MPEGAudioLayer3(MP3)、MPEG-2AAC、MPEG-4AAC等。H.26X系列由國際電信聯(lián)盟ITU主導,側重網絡傳輸。ITU-T的視頻標準包括H.261、H.263、H.264,主要應用于實時視頻通信領域,如視頻會議,而MPEG系列主要應用于視頻存儲、廣播電視、互聯(lián)網或無線網絡的流媒體等。五、主要的視頻編碼標準DV的英文全稱是DigitalVideo,由索尼、松下、JVC等多家廠商聯(lián)合提出的一種家用數(shù)字視頻格式。數(shù)碼攝像機主要就是使用這種格式記錄視頻數(shù)據(jù)的,這種視頻格式的文件擴展名一般是.avi,所以習慣地叫它為DV-AVI格式。AVS音視頻編碼是由中國主導制訂的新一代編碼標準,視頻壓縮效率比MPEG-2增加了一倍以上,能夠使用更小的帶寬傳輸同樣的內容。AVS已經成為國際上三大視頻編碼標準之一,它已經在國家廣播電視總局正式全面推廣,并在廣電行業(yè)中普及。第2章:數(shù)字圖像及視頻技術1數(shù)字圖像基礎知識2數(shù)字圖像處理的關鍵技術3數(shù)字視頻基礎知識4數(shù)字視頻關鍵技術5圖像及視頻技術的應用一、運動特征提取§2.4數(shù)字視頻關鍵技術要分析視頻的運動特征,首先要提取視頻序列中的運動矢量。運動矢量是對物體或攝像機在3維場景中的運動所造成的在2維圖像平面上投影變化的一種估計,運動矢量估計在計算機視覺和視頻壓縮中有著重要的作用。一、運動特征提取從視頻序列計算運動矢量的方法中,基于塊匹配的相關性技術是最直觀且被廣泛應用的方法。在塊匹配技術中,可以通過在一定大小的窗口中搜索出唯一匹配的灰度塊來得到圖像序列的運動矢量。塊匹配算法的最大不足是計算的復雜性。目前,已經提出了許多方法來提高塊匹配算法的性能,如窗口亞采樣法、快速搜索算法、查找表法等。塊匹配算法計算出的運動矢量一、運動特征提取在80年代早期建立的光流分析法,也是運動估計的重要方法。目前,光流場計算技術的研究大致有以下幾個方向:研究解決光流場計算不適定問題的方法;研究光流場計算基本公式的不連續(xù)性;研究直線和曲線的光流場計算技術;研究由光流場重建物體三維運動和結構。根據(jù)運動矢量場,可以進一步提取更高層次的運動特征,例如建立全局運動模型對攝像機運動進行估計、運動對象分割并對物體運動模型進行估計等。二、視頻修復利用AI視頻轉換技術,可以將老舊低清視頻畫質修復與重生,使得視覺感知清晰度得到提升,從而提升視頻畫質質量。人工智能修復的100年前北京街景影像片段的截圖這段影像由加拿大攝影師拍攝而成,而給它重新上色修復的是中國一位年輕的獨立游戲開發(fā)者大谷。原本色彩單調、輪廓模糊的人影,變得面目清晰、動作流暢,再加上后期逼真的音效,生動再現(xiàn)了當時的歷史風貌。二、視頻修復新中國成立70周年時,《開國大典》等經過AI和人工修復的獻禮片驚艷了公眾,許多觀眾看后熱淚盈眶。通過人工智能深度學習的方式,老片中常見的噪點、色偏、模糊、抖動、劃痕等“小傷小痛”得以被批量化修復。但是,一些老片畫面由于損失嚴重或存在大片污漬,人工智能無法通過時間、空間信息“腦補”,在這種情況下,必須依靠有經驗的修復專家來完成。修復版《開國大典》可見,有些場景中,人工智能實際上不能完全代替手工勞動,人機共同協(xié)作才能產生最好的結果。三、視頻檢索在傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)中,信息的檢索一般以數(shù)值和字符型為主,而在多媒體數(shù)據(jù)庫中集成圖像、視頻、音頻等非格式化信息。每一種媒體數(shù)據(jù)都有一些難以用字符和數(shù)字符號描述的內容線索,如圖像中某一對象的形狀顏色和紋理、視頻中的運動、聲音的音調等。當用戶要利用這些線索對數(shù)據(jù)進行檢索時,首先要將其人工轉化為文本或關鍵詞形式,這種轉換帶有一定的主觀性,且極其費時,因而僅基于關鍵詞的檢索已不能滿足用戶的檢索要求。數(shù)據(jù)庫及其他信息系統(tǒng)不僅要能對圖像、視頻和聲音等媒體進行存儲以及基于關鍵字的檢索,而且要對多媒體數(shù)據(jù)內容進行自動語義分析、表達和檢索。三、視頻檢索視頻檢索就是要從海量的視頻數(shù)據(jù)中找到所需的視頻片段。根據(jù)提交視頻內容的不同,視頻檢索一般分為鏡頭檢索和片段檢索。目前,視頻檢索的多數(shù)研究還集中在鏡頭檢索上。而片段檢索方面的研究則剛剛開始。片段檢索分為以下兩種類型:精確檢索和相似性檢索。一個完整的視頻檢索系統(tǒng)的關鍵技術主要有:關鍵幀提取、圖像特征提取、圖像特征的相似性度量、查詢方式以及視頻片段匹配等方法。視頻檢索是一門交叉學科,以圖像處理、模式識別、計算機視覺、圖像理解等領域的知識為基礎,從認知科學、人工智能、數(shù)據(jù)庫管理系統(tǒng)及人機交互、信息檢索等領域,引入媒體數(shù)據(jù)表示和數(shù)據(jù)模型,從而設計出可靠、有效的檢索算法,系統(tǒng)結構以及友好的人機界面。三、視頻檢索國內外已研發(fā)出了多個基于內容的視頻檢索系統(tǒng),主要有以下幾種:由IBMAlmaden研究中心開發(fā)的,是“基于內容”檢索系統(tǒng)的典型代表。此系統(tǒng)主要利用顏色、紋理、形狀、攝像機和對象運動等描述視頻內容,并以此實現(xiàn)其檢索。QBIC提供了對靜止圖像及視頻信息基于內容的檢索手段,允許用戶使用例子圖像、構建草圖、以及顏色和紋理模式、鏡頭和目標運動等信息對大型圖像和視頻數(shù)據(jù)庫進行查詢。在視頻數(shù)據(jù)分析方面包括了鏡頭檢測、運動估計、層描述、代表幀生成等多種視頻處理手段。1.圖像內容查詢系統(tǒng)(QueryByImageContent,QBIC)三、視頻檢索美國哥倫比亞大學電子工程系與電信研究中心圖像和高級電視實驗室共同研究的、一種在互聯(lián)網上使用的“基于內容”的檢索系統(tǒng)。實現(xiàn)了互聯(lián)網上的“基于內容”的圖像/視頻檢索系統(tǒng),提供了一套供人們在網頁上搜索和檢索圖像及視頻的工具。2.VisualSeek系統(tǒng)由美國哥倫比亞大學研究開發(fā)的一套全自動的基于內容的視頻查詢系統(tǒng)。它擴充了傳統(tǒng)關鍵字和主題導航的查詢方法,允許用戶使用視覺特征和時空關系來檢索視頻。3.VideoQ清華大學開發(fā)的視頻節(jié)目管理系統(tǒng)(TsinghuaVideoFindIt,TVFI)可提供視頻數(shù)據(jù)入庫、基于內容的瀏覽、檢索等功能;提供多種數(shù)據(jù)訪問模式,包括基于關鍵字查詢、示例查詢、按視頻結構瀏覽及按用戶自定義類別進行瀏覽等。4.視頻節(jié)目管理系統(tǒng)三、視頻檢索基于內容的視頻分析和檢索研究的目的:通過對視頻內容進行計算機處理、分析和理解,建立結構和索引,以實現(xiàn)方便有效的視頻信息獲取?;趦热莸囊曨l檢索包括很多技術,如:視頻結構的分析(鏡頭檢測技術)、視頻數(shù)據(jù)的自動索引和視頻聚類等。目前在基于內容的視頻檢索技術的研究方面,除了識別和描述圖像的顏色、紋理、形狀和空間關系外,其他主要集中在視頻鏡頭分割、特征的提取和描述、關鍵幀提取和結構分析等方面?;趦热莸囊曨l檢索的系統(tǒng)框圖第2章:數(shù)字圖像及視頻技術1數(shù)字圖像基礎知識2數(shù)字圖像處理的關鍵技術3數(shù)字視頻基礎知識4數(shù)字視頻關鍵技術5圖像及視頻技術的應用一、OCR文字識別§2.5圖像及數(shù)字視頻技術的應用光學字符識別(OpticalCharacterRecognition,OCR)是指對文本資料的圖像文件進行分析識別處理,獲取文字及版面信息的過程。OCR的概念是在1929年由德國科學家Tausheck最先提出來的,并申請了專利。我國研究漢字識別的起步比較晚,20世紀70年代末才開始OCR的研究工作。90年代以后,隨著平臺式掃描儀的廣泛應用,以及我國信息自動化和辦公自動化的普及,大大推動了OCR技術的進一步發(fā)展,使OCR的識別正確率、識別速度滿足了廣大用戶的要求。處理過程主要包括五個步驟:輸入、前期處理、中期處理、后期處理、輸出。其中,前期處理包括:二值化、圖像降噪、傾斜矯正;中期處理包括:版面分析、字符切割、字符識別、版面還原。一、OCR文字識別§2.5圖像及數(shù)字視頻技術的應用OCR的處理過程輸入:輸入數(shù)字圖像,對于不同的圖像格式,有著不同的存儲格式、不同的壓縮方式。二值化:為了讓計算機更快更好地進行OCR相關計算,我們需要先對彩色圖進行處理,使圖片只剩下前景信息與背景信息。圖像降噪:根據(jù)噪點的特征進行去噪的過程稱為降噪。傾斜矯正:拍出來的圖片會不可避免的產生傾斜,這就需要使用圖像處理軟件對其進行校正。版面分析:將不同字符之間分割開。字符識別:早期以模板匹配為主,后期以特征提取為主。版面還原:識別后的文字不變地輸出到Word文檔、PDF文檔。后期處理:根據(jù)特定的語言上下文的關系,對識別結果進行校正。輸出:將識別出的字符以某一格式的文本輸出。二、多媒體通信§2.5圖像及數(shù)字視頻技術的應用多媒體通信技術是多媒體技術與通信技術的有機結合,突破了計算機、通信、電視、等傳統(tǒng)產業(yè)間相對獨立發(fā)展的界限,是計算機、通信和電視領域的一次革命。多媒體通信技術在計算機的控制下,對多媒體信息進行采集、處理、表示、存儲和傳輸
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版美容院會員積分體系合作協(xié)議4篇
- 2025年度教育培訓機構課程開發(fā)及師資培訓合同4篇
- 2025年成都美食研發(fā)上灶師父招聘與新品開發(fā)合同2篇
- 三方產品銷售合同范本(2024版)
- 二零二五年度商業(yè)地產租賃收益權轉讓合同3篇
- 2025年度智慧農業(yè)項目采購合同解除協(xié)議2篇
- 二零二五年度鋼管車輛運輸合同車輛保險理賠與費用結算合同3篇
- 2025版動漫主題咖啡廳經營管理協(xié)議3篇
- 二零二五年度車輛抵押抵押權轉讓合同范本3篇
- 2025年生態(tài)園區(qū)委托物業(yè)管理合同范本3篇
- 《天潤乳業(yè)營運能力及風險管理問題及完善對策(7900字論文)》
- 醫(yī)院醫(yī)學倫理委員會章程
- xx單位政務云商用密碼應用方案V2.0
- 農民專業(yè)合作社財務報表(三張報表)
- 動土作業(yè)專項安全培訓考試試題(帶答案)
- 大學生就業(yè)指導(高職就業(yè)指導課程 )全套教學課件
- 死亡病例討論總結分析
- 第二章 會展的產生與發(fā)展
- 空域規(guī)劃與管理V2.0
- JGT266-2011 泡沫混凝土標準規(guī)范
- 商戶用電申請表
評論
0/150
提交評論