關於多媒體技術論文

  隨著資訊科技的快速發展,多媒體技術在教育領域也獲得了空前的飛速發展。下面是小編整理的,希望你能從中得到感悟!

  篇一

  多媒體技術漫談

  摘要:這篇文章,主要是從巨集觀上總結了一下現階段影象視訊底層技術的發展及應用點,從一個影象視訊演算法研究人員的角度談一談對這個領域的認識。影象視訊領域的商業應用,集中在多媒體娛樂、網際網路、智慧監控、工業機器視覺、OCR、生物特徵識別、醫學影象處理以及軍事國防幾個領域,多媒體領域是其中的一個重要分支,很多影象視訊領域的新演算法和新理論往往在多媒體領域得到最先的應用。

  關鍵詞:多媒體;視訊智慧編輯;視訊感興趣區;影象視訊場景分析

  中圖分類號:TP37 文獻標識碼:A文章編號:1007-9599***2012***01-0000-02

  Multimedia Technology Study

  Du Pengxiang,Huang Shanshi

  ***China Telecom Co.,Ltd.,Wenzhou Branch,Wenzhou325000,China***

   article is from the macro summarizes the development and application point of the current image video of the underlying technology from the perspective of an image of video algorithms researchers talk about the understanding of this area.The field of image and video business applications, multimedia entertainment,the Internet, intelligent monitoring,industrial machine vision,OCR,biometrics, medical image processing,as well as military defense in several areas, multimedia areas is an important branch of a lot of image field of video the new algorithms and new theories are often the first application in the multimedia field.

   intelligent editing;Video interest region;Image video scene analysis

  多媒體領域主要集中了MicroSoft、Adobe、MITSUBISHI、Cyberlink、Muvee、Autodesk、Corel、Sony、2D3、MotionDSP等一批公司,以及與之相關的PAMI、IJCV、CVPR、ICCV、ECCV、SIGRAPH等眾多多高水平的學術期刊和學術會議。多媒體領域的研究方向比較雜,包括但不限於下面幾類,視訊智慧編輯、視訊感興趣區、影象視訊場景分析、影象視訊修復及後處理、人臉系列技術、非真實感渲染***NPL***系列技術、3D系列技術、人機互動技術等。

  一、視訊智慧編輯

  主要包括視訊鏡頭邊界檢測以及在此基礎上的視訊自動故事片生成、視訊廣告檢測、視訊廢鏡頭檢測等。視訊鏡頭邊界檢測在經歷了一段時間的發展之後,檢測率也達到一定的程度,目前基本上不再有新的文章出現。視訊自動故事片生成往往需要音視訊技術的結合,並且由於缺乏有效的評級機制,最近幾年已經不是研究的熱點,但是相信各個視訊編輯領域的公司仍在研究或者開發過程之中。視訊中的廣告檢測作為其中的一個小的分支,可能因為沒有很大的商業價值,研究的並不多,但想要真正實現高的檢測率,仍然有很多值得研究的地方。視訊廢鏡頭檢測其實是視訊修復的一部分,包括檢測視訊中的抖動片段、模糊片段、過曝過暗片段等,從而達到視訊修復的目的。

  ***一***視訊感興趣區的研究

  最近是一個熱點方向,感興趣區提取和跟蹤可以用來做視訊智慧縮放,可以用來指導視訊編輯中的精彩視訊片段選擇,還可以在片源採集時就用來指導攝像機捕捉精彩片段。人臉、人物、車輛、小動物、房屋、花草樹木等在特定的場景下等都可以作為感興趣區,感興趣區提取的方式方法也比較多,但除了人臉、人物檢測技術上還比較成熟之外,其他目標的檢測很難達到滿意的準確度。人物檢測基礎上的精細分割摳像技術,也是影象領域的一個基礎研究方向,準確的摳像,是換背景等智慧化效果的基礎。

  ***二***影象視訊場景分析

  主要用在視訊管理和視訊按場景選擇和編輯。通過對不同的場景的特徵進行分析設計分類器進行分類,對於視訊管理這種不要求很高精度的應用點可以滿足要求。照片和視訊按場景內容管理,跟基於人臉識別技術的照片管理,是基於內容管理的兩個方式,相信今後的多媒體編輯和管理軟體都會逐步增加這個功能。

  ***三***影象視訊的修復及後處理

  主要包括視訊抖動修復、影象視訊去模糊、視訊過曝過暗修復、視訊去霧化、老電影舊照片修復、馬賽克修復、視訊影象超解析度、視訊影象智慧變比例縮放、視訊幀插值、影象視訊去噪等。

  視訊抖動修復關鍵是攝像機軌跡的檢測,確定了攝像機的移動軌跡,視訊修復就有了基礎的指導。通過尋找視訊中的特徵點,然後對特徵點進行跟蹤,通過分析每個特徵點的軌跡,確定攝像機的整體軌跡。如果假定視訊中的內容都是一個平面上,只考慮攝像機在2D平面的軌跡,事情要容易的多,但事實上攝像機的軌跡應該是3D的,這就變成了一個“Structure from Motion”的問題,處理起來就比較複雜,但如果想得到理想的穩像效果,得出攝像機3D軌跡是必須的。另外,攝像機3D軌跡的求取,也是其他基於3D的視訊應用的基礎,這個後面再講。

  影象視訊去模糊,這個的關鍵是尋找模糊核,也就是拍攝的瞬間攝像機或相機的運動軌跡,在這個運動軌跡上反捲積,就可以恢復攝像機不動情況下拍攝的視訊、影象,也就是不模糊的視訊、影象了。所以,對視訊的去模糊,比起對影象的去模糊,手段要多一些,因為視訊去模糊可以通過視訊序列的資訊來得到攝像機的運動軌跡。而影象的去模糊,這個運動軌跡只能是通過對影象內部結構的分析進行估計。考慮到軌跡估計和反捲積的運算量,不管是影象去模糊還是視訊去模糊,目前都不算很成熟,但是成熟的產品應該會在短期內出現。

  視訊過曝過暗修復,如果視訊質量不是太差,直方圖被擠壓的不是太厲害,還可以通過直方圖均衡化的方式進行簡單修復,但是如果直方圖被擠壓的很嚴重,那就只能刪除了。

  視訊、影象去霧化,簡單點說,就是把被霧化的影象建模為一個正常的無霧的影象與純霧的影象的合成,因為拍攝得到影象中霧的灰度值與景深有關,所以好的去霧演算法,應該是以準確的景深估計為基礎的,3D景深估計也是一個很熱的方向。

  老電影舊照片修復,大概包括色彩的修復和一些劃痕修復,色彩修復,可以以類似去霧的建模方式,也可以簡單的做色調調節,問題都不大。劃痕修復就比較複雜,除了要把劃痕檢測到,還要用周圍的畫素來填充劃痕的畫素,比較典型的全變分方法可以用來處理這類問題。

  馬賽克修復,馬賽克修復基本上還是要從產生的原因入手,如果是編解碼層的問題,可以對編解碼的資料嘗試修復。如果到了解碼後的影象資料,想要修復就是一個無中生有的問題了,只能是依靠邊緣紋理來去掉馬賽克的效果,但是想要恢復影象內容,除非後臺有一個強大的針對特定目標的資料庫來支援虛構類似的內容,否則毫無辦法。

  視訊、影象超解析度,超解析度的方法,總體來說兩種思路,一種是挖掘影象的邊緣資訊,在影象放大的時候,儘量保邊緣,這類方法以NEDI方法為典型,缺點是速度比較慢。另一類是基於Patch的方法,首先建立一個低解析度Patch對應高解析度Patch的對映表,前期先把這個對映關係建立好,然後就只需要通過查詢對映表來進行超解析度操作了。如果建立的對映表足夠大,那就可以得到比較理想的超解析度結果,理論上講不論速度還是質量都比前一種方法要好。

  視訊影象智慧變比例縮放,是指通過分析影象視訊中的內容,在影象、視訊縮放的過程中,保留有內容的關鍵區域比例不變,而壓縮、擴充套件不重要的區域,這樣看起來縮放後的影象、視訊主要內容不會變形。基於影象的智慧縮放演算法比較成熟,基於視訊的由於要考慮視訊序列的前後幀的連續性,必須加入時間軸的約束,因此效果不如影象理想,做的不好會引出視訊的抖動問題。

  視訊幀插值,可以用來解決幀率變化的情況下,出現的視訊抖動問題,主要是一個視訊的全域性運動,類似於視訊抖動檢測,應該說技術上不復雜,但是視訊中的區域性運動會干擾全域性的運動估計,這樣插值出來的幀就會存在一定的瑕疵。

  影象視訊去噪,方法很多,簡單點通過濾波高頻訊號的方法如高斯濾波,或者簡單的中值濾波都可以有一定的效果,但是目前看來,最理想的方法還是非區域性均值***NLM***方法。其他的一些例如偏微分方程的方法也可以嘗試。

  五、人臉系列技術

  包括人臉檢測、跟蹤,人臉特徵點定位,人臉識別,人臉的表情識別,人的年齡、性別識別,人臉的美化,人臉卡通效果,人臉的變形效果,人臉的3D重建等以及與此相關的眼睛檢測和紅眼修復等。

  六、非真實感渲染***NPL***系列技術

  包括水墨畫、水彩畫、油畫、漫畫效果等人工畫效果,風、雪、雨、煙、霧、火焰、海浪等一些自然環境的模擬效果。

  人工畫效果的實現主要是基於Stroke的方式,難點在於影象的解析,一個好的人工畫效果,需要正確的將影象分解為不同的區域,並分析不同區域的結構特點來確定用筆方式、Stroke的精細度等引數。

  對自然環境的模擬,主要是一些粒子的模擬,可以採用基於物理模型的方式研究粒子的受力及運動方式,流體力學的相關方法是這個領域的核心。

  NPL技術,除了用於對影象、視訊的特效上,另外像一些煙霧效果和水墨畫效果用於藝術字的特效也是不錯的選擇。

  七、3D系列技術

  3D技術在視訊中的應用點,可以看到的有3D穩像、3D物件嵌入等等,這裡的關鍵是獲取攝像機的3D軌跡與視訊中的特徵點的3D深度資訊,通過視訊序列分析攝像機的3D軌跡的技術叫“Structure from Motion”,大量的文章可以參考。有了攝像機的3D軌跡與視訊中的特徵點的3D深度資訊,2維的影象資訊就一定程度擴充套件到了3維。全景圖的拼接技術,本質上也利用了基於雙目視覺3維重構的一部分技術。得到了3D攝像頭軌跡,可以利用這個資訊進行3D插幀,藉此虛擬重構雙目視覺畫面,通過3D眼鏡,就可以看到比較理想的3D場景了。3D的應用,可以想象的空間比較大,多了一維資訊,總可以做出一些新的東西。

  八、人機互動技術

  人機互動是指通過攝像頭捕捉人的手勢、身體的姿態、面部表情、眼睛的移動等資訊,代替傳統的滑鼠鍵盤來指導計算機做出相應的處理。技術層面主要涉及目標的檢測、跟蹤以及姿態的識別。相比之前提到的多媒體的各種方向,人機互動應該是最有市場前景的方向,應用點也非常多。

  九、結論:

  除了上述的這些技術方向之外,在此基礎上或者與這些技術相關的一些其他的應用也可能不斷的出現,多媒體領域可以說是人工智慧的一個試驗田,很多即使不成熟的新技術都很可能首先在這個領域出現和發展。這個領域幾乎可以囊括影象視訊處理、模式識別的所有底層技術,必然可以衍生出很多很雜的應用點。

點選下頁還有更多>>>