基於OpenCL的尺度不變特徵變換演算法的並行設計與論文

基於OpenCL的尺度不變特徵變換演算法的並行設計與論文

  針對尺度不變特徵變換(SIFT)演算法實時性差的問題,提出了利用開放式計算語言(OpenCL)並行最佳化的SIFT演算法。首先,透過對原演算法各步驟進行組合拆分、重構特徵點在記憶體中的資料索引等方式對原演算法進行並行化重構,使得計算機網路演算法的中間計算結果能夠完全在視訊記憶體中完成互動;然後,採用複用全域性記憶體物件、共享區域性記憶體、最佳化記憶體讀取等策略對原演算法各步驟進行並行設計,提高資料讀取效率,降低傳輸延時;最後,利用OpenCL語言在圖形處理單元(GPU)上實現了SIFT演算法的細粒度並行加速,並在中央處理器(CPU)上完成了移植。與原SIFT演算法配準效果相近時,並行化的演算法在GPU和CPU平臺上特徵提取速度分別提升了10.51~19.33和2.34~4.74倍。實驗結果表明,利用OpenCL並行加速的SIFT演算法能夠有效提高影象配準的實時性,並能克服統一計算裝置架構(CUDA)因移植困難而不能充分利用異構系統中多種計算核心的缺點。

  0引言

  以尺度不變特徵變換(Scale Invariant Feature Transform, SIFT)演算法[1]為代表的基於特徵的影象匹配方法近幾年發展迅速,該演算法對光照、角度或尺度變化的影象都有較好的匹配精度和適應性,但實時性差。為了提高實時性,在此基礎上又衍生出了主成分分析(Principal Component Analysis, PCA)SIFT[2]、快速魯棒特徵(Speed Up Robust Feature, SURF)檢測[3]等改進演算法。這些改進的演算法儘管在速度方面有所提升,但實時性仍然不能滿足實際應用要求且在抗尺度和抗旋轉方面效能都有不同程度的下降,因此仍無法取代經典的SIFT演算法[4]。

  近年來隨著圖形處理器(Graphics Processing Unit, GPU)計算能力的不斷提升,利用GPU天然硬體並行的特性來加速非圖形通用大規模運算逐漸受到人們的青睞,目前較為成熟並得到廣泛應用的GPU並行程式設計模型為英偉達(NVIDIA)公司開發的統一計算裝置架構(Compute Unified Device Architecture, CUDA)模型。文獻[5-7]利用CUDA實現了SIFT演算法關鍵步驟的GPU並行加速,取得了一定的加速效果。文獻[8-9]在移動GPU平臺上利用開放式計算語言(Open Computing Language, OpenCL)實現了SIFT演算法的並行加速,相對於移動中央處理器(Central Processing Unit, CPU)取得了4.6~7.8倍的加速效果。另外,完成同樣的計算,GPU比CPU的功耗低87%,即利用OpenCL實現的GPU並行運算相對於傳統的CPU具有更高的效能功耗比,但以上方法大多采用步驟分離的最佳化,沒能充分利用GPU全域性記憶體以及演算法各步驟的中間計算結果,加速效果受視訊記憶體頻寬的制約。

  另外利用CUDA實現的演算法只適用於NVIDIA顯示卡,移植困難,而目前的計算機系統大多是“CPU+協處理器”的異構系統[10],這使得CUDA無法充分利用異構系統中不同型別的計算核心。具有跨平臺特性的開放式並行程式語言OpenCL的出現為解決此問題提供了契機,利用OpenCL設計的並行演算法能夠在CPU+(GPU、數字訊號處理器(Digital Signal Processor, DSP)、現場可程式設計門陣列(FieldProgrammable Gate Array, FPGA)等異構系統間移植[11-12],該特性使得經OpenCL最佳化的演算法能夠擺脫對硬體平臺的依賴。自2010年OpenCL1.1釋出以來,對OpenCL技術的應用研究逐漸興起。陳鋼等[13]對OpenCL記憶體操作作了深入的分析;Yan等[14]利用OpenCL實現了SURF演算法的並行加速。OpenCL程式設計相比CUDA更為複雜[15],在軟體開發方面也面臨更多的挑戰和困難,目前在PC平臺上還沒有利用OpenCL並行最佳化的SIFT演算法出現。

  針對以上問題,本文對SIFT演算法步驟及資料索引方式進行重構,提高其並行度,然後透過最佳化記憶體讀取、合理利用OpenCL記憶體層次等策略對該演算法進一步最佳化,在NVIDIA GPU平臺上實現了SIFT特徵的快速提取。為研究OpenCL的可移植性,將最佳化的GPU版本移植到Intel雙核CPU平臺上,實驗表明最佳化後的演算法在兩種計算平臺上的實時性都有一定提升。

  1SIFT特徵提取演算法流程

  SIFT演算法最早由Lowe[1]在1999年提出並於2004年完善,由於其良好的匹配特性,目前已得到廣泛研究與應用。SIFT特徵點提取實質是在不同尺度空間上查詢關鍵點(特徵點),演算法基本步驟如下。

  1)尺度空間構建。

  2)高斯差分金字塔空間構建。

  3)DOG空間極值點檢測。

  DOG空間極值點檢測就是將DOG影象中每個畫素與它同尺度的8鄰域點及上下相鄰尺度對應的9×2個鄰域點進行比較,若為極值點則作為候選特徵點,記錄其位置和對應的尺度。為獲得更精確的特徵點位置,在候選特徵點處進行泰勒展開,得到式(4):

  D(x)=D+DTxx+12xT2Dx2x(4)

  其中:關鍵點偏移量為x此處的偏移量x,與後面的x的命名重複,不太規範,因一篇論文中,一個變數僅能代表一個含義,若包括兩個含義,則指代不清晰,是否可以用另一個變數對此進行說明?

  回覆:這兩個變數x是使用字型來區分的,一個是粗斜體表示向量,一個是細斜體,表示普通變數。是可以區分的。

  這個公式是經典文獻[1]中此演算法的原作者提出的公式,也是用這種方式表述的。為保持統一,所以我覺得可以不用修改。=(x,y,σ)T;(x,y,σ)在該極值點處的值為D;令D(x)x=0,可透過式(5)求得極值:

  =-2D-1x2Dx(5)

  在Lowe[1]的文章中當在任意方向上的偏移量大於0.5時,認為該點與其他關鍵點很相似,將其剔除;否則保留該點為候選特徵點,並計算該點對應的尺度。

  4)特徵點主方向計算。

  5)SIFT特徵向量生成。

  將特徵點鄰域內影象座標根據步驟4)計算出的特徵點主方向進行旋轉,使得特徵向量具有旋轉不變性,旋轉後以特徵點為中心劃分成4×4個子區域,在每個子區域內計算8方向的梯度方向直方圖,即可構成4×4×8共128維SIFT特徵向量。

  2SIFT演算法的並行化重構

  OpenCL標準將核心可用的記憶體分為私有記憶體、區域性記憶體和全域性記憶體/常量記憶體等型別[16],所以在利用OpenCL最佳化演算法時,充分挖掘GPU記憶體的儲存層次,合理分配工作組大小是提高並行運算效率的關鍵[17]。為提高演算法並行度方便資料劃分、降低記憶體頻寬要求,本文對SIFT演算法作了以下重構。

  1)步驟合併。將構造尺度空間、建立高斯金字塔及極值點檢測三步驟統一設計,目的是充分利用OpenCL的global memory和local memory的訪問機制,使得這3個步驟的中間計算結果最大限度地在視訊記憶體中完成互動,減少記憶體與視訊記憶體間的資料交換次數,隱藏頻寬延時。

  2)步驟拆分。將極值點定位分為極值點座標檢測和極值點精確定位兩步:第1步只返回極值點座標,目的是輔助主機端完成記憶體分配;第2步完成極值點精確定位。

  3)重構資料索引。本文全面摒棄基於佇列的特徵點索引方式,而是採用線性儲存的方式管理特徵點集,這對OpenCL核心的工作項劃分、提高資料讀取效率以及降低記憶體訪問衝突都非常有效。

  4)任務細粒度並行。經過資料索引重構,在OpenCL的核心執行時,可方便地部署大規模的工作組和工作項,實現計算任務的細粒度劃分。經過以上設計後不僅能提高資料訪問速度,而且能夠避免潛在的記憶體訪問衝突。

  3SIFT演算法的OpenCL實現

  圖1為並行設計的SIFT特徵提取流程。整個設計充分利用全域性記憶體以降低資料傳輸延時。主機端首先分配相應記憶體物件,然後依次入列高斯模糊、DOG金字塔和極值點檢測3個OpenCL核心,完成後即可生成尺度空間和DOG金字塔,從全域性最佳化考慮,將這兩部的結果駐留在全域性記憶體中,只返回經壓縮的極值點座標。接著按序執行極值點精確定位、特徵點方向計算和特徵向量生成3個步驟,計算完成後即完成特徵提取全過程。整個流程僅有返回極值點座標和返回特徵點結果兩次讀回操作,其餘的中間結果全部在視訊記憶體中完成互動,提高資料利用率,降低視訊記憶體頻寬要求。

  3.1高斯模糊+DOG+極值點檢測核心設計

  深入發掘演算法的並行潛力,充分利用OpenCL的記憶體層次、合理配置工作項數量和工作組大小是效能提升的關鍵,也是核心設計的難點。

  3.1.1高斯濾波核心設計及工作項分配

  為降低計算量,將二維高斯變換分解為沿水平和垂直方向的一維變換,分解後可減少(N2-2×N)×W×H次乘法運算(N為高斯核大小,W、H為影象的寬和高)。由於每個畫素相互獨立,所以在NDRange函式入列高斯濾波核心時將工作項大小設定為W×H-N,即每個工作項完成一個畫素的卷積。另外,進行卷積時相鄰畫素(圖2黑實線框內資料)要重複讀取圖2灰色部分的資料,為提高讀取效率,本文透過配置工作組,實現原始資料在區域性記憶體中共享。圖2為水平高斯核寬度為7、工作組大小設定為8時的資料分配,圖2表示每8個工作組讀取14個數據,完成8個點(圖2黑虛線框內資料)的卷積運算。

  在工作組內共享區域性記憶體通常能提高計算效能,但並不絕對[18]。為找到工作組的最佳大小,本文測試了不同工作組大小時,寬度為11的高斯核對解析度為1280×960的圖片進行水平卷積的耗時,測試結果如圖3所示。隨著工作組的增大,耗時逐漸減少,當工作組大於128後,耗時基本不再改變,又因為區域性記憶體的限制,工作組不宜太大,於是本文將工作組大小配置為128。如此設計需考慮同一工作組中工作項的同步化問題,本文采用OpenCL提供的barrier(CLK_LOCAL_MEM_FENCE)障礙函式來實現,垂直濾波與此類似,不再贅述。

  3.1.2DOG金字塔構建

  此步驟的核心有兩種設計方法:1)一次入列核心,只將高斯金字塔相鄰兩層相減,得到一層DOG影象;2)一次入列核心,將高斯金字塔整組影象傳入核心,計算完成後即可得到一組DOG影象。

  經實驗發現,第2種方法資料利用率高,耗時較短。又因為高斯金字塔每組層數固定,所以第2種設計的引數也固定,於是本文采用第2種設計方法,資料劃分如圖4所示。為進一步提高運算效率,對資料的運算都以float4型向量進行,共配置(W×H+3)/4個工作項,即每個工作項完成一組高斯金字塔對應位置(圖4單個虛線框內資料)的float4型向量相減。

  3.1.3極值點檢測及核心精確定位

  入列極值點精確定位核心前,主機端需預先分配記憶體,而事先並不知道需要為多少個特徵點分配記憶體,所以本文將極值點檢測和精確定位作為兩個核心先後入列,為減少資料傳輸,極值點檢測核心只返回壓縮的極值點座標陣列。

  極值點檢測核心計算完成後,根據返回的極值點座標在CPU端統計極值點位置和個數N,然後為N個特徵點分配記憶體,如圖5所示(實際分配1.5×N個,Lowe[1]文中指出實際的特徵點數會是極值點數N的1.15倍左右)。圖5中每個虛線框用來儲存一個特徵點的完整資訊。最後入列極值點精確定位核心,每個極值點配置一個工作項,計算出的精確座標按工作項索引存入圖5對應的位置。

  3.2計算梯度方向直方圖

  至此,已經得到每個特徵點的座標、尺度,並按線性儲存在圖5所示的全域性記憶體中。因為每個特徵點在記憶體中按線性排列,相互獨立,所以為每個特徵點配置一個工作組來計算梯度方向直方圖,工作組分配如圖6(a)所示。將工作組內工作項設定為2維,為確定工作組最佳大小,本文嘗試了{1,RAD}、{2,RAD}、{4,RAD}、{8,RAD}四種方式,經測試{2,RAD}效果最好(其中RAD為特徵點的鄰域寬度)。當RAD=5時,每個工作組分配10個工作項,工作組中的資料分配如圖6(b)所示,圖6(b)中標有相同數字的畫素被同一工作項處理。為實現資料共享,在工作組local_memory中構建方向直方圖,這時必須使用OpenCL提供的atomic_add原子累加操作才能保證多個工作項同時累加直方圖同一位置時不會出錯。直方圖生成後統計出大於直方圖極值80%的點的個數和角度,作為獨立的候選特徵點,將結果填入圖5中對應的位置。

  3.3特徵向量生成

  計算出特徵點主方向後,即可入列特徵向量生成核心,因資料重構後各特徵點在記憶體中線性儲存且可獨立計算,所以為每個特徵點分配一個工作組。又因每個特徵點鄰域被劃分為4×4個子區域,所以為每個工作組配置16個工作項分別計算每個子區域的8個方向,資料劃分如圖7。圖7中每個箭頭的長度表示每個方向的梯度累計值,箭頭越長代表值越大。所有工作組計算完畢後,整個SIFT特徵提取演算法執行完畢,提取出的特徵點全部儲存在圖5所示的線性記憶體中。

  利用以上方法對兩幅圖片進行特徵提取後,即可利用歐氏距離準則完成兩幅圖片特徵點的粗匹配,然後用隨機抽樣一致(RANdom Sample Consensus, RANSAC)演算法對粗匹配對進行提純,計算得到兩幅圖片之間的變換矩陣,完成兩幅圖片的匹配。

  4最佳化後的演算法在CPU上的移植

  為進一步驗證OpenCL的可移植性並比較OpenCL在不同平臺上的加速效能,本文將最佳化後的OpenCL_GPU_SIFT演算法移植為能在CPU上執行的OpenCL_CPU_SIFT版本。儘管OpenCL具有跨平臺特性,但由於硬體資源的差異,仍需注意以下兩點:

  1)本文采用的Intel core i5 3210m CPU不支援OpenCL 32位原子操作,所以在3.2節的核心設計中無法使用atomic_add原子累加操作,只能將3.2節的'工作組大小配置為1,此時每個工作組中只有一個工作項,因而不能實現區域性記憶體共享。

  2)工作組中工作項的數量上限一般受限於兩點:一是裝置所能提供的資源數,二是核心所需的資源數,這裡的資源主要指的是區域性記憶體。針對3.2節的核心,GT635m GPU的區域性記憶體為47KB(K表示×1024),工作組上限為512,而Intel 3210m CPU的區域性記憶體只有32KB(K表示×1024),工作組上限為352,所以工作組大小一定要根據硬體平臺來設定,這點尤為重要。針對以上兩點修改後得到的OpenCL_CPU_SIFT版本即可運行於Intel 3210m CPU中,可見OpenCL具有較好的可移植性。

  5實驗結果及分析

  5.1實驗平臺

  本實驗的實驗平臺CPU為Intel Core i5 3210m,雙核心四執行緒,2.5GHz;GPU採用NVIDA GeForce GT 635m,核心頻率660MHz,96個流處理器單元,128位匯流排寬度;開發環境為Vs2013,OpenCV版本2.4.9,OpenCL版本1.1。

  5.2實驗方法

  本文實驗的程式碼是在Rob Hess維護的SIFT演算法(http://robwhess.github.io/opensift/,本文稱之為CPU_SIFT)的基礎上修改而來。實驗分別測試並行化的OpenCL_CPU_SIFT和OpenCL_GPU_SIFT這兩個版本用時,並與未最佳化的CPU_SIFT版本用時作比較分別計算兩個版本的加速比。實驗選取a,b兩組圖片。a組有a1~a5共5幅圖片,b組有b1~b4 4對共8幅圖片。為使實驗結果更具有參考性,其中a1選取Rob Hess採用的behavior圖,解析度為320×300;a2選取國際通用的Lena圖,解析度為512×512;a3此處是否描述有誤?即a2~a5,共4幅影象,而後面的描述中卻有3幅,所以請作相應調整。~a5為利用CCD攝像頭獲取的3幅紋理從簡單到複雜的測試圖片,解析度分別為960×720、1280×960、2560×1440。另外為了測試最佳化後的演算法對不同圖片的適應性,b組圖片選取4對有角度、光照和尺度變化的圖片,解析度統一為1280×960。

  5.3實驗結果

  在與原CPU_SIFT演算法匹配效果一致的情況下,各圖片的耗時如表2所示,利用OpenCL最佳化後的CPU版本和GPU版本的加速比最大分別為4倍和19倍左右,如圖8所示。這表明OpenCL不僅具有優秀的平行計算能力,而且具有較好的跨平臺特性,這也是OpenCL相對於CUDA的一大優勢。

  透過對比表1和表2可知,本文在PC平臺實現的SIFT演算法的加速比比文獻[9]中實現的加速比更高,特別是當影象解析度較大時,本文實現的加速比會進一步增大。這主要是因為兩點:1)資料量越大,越能充分發揮GPU並行運算的能力,越能隱藏資料傳輸延時;2)由於移動處理器架構的限制,文獻[9]只針對SIFT特徵點檢測部分進行了最佳化,而本文則是對整個SIFT演算法流程進行統一最佳化,充分利用了GPU的全域性記憶體,資料讀取效率更高。另外,透過對比進一步證明了OpenCL對移動平臺和PC平臺都具有廣泛的適用性,再次說明OpenCL具有較好的可移植性和跨平臺性。

  圖9為本文演算法對a組影象的特徵提取結果。由圖9可知,最佳化的演算法對影象處理領域常用的Lena圖和behavior圖都能有效地提取特徵點,a3~a5三張圖片的紋理由簡單到複雜,最佳化後的演算法均能有效提取特徵點。在b組圖片中,b1的兩幅圖片有角度變化,b2有光照變化,b3既有角度又有光照變化,b4的角度、光照和尺度均有變化,匹配結果如圖10所示。綜合圖9和圖10的實驗結果可知,最佳化後的演算法對不同解析度、不同紋理複雜度的影象都能提取穩定的特徵點,對具有角度、光照和尺度變化的影象都能正確匹配,這表明並行化後的演算法對各種圖片都有較好的適應性。

  為進一步分析不同平臺不同資料規模對OpenCL加速效能的影響,針對a3、a4和a5三幅不同解析度的影象,本文分別統計了最佳化後的GPU和CPU版本各步驟的加速比,結果如圖11和圖12。圖11和圖12中步驟1為高斯模糊+高斯差分金字塔生成,步驟2為極值點定位,步驟3為計算方向直方圖,步驟4為特徵向量生成。對比圖11和圖12可知,無論是GPU還是CPU平臺,最佳化後,高斯模糊+高斯差分金字塔生成步驟加速比都最大,GPU版本甚至達到了50倍,這是因為該步驟中各工作項資料獨立無分支,並行度高。而極值點定位步驟有大量的選擇判斷語句,並行度較差,閆鈞華等[19]將此步驟放在CPU端執行,本文將此步驟一併最佳化,速度有一定提升但不夠理想,這是因為在並行程式設計中無論CPU還是GPU都受分支語句的影響,GPU尤其如此。另外,與圖11不同,圖12中的三條曲線無交叉,隨著圖片解析度的增大各步驟的加速比都逐步增大,說明資料規模越大越能發揮並行運算的優勢。另外OpenCL_CPU_SIFT版本的特徵向量生成步驟比計算方向直方圖步驟的加速效果更好,這是因為前者透過工作組共享區域性記憶體能充分利用CPU的L1 cache,從而提升運算效能。

  6結語

  本文對SIFT演算法進行合併、拆分和資料重構等並行化設計,改善提高了演算法的並行度,並透過合理設定工作組和工作項大小,充分利用記憶體層次等方法對演算法進一步最佳化。利用OpenCL並行程式語言的跨平臺特性,本文分別在NVIDIA GPU和Intel CPU平臺上對該演算法進行並行最佳化,分別取得了10.51~19.33和2.34~4.74倍的加速,並利用OpenCL的可移植性解決了CUDA對硬體平臺的依賴問題。本文的研究內容及結果可應用於提升遙感影象拼接、醫學影像配準和流水線工件定位等領域的影象匹配速度。

  目前本文的最佳化方法在同一時刻只將OpenCL核心入列到CPU或者GPU中,即同一時刻只能充分利用CPU或GPU的計算能力,接下來本文將進一步研究異構系統中不同平臺間的並行性,將可並行執行的核心同時入列到CPU和GPU中執行,進而擴充套件到多核多CPU和多GPU的複雜異構系統中,進一步提高演算法的執行速度。

最近訪問