2012年11月17日 星期六

Bag of Block-Based Visual Words for Image Retrieving and Classification


課程: 論文研討()
日期 : 2012/11/16
時間 : 13:50 ~ 15:30
學生 : 資傳研二 溫千力
演講者義守資工系 郭忠民 教授

心得報告:

    當尋找特定圖片時,若是以文字進行搜尋並無法得到想要的圖片,因此研究方向以圖片搜尋圖片,所搜尋到的圖片能接近於使用者想要的結果。要以圖片搜尋圖片,必須先分析圖片的紋理特性,將紋理特性視為visual word,如同將圖片視為文件,以關鍵字進行搜尋感興趣的文件一樣,而visual word該如何表達以及採用的數量多寡界是需要思考的問題。

SIFT用來偵測與描述影像中的局部性特徵,它在空間尺度中尋找極值點,並提取出其位置、尺度、旋轉不變數局部影像特徵的描述與偵測可以幫助辨識物體,對於光線、雜訊、些微視角改變的容忍度也相當高。基於這些特性,它們是高度顯著而且相對容易擷取,在母數龐大的特徵資料庫中,很容易辨識物體而且鮮有誤認。但會因為背景而導致偵測錯誤,因此研究不採用SIFT

研究以4×4區塊分割的方式來擷取影像內容具代表性的特徵,與SIFT相比較簡單容易且有效,並加入巨觀與微觀的概念,建立出巨觀視覺字典與微觀視覺字典,巨觀微觀字典以不同比例進行搜索時,可找到不同類型的照片,以相似性、差異性histogram(並非灰階值而是visual word)進行比對。利用影像檢索來驗證訓練視覺字典,觀察其特徵描述子是否能正確的描述出影像,以ARRANMRR的實驗結果顯示此研究所訓練的視覺字典具有描述能力,也進一步將視覺字典應用在影像分類上。

就數據而言,系統在進行搜尋時能得到很好的結果,但是在自己蒐集的圖片資料庫中進行搜索,若是資料庫擴大,增加影像內容更複雜的照片,不曉得是否有一樣的成效。

沒有留言:

張貼留言