以區塊視覺字典為基礎的影像檢索及分類
課程: 論文研討(一)
日期 : 2012/11/16
時間 : 13:50 ~ 15:30
學生 : 資傳研一 李金龍
演講者 : 義守大學 資訊工程學系 郭忠民 教授
心得感想:
以演講者所敘述,有提到的攝取特徵方法
bag of words
是把圖片訓練成眾多的特徵點,再依分類放入字袋中。
SIFT
採樣區域進行檢測、特徵失量生成、特徵匹配搜索等。
CBIR
根據圖像中自動提取的原始特徵(如顏色、形狀、紋理等)的基礎上,從資料庫搜索出相似的圖像進行評估。例如:Google的圖像尋找圖像。
左圖中是bag of words生成與使用的步驟 (以我理解所敘...)
訓練特徵
1.眾多的圖像
2.特徵攝取放入字袋中
3.進行分類
4.分類後的標籤(類別)
特徵分類比對
5.待測的圖像
6.特徵攝取
7.尋找匹配的特徵
8.類別相似度的機率直方圖
左圖是HIFT特徵生成後的特徵描敘子,是以特徵點為中心取16*16的區域採樣,將採樣點與特徵點的相對方向通過高斯加權後歸入包含8個bin的方向直方圖,最後獲得4*4*8的128維特徵描述子。
特徵生成過程中,首先會建構尺度空間,檢測極值點,在把特徵點過濾並精確定位,為特徵點分配方向值,最後再生成特徵描述子。
演講者最後所使用方法使用了bag of words,以4×4區塊分割的方式擷取影像的特徵,還加入巨觀與微觀的概念,
建立出巨觀視覺字典與微觀視覺字典,最後在利用影像檢索來驗證視覺字典。
大致上簡單的圖像看起來結果都還不錯,複雜點的就開始有失誤的情況,所以還有待研究。
圖片來源: 網路