本文介紹的 key.net [1] 將傳統的 feature detector 與 learned CNN filter 結合起來,並利用不同 scale 取出的特徵結合在一起得到輸入圖片的特徵點。
本文的架構圖如下:
以下為上圖的一些細節:- Handcrafted features 為 Harris 及 Hessian。
- Learned features 為 CNN 搭配 batch normalization 與 ReLU。
- 本文的實驗結果為搭配一些 handcrafted features 能減少 learned features 的層數。
Multi-scale Index Proposal Layer
接下來要介紹本文的 loss function:
在經過 handcrafted 與 learned features 後,兩張輸入圖片 \(I_a, I_b\) 分別變成 \(R_a, R_b\)。接下來取出 local patch,並計算出此 patch 的加權平均座標 \(x_i, y_i\)。在訓練過程中 \(I_a\) 為原圖,\(I_b\) 為 \( H_{b,a} I_a\),也就是圖 a 經由 homography 變換後得到的圖片。Loss function 的概念是在兩張圖中每個 patch 的加權平均座標的相對關係必須是此 homography 變換,也就是以下式子:
另外 \(\alpha\) 為特徵圖的值,目的是將特徵點與非特徵點區隔開來。最後將不同 scale 的 index proposal layer 組合起來即為 loss function:
沒有留言:
張貼留言