2021年12月31日 星期五

論文筆記:Deep Image Homography Estimation

前文介紹過了用 DLT 方法找兩張圖片的對應 homography 矩陣,這篇論文介紹的是用深度學習來解決這個問題。

Homography 矩陣是用來描述兩張圖片的對應關係,通常在以下情況下可以使用:

  1. 兩張圖片只有旋轉的關係
  2. 圖片中的物件主體為平面
  3. 圖片中皆為遠景,因此可以近似為平面

以下為本文 [1] 的架構圖:

Deep Image Homography Estimation

此類神經網路的輸入為兩個圖片的 patch,輸出為 homography 矩陣的參數。本文參考了 [2] 的結果,使用了四個角點的像素差 du 與 dv 來描述 homography 的關係,而不是直接用矩陣。這對於類神經網路來說是很合理的選擇,因為矩陣描述法中的參數包含了旋轉與平移,很難直接用一個網路來描述,而用四點的像素差所有的參數都是平移。

以下為訓練的過程:

Training

在訓練的過程中將圖片隨機取一個 patch,並隨機產生 homography 的四點參數,將圖片利用此 homography 變換成 step 4 中的圖片,再用一樣的座標來擷取圖片的 patch,這樣便擁有無限多的訓練資料。

本文提供了兩種輸出模型,一種為 classification,另一種為 regression,請參考下圖:

Regression HomographyNet 的輸出為八維的向量,而 Classification HomographyNet 的輸出為 8 * 21 維的向量,目的是對於每個角點提供 21 * 21 的 grid 中每一格都能有個 certainty/uncertainty 的值,這在許多應用或是除錯上是很重要的。以下為 Classification HomographyNet 輸出的示意圖(註:在實驗結果中 regression 方法比 classification 方法還要好):

參考資料