本文要介紹的 mean teachers 是一種半監督學習的方法,主要的目標是改進前文提到的 temporal ensembling 方法。在 temporal ensembling 中每次 epoch 的 是從以前所有 的加權平均來計算的,這個方法的問題是當資料的數量很多時,系統無法將所有過去的 \(z_i\) 記錄下來。mean teachers 改進的思路是:與其加權平均過去的 feature embedding,不如加權平均過去的模型參數,也就是下圖中的 teacher model。
以上為一些關於此方法的筆記:
- Loss function 仍然是由 classification cost(由有 label 的資料算出)及 consistency cost(由所有的資料算出)。
- 每個 step 都用 loss function 更新 student model 的參數,再用 student model 的參數計算加權平均得到 teacher model 的參數。
- \(\eta\) 及 \(\eta'\) 為 data augmentation 的 noise。
沒有留言:
張貼留言