Bandit Feedback下での多クラス分類アルゴリズム
ICML2011のMulticlass Classification with Bandit Feedback using Adaptive Regularizationをざっくりと読んだのでメモ.
論文
概要
Bandit Feedback
Bandit Feedbackとは?
多クラス分類問題に関連する実タスクでは,多くの場合正解ラベルは明示的に与えられない.
- Ex. 多クラス分類問題によるリコメンデーションを実装したとき,ユーザーが本当はどの商品をリコメンドして欲しかったかどうかは分からず,リコメンドされた商品を購入したかどうかしか分からない.
このような環境を,Bandit Feedbackと呼ぶ.
アルゴリズム
不確実性スコアの導入
入力データに対するスコアの不確実性を示すスコアを導入
この値が大きいほど,で導出されるパラメータへの信頼度が低い
具体的には,
は,exploration, exploitationの調整パラメータ. は,second-order perceptronの共分散行列(厳密には,second-order perceptronとは,パラメータの更新方法が異なる).
で定義
Upper-Confidence Bound
つまり, 分類スコア+不確実性スコアが最大のものを予測に利用.
Previous work
Banditron[Kakade+ 2008, ICML], [Wang+ 2010, AISTAT]
その他
Algorithmの詳細やRegretの証明,実験結果が載っています.