能動学習入門的な話をしました

修論の原稿提出と国際学会の論文締切が1日違いなため,両方の作業を同時で進める日々を送っております今日この頃,皆様いかがお過ごしでしょうか.
今回は,先日PFIセミナーにて発表しました能動学習入門的な話の補足を少し述べたいと思います.
(レイアウトが崩れている場合,スライドをダウンロードしてから開くと治る可能性が高いです.)

発表のUstream

能動学習

能動学習とは,教師データを作成する際に最大の効果を発揮するように教師とするデータを選択する方法についての研究分野であり,機械学習の一分野です.一般的にデータに正解を振るのは高いコストが要求されるため,どのデータに正解ラベルを付与すればより高精度な学習器が作成出来るか,を知る事が出来ればラベル付けのコストが格段に低減できます.基本的な枠組み・手法については,上のスライドで説明しています.

能動学習の有効性

能動学習の有効性については,未だ各論あります.上記のスライドで説明した以外にも能動学習の問題点として,

  • 教師データを作成する毎に,与えられるデータがラベル付け困難なものとなる

という点もあります.
一方で,ラベル付けにかかるコストが大きな問題とならない場合でも,可能な限り少ない質問でユーザーの興味や性向を測りたい場合にも能動学習が有効となるタスクも存在するかと思います.(Akinatorのようなイメージ)
タスクによって能動学習が有効な場合もあれば,大量に教師データを用意した方が有効な場合もある,というのが現状のようです.

理論研究

セミナーでは,能動学習の応用例に焦点を当てて近年の研究について紹介しました.一方で,理論面の研究に関しては,重要度重み付けを損失関数に施す事でサンプリングバイアスを解決できることを示すとともに,その他の重要な性質について考察しているImportance Weighted Active Learning[Beygelzimer+, 2009] やノイズのあるデータセットに対しても効率的な能動学習を可能とする手法である Agnostic Active Learning [Balcan+, 2008][Beygelzimer+, 2010] 等が挙げられます.ICML2009のTutorialでAgnostic Active Learningの概要が述べられています.また,これらの能動学習手法を実装したオンライン学習ソフトウェアとして,Vowpal Wabbitがあります.

総論として

能動学習を使用すべきか否か,という議論が出来ただけでも,このような技術の紹介をした価値があったかな,と思っています.発表の機会を頂いたことに感謝したします.