kisa12012の日記

適当な仕事をしている注釈者を発見せよ！

研究

NIPS2011の論文を紹介していくコーナー．
今回対象とする論文は，Ranking annotators for crowdsourced labeling tasks．

概要

本論文は，標本のラベル付を複数人にしてもらう時に，標本をきちんと見ず，適当な注釈を行なっている人を見付け出すためのスコアリングを提案しています．
Mechanical Turk等のクラウドソーシングで今後必要になりそうなテーマですね．
本論文では，このような適当な注釈者をスパマーと呼び，スパマーを効率的に見つけ出すためのランキング手法を提案しています．

手法

2クラスの場合と多クラスの場合について議論していますが，今回は2クラスの場合を簡単に紹介します．
スパマーはコイン投げと同じようにラベルを選んでいるため，P(注釈者のラベル|真のラベル)が0.5になります．[α,β]
一方で，仕事が出来る注釈者は上の確率が1に，悪意を持った注釈者は確率が0に近づきます．
この性質を利用し，スパマーはスコアが0に，その他の注釈者は1に値が近づく様なスコアリング手法を設計したのが(3)式となります．
- 今回はバイアスのないコイン投げを仮定しましたが，(3)式の定義からバイアスを持ったコイン投げの場合も同様にスコアが0に近づきます．

ここで，悪意のある注釈者と仕事のできる注釈者のスコアが同様に1に近づくことに疑問を持つところですが，悪意のある注釈者がいた場合，その注釈者のラベルを反転させれば有用な情報となりえます．
- 最終的な情報価値では，スパマーの方がいらない子，となるわけです．

スコアリングの定義をした後に，真のラベルyの値，α,βの値，そして(3)式のスコアSの値を求めるため，EMアルゴリズムを用います．
論文中にはEMアルゴリズムの定式化について記載していませんが，Learning from Crowds(MLR 2010)と同じ定式化となります．
1. E-step : スコアに基づき各注釈者を重み付けして，真のラベルyを改善
2. M-step : 真のラベルyから，新たな条件付き確率α,β，そしてスコアSを再計算

実験

人工データとMechanical Turkで実験しており，スパマーを上手く抽出出来ていることを確認しています．

感想

モデル化は，Learning from Crowdsの素直な改良．
とにかく読みやすい．