デマをデマと見抜けない人はTwitterを使うのは難しい
- Twitterにおけるデマ検出手法を論じた研究が,ついにEMNLP2011に出てきたので紹介します.
- 論文:Rumor has it: Identifying Misinformation in Microblogs[Qazvinian et al., 2011]
- Twitter上のデマに関する興味深い統計情報も幾つか含まれているので,興味のある方は一読されると良いかと思います.
概要
- 噂と噂に関連するツイートを検出すると同時に,その噂の信頼度を推定
- 様々な特徴量を用いて実験
- ツイートの文面を使って分類器を作るだけで,高い精度が実現可能!
- ただし,アノテートされたツイートを教師データとして使用
背景
- マイクロブログ上で噂は急速に広まる
- デマや誤情報は,企業にとって大きな障害となりうるので自動で特定したい
- この研究では,以下の手順でデマや誤情報を検出する
- 特定の噂に関して言及しているツイートを網羅的に取得 [Rumor Retrieval]
- 噂をどのくらいの割合の人が信じているか(噂の信頼度)を推定 [Belief classification]
問題設定/手法
タスク1:Rumor Retrieval
- 誤情報・デマを含むツイートを同定
- 高いpresicion/recall率が求められる
- 特定の噂に関してのツイート[presicion]を網羅的に[recall]取得したいため
- 標準的なIR手法では不十分
タスク2:Belief Classification
- タスク1で集めたツイートを,噂の支持度に応じて分類
- 噂を信じているツイート
- 噂に対し疑問を呈しているツイート
- 「噂」という正解が曖昧なものに対する評判分析
- こちらも手法を工夫する必要がある
利用したデータ
手法
- タスク1・2共にBayes Classifierによる尤度最大化
- L1-regularized log-linear model [Andrew and Gao, 2007] + QWL-QN [Gao et al., 2007]
- 用いる特徴量を色々変化させ,実験を行う
Content-based Features
- 単語情報 [TXT1 : unigram] [TXT2 : bigram]
- 品詞情報 (+HASHTAG/URL) [POS1 : unigram] [POS2 : bigram]
Network-based Features
- RTした側のユーザーは,噂に対してPositiveかNegativeかという情報
- RTされた側のユーザーは,噂に対してPositiveかNegativeかという情報
Twitter Specific Memes
- Hashtag
- URL [URL1 : unigram] [URL2 : bigram]
実験結果
- Rumor Retrieval / Belief Classification共に,Content-based Featuresが高性能
- F値 : 約95% (Rumor Retrieval) / 93.2% (Belief Classification)
- 全特徴を入れて実験した場合も大体同じ結果
- 教師データの数に応じてPresicionがどのように変化するかを実験 (Figure 2)
- 教師データが全くない(新規のデマ検出)場合は,Presicionは約60%