kisa12012の日記

デマをデマと見抜けない人はTwitterを使うのは難しい

研究

Twitterにおけるデマ検出手法を論じた研究が，ついにEMNLP2011に出てきたので紹介します．
論文：Rumor has it: Identifying Misinformation in Microblogs[Qazvinian et al., 2011]
Twitter上のデマに関する興味深い統計情報も幾つか含まれているので，興味のある方は一読されると良いかと思います．

概要

噂と噂に関連するツイートを検出すると同時に，その噂の信頼度を推定
様々な特徴量を用いて実験
ツイートの文面を使って分類器を作るだけで，高い精度が実現可能！
- ただし，アノテートされたツイートを教師データとして使用

背景

マイクロブログ上で噂は急速に広まる
デマや誤情報は，企業にとって大きな障害となりうるので自動で特定したい
この研究では，以下の手順でデマや誤情報を検出する
- 特定の噂に関して言及しているツイートを網羅的に取得 [Rumor Retrieval]
- 噂をどのくらいの割合の人が信じているか（噂の信頼度）を推定 [Belief classification]

問題設定／手法

タスク１：Rumor Retrieval

誤情報・デマを含むツイートを同定
高いpresicion/recall率が求められる
- 特定の噂に関してのツイート[presicion]を網羅的に[recall]取得したいため
- 標準的なIR手法では不十分

タスク２：Belief Classification

タスク１で集めたツイートを，噂の支持度に応じて分類
- 噂を信じているツイート
- 噂に対し疑問を呈しているツイート
「噂」という正解が曖昧なものに対する評判分析
- こちらも手法を工夫する必要がある

利用したデータ

Twitter API + 正規表現(Regexp)で噂に関連するツイートを網羅的に取得
- 手作業で高recallとなる正規表現(Regexp)を記述
教師データを作成するため，上で集めたツイートをアノテート (10400tweets)

手法

タスク１・２共にBayes Classifierによる尤度最大化
- L1-regularized log-linear model [Andrew and Gao, 2007] + QWL-QN [Gao et al., 2007]
用いる特徴量を色々変化させ，実験を行う

Content-based Features

単語情報 [TXT1 : unigram] [TXT2 : bigram]
品詞情報 (+HASHTAG/URL) [POS1 : unigram] [POS2 : bigram]

Network-based Features

RTした側のユーザーは，噂に対してPositiveかNegativeかという情報
RTされた側のユーザーは，噂に対してPositiveかNegativeかという情報

Twitter Specific Memes

Hashtag
URL [URL1 : unigram] [URL2 : bigram]

実験結果

Rumor Retrieval / Belief Classification共に，Content-based Featuresが高性能
- F値 : 約95% (Rumor Retrieval) / 93.2% (Belief Classification)
- 全特徴を入れて実験した場合も大体同じ結果
教師データの数に応じてPresicionがどのように変化するかを実験 (Figure 2)
- 教師データが全くない(新規のデマ検出)場合は，Presicionは約60%

関連研究

噂（デマ・誤情報含む）の検知と分析

マイクロブログ上の噂の分析 [Ratkiewicz et al.,2010]
引用を用いたネット上の噂の同定 [Leskovec et al., 2009]
"Truthy"システム．誤情報を含むTwitter上の政治ネタの同定 [Ratkiewicz et al.,2010]
2010年のチリ地震時のTwitterユーザー動向の分析 [Mendoza et al., 2010]
- RTネットワークトポロジーから，ニュースと噂の情報伝達パターンの違いを分析

評判分析

機械学習手法による映画評判分析 [Pang et al., 2002]
Usenetでのユーザー極性分析 [Hassan et al.,2010]
- 教師ありマルコフモデル，POS-tagger，依存パターンを使用
ニュースやブログ記事の評判スコア推測 [Godbole et al., 2007]
- 自動P/N word検出
評判分析サーベイ[Pang and Lee, 2008]
ミーム同定 [Leskovec et al., 2009]

Twitter データマイニング

NLP. information diffusionに関連するTwitterデータを用いた研究 [Bifet and Frank. 2010]
評判分析用のコーパス作成 [Pak and Paroubek, 2010]