kisa12012の日記

Twitterの被RT数を増やすには

研究

恒例の現実（論文）から逃避するためのブログ執筆です．
WWW2011のBest Poster Awardを受賞した"Predicting Popular Messages in Twitter" [Hong+, 2011] を読んだのでそのメモを書き留めます．

結果から言ってしまうと，

Follower数を多くすればいいよ！
被RT数を多くすればいいよ！
あなたが超有名人じゃなければ，その時々の流れに乗るのも大切だよ！

とまあ，当たり前だよねーって結果が示されています．
ただ，実験の仕方で色々参考になったところが多いので，紹介しておきます．

以下，メモ

概要

大量RTされるつぶやきの予測・抽出を試みた論文
分類問題として，定式化．大量RTされるつぶやきの傾向を探った
Follower数，被RT数の多い人のつぶやきは，RTされやすいよ！
有名人じゃない人は，時々に盛り上がっているネタに乗れるかどうかもRT数を上げるコツ！

動機

ソーシャルネットワーク全盛期の問題点
- ネットワーク数の少ない人ですら，情報過多
- かつ，重要な情報は漏れがち
  - 多くの人にRTされるような，重要なつぶやきをリコメンド出来ると便利
- つぶやきの重要性を図る方法が必要
分類問題として定式化．有用な特徴を分析

実験

2009/11-12の10,612,601つぶやき(2,541,178ユーザー)データを使用

タスク１：２値分類 - RTされるか否か？
教師データ
- positive : RT Chainの各つぶやき(葉のつぶやきを除く）
- negative : その他

タスク２：多クラス分類 - 何人の人にRTされるか？
- RT数を直接推定するのは困難→多クラス分類
- 分類器は，ロジスティック回帰
クラス分け
- クラス0 : Non RT
- クラス1 : less than 100RT
- クラス2 : less than 10000RT
- クラス3 : more than 10000RT

予測に有用な特徴も調査
- つぶやきの文章(TF-IDF)
- つぶやきのトピック(LDAで推測)
- ユーザーネットワーク
  - 次数分布(degree distribution)
  - PageRank
  - 局所的クラスタ係数(Local clustering coefficient)
  - 相互リンク(reciprocal link)
- 時間情報
  - RT Chainの最初の発言から経過した時間
  - RT Chain : "RT"でつながっているつぶやき全てを時系列順に並べたもの
  - 前の発言から経過した時間
  - RT Chain中の平均つぶやき時間間隔
  - 同じRT Chainにおいて，RTされるまでの平均時間
- その他，メタ情報
  - RTの有無 (Retweet Before)
  - 被RT数(User Retweet)
  - 全つぶやき数(User Activities)

結果

タスク１：２値分類
- 一番性能が良かったのは，以下の組み合わせ (Precision 99.3%, Recall 43.5%)
  - TF-IDF
  - LDA Topic
  - degree distribution
  - Retweeted Before (以前にRTされているかどうか）
  - User Retweet
- 特に，degree distributionとRetweeted Beforeは予測上重要

タスク２：多クラス分類
- クラス0とクラス3の分類精度は非常に高い (Accuracy : About 99%)
  - （まあそうでしょう…）
- 時間情報を特徴に入れると，クラス１，２の精度が上がるが，クラス３の精度は下がる
  - RT数が少ないつぶやきは，一時的な波に乗れるかどうかがRT数を決まる重要な要素