Twitterの被RT数を増やすには

恒例の現実(論文)から逃避するためのブログ執筆です.
WWW2011のBest Poster Awardを受賞した"Predicting Popular Messages in Twitter" [Hong+, 2011] を読んだのでそのメモを書き留めます.

結果から言ってしまうと,

  • Follower数を多くすればいいよ!
  • 被RT数を多くすればいいよ!
  • あなたが超有名人じゃなければ,その時々の流れに乗るのも大切だよ!

とまあ,当たり前だよねーって結果が示されています.
ただ,実験の仕方で色々参考になったところが多いので,紹介しておきます.

以下,メモ

概要

  • 大量RTされるつぶやきの予測・抽出を試みた論文
  • 分類問題として,定式化.大量RTされるつぶやきの傾向を探った
  • Follower数,被RT数の多い人のつぶやきは,RTされやすいよ!
  • 有名人じゃない人は,時々に盛り上がっているネタに乗れるかどうかもRT数を上げるコツ!

動機

  • ソーシャルネットワーク全盛期の問題点
    • ネットワーク数の少ない人ですら,情報過多
    • かつ,重要な情報は漏れがち
      • 多くの人にRTされるような,重要なつぶやきをリコメンド出来ると便利
    • つぶやきの重要性を図る方法が必要
  • 分類問題として定式化.有用な特徴を分析

実験

  • 2009/11-12の10,612,601つぶやき(2,541,178ユーザー)データを使用
  • タスク1:2値分類 - RTされるか否か?
  • 教師データ
    • positive : RT Chainの各つぶやき(葉のつぶやきを除く)
    • negative : その他
  • タスク2:多クラス分類 - 何人の人にRTされるか?
    • RT数を直接推定するのは困難→多クラス分類
    • 分類器は,ロジスティック回帰
  • クラス分け
    • クラス0 : Non RT
    • クラス1 : less than 100RT
    • クラス2 : less than 10000RT
    • クラス3 : more than 10000RT
  • 予測に有用な特徴も調査
    • つぶやきの文章(TF-IDF)
    • つぶやきのトピック(LDAで推測)
    • ユーザーネットワーク
      • 次数分布(degree distribution)
      • PageRank
      • 局所的クラスタ係数(Local clustering coefficient)
      • 相互リンク(reciprocal link)
    • 時間情報
      • RT Chainの最初の発言から経過した時間
      • RT Chain : "RT"でつながっているつぶやき全てを時系列順に並べたもの
      • 前の発言から経過した時間
      • RT Chain中の平均つぶやき時間間隔
      • 同じRT Chainにおいて,RTされるまでの平均時間
    • その他,メタ情報
      • RTの有無 (Retweet Before)
      • 被RT数(User Retweet)
      • 全つぶやき数(User Activities)

結果

  • タスク1:2値分類
    • 一番性能が良かったのは,以下の組み合わせ (Precision 99.3%, Recall 43.5%)
      • TF-IDF
      • LDA Topic
      • degree distribution
      • Retweeted Before (以前にRTされているかどうか)
      • User Retweet
    • 特に,degree distributionとRetweeted Beforeは予測上重要
  • タスク2:多クラス分類
    • クラス0とクラス3の分類精度は非常に高い (Accuracy : About 99%)
      • (まあそうでしょう…)
    • 時間情報を特徴に入れると,クラス1,2の精度が上がるが,クラス3の精度は下がる
      • RT数が少ないつぶやきは,一時的な波に乗れるかどうかがRT数を決まる重要な要素