Twitterの被RT数を増やすには
恒例の現実(論文)から逃避するためのブログ執筆です.
WWW2011のBest Poster Awardを受賞した"Predicting Popular Messages in Twitter" [Hong+, 2011] を読んだのでそのメモを書き留めます.
結果から言ってしまうと,
- Follower数を多くすればいいよ!
- 被RT数を多くすればいいよ!
- あなたが超有名人じゃなければ,その時々の流れに乗るのも大切だよ!
とまあ,当たり前だよねーって結果が示されています.
ただ,実験の仕方で色々参考になったところが多いので,紹介しておきます.
以下,メモ
概要
- 大量RTされるつぶやきの予測・抽出を試みた論文
- 分類問題として,定式化.大量RTされるつぶやきの傾向を探った
- Follower数,被RT数の多い人のつぶやきは,RTされやすいよ!
- 有名人じゃない人は,時々に盛り上がっているネタに乗れるかどうかもRT数を上げるコツ!
動機
- ソーシャルネットワーク全盛期の問題点
- ネットワーク数の少ない人ですら,情報過多
- かつ,重要な情報は漏れがち
- 多くの人にRTされるような,重要なつぶやきをリコメンド出来ると便利
- つぶやきの重要性を図る方法が必要
- 分類問題として定式化.有用な特徴を分析
実験
- 2009/11-12の10,612,601つぶやき(2,541,178ユーザー)データを使用
- タスク1:2値分類 - RTされるか否か?
- 教師データ
- positive : RT Chainの各つぶやき(葉のつぶやきを除く)
- negative : その他
- タスク2:多クラス分類 - 何人の人にRTされるか?
- RT数を直接推定するのは困難→多クラス分類
- 分類器は,ロジスティック回帰
- クラス分け
- クラス0 : Non RT
- クラス1 : less than 100RT
- クラス2 : less than 10000RT
- クラス3 : more than 10000RT
- 予測に有用な特徴も調査
- つぶやきの文章(TF-IDF)
- つぶやきのトピック(LDAで推測)
- ユーザーネットワーク
- 時間情報
- RT Chainの最初の発言から経過した時間
- RT Chain : "RT"でつながっているつぶやき全てを時系列順に並べたもの
- 前の発言から経過した時間
- RT Chain中の平均つぶやき時間間隔
- 同じRT Chainにおいて,RTされるまでの平均時間
- その他,メタ情報
結果
- タスク1:2値分類
- 一番性能が良かったのは,以下の組み合わせ (Precision 99.3%, Recall 43.5%)
- TF-IDF
- LDA Topic
- degree distribution
- Retweeted Before (以前にRTされているかどうか)
- User Retweet
- 特に,degree distributionとRetweeted Beforeは予測上重要
- 一番性能が良かったのは,以下の組み合わせ (Precision 99.3%, Recall 43.5%)
- タスク2:多クラス分類
- クラス0とクラス3の分類精度は非常に高い (Accuracy : About 99%)
- (まあそうでしょう…)
- 時間情報を特徴に入れると,クラス1,2の精度が上がるが,クラス3の精度は下がる
- RT数が少ないつぶやきは,一時的な波に乗れるかどうかがRT数を決まる重要な要素
- クラス0とクラス3の分類精度は非常に高い (Accuracy : About 99%)