2011-01-01から1年間の記事一覧

Yahoo!のニュースコメント欄からスパムを排除するには

論文紹介のコーナー.*1 今回紹介するのは,KDD'2011のUnbiased Online Active Learning in Data Streams (Wei Chu, Martin Zinkevich, Lihong Li, Achint Thomas, and Belle Tseng). Yahoo! Labsのグループによる研究です.(その後,第一著者はMicrosoftへ…

適当な仕事をしている注釈者を発見せよ!

NIPS2011の論文を紹介していくコーナー. 今回対象とする論文は,Ranking annotators for crowdsourced labeling tasks. 概要 本論文は,標本のラベル付を複数人にしてもらう時に,標本をきちんと見ず,適当な注釈を行なっている人を見付け出すためのスコア…

WSDM 2012気になった論文リスト

WSDM2012のAccepted Paperが公開されています. http://wsdm2012.org/program/overview.html 最近,気になった論文リストしか書いていないですね・・. 何かエントリ書きます. How to Win Friends and Influence People, Truthfully: Influence Maximizatio…

NIPS2011気になった論文リスト

NIPS2011のAccepted Papersが公開されました。(まだタイトルのみですが) http://nips.cc/Conferences/2011/Program/accepted-papers.php いつもどおり、備忘録です。 Active Learning, Crowd, Submodular, Manifoldといったキーワードが流行しているように…

ECML/PKDD2011気になった論文リスト

自分用メモ. 当日,チェックしておきたいAccepted Papersを以下に纏めておきます. ペーパーが公開されているものは,アブストをナナメ読みした感想を簡単に書いています. Frequency-aware Truncated methods for Sparse Online Learning Hidekazu Oiwa, S…

PRankを実装しました

ランキング学習の一手法であるPRankを実装しました. PRankはPerceptronに似たアルゴリズムであり,実装も非常に簡単です. ソースコード github 解説 ランキング学習及びPRankの解説は,先日のDSIRNLPで発表された以下の記事が詳しいです. DSIRNLP#1で「ラ…

デマをデマと見抜けない人はTwitterを使うのは難しい

Twitterにおけるデマ検出手法を論じた研究が,ついにEMNLP2011に出てきたので紹介します. 論文:Rumor has it: Identifying Misinformation in Microblogs[Qazvinian et al., 2011] Twitter上のデマに関する興味深い統計情報も幾つか含まれているので,興味…

EMNLP気になった論文メモ

上の2つは特に気になった論文. Approximate Scalable Bounded Space Sketch for Large Data NLP Amit Goyal and Hal Daume III. pdf Rumor has it: Identifying Misinformation in Microblogs Vahed Qazvinian, Emily Rosengren, Dragomir R. Radev and Qi…

クラウドソーシング時代の能動学習

例によって,ICML2011からActive Learning from Crowdsのメモ書きです. クラウドと銘打ってはいますが,結局のところ複数アノテーターがいるときにどのように能動学習を行うとよいか,という手法提案の論文になっています. 概要 アノテーターが複数いる場…

ドメイン適応を用いた評判分析手法

ICML2011のドメイン適応の論文のメモ書き.数式番号が1つも使われていない,珍しい論文. Domain Adaptation for Large-Scale Sentiment Classification: A Deep Learning Approach 概要 評判分析,評判抽出のためのドメイン適応手法の提案 Deep Learningと…

分散型オンライン学習

ICML2011のOptimal Distributed Online Predictionをざっくりと読んだので,メモ書き. 論文 概要 既存のオンライン学習アルゴリズムをミニバッチに拡張,分散学習を可能にする 勾配ベースのオンライン学習手法は全て拡張可能 勾配ベースのオンライン学習手…

劣勾配法(ヒンジ損失)書いたよ

ソースコード ソースコード 内容 劣勾配法の解説は,以下のブログ記事が詳しいです. 劣微分を用いた最適化手法について(3) | Preferred Research こちらでも劣勾配法について簡単に説明したいと思います. 多クラス分類問題を解く場合,ヒンジ損失関数は以…

Passive-Aggressive書いたよ

ソース ソースコード 内容 Passive-Aggressiveの概要・説明については,先日のオンライン学習による線形識別器のスライドをご覧ください. http://d.hatena.ne.jp/kisa12012/20110625/1309003409 実験結果 NaiveBayes, Perceptronとの比較は以下. NaiveBaye…

Perceptron書いたよ

ソース ソースコード 内容 Perceptronの概要・説明については,先日のオンライン学習による線形識別器のスライドをご覧ください. http://d.hatena.ne.jp/kisa12012/20110625/1309003409 実験結果 NaiveBayesと比較すると,以下のようになりました. NaiveBa…

Bandit Feedback下での多クラス分類アルゴリズム

ICML2011のMulticlass Classification with Bandit Feedback using Adaptive Regularizationをざっくりと読んだのでメモ. 論文 概要 Bandit Feedbackでの多クラス分類問題における新たなアルゴリズムを提案 アルゴリズムは,Second-order Perceptronとupper…

オンライン学習による線形識別器

オンライン学習による線形識別器(Online Linear Classifiers ~PerceptronからCWまで~)というタイトルで研究室内の勉強会発表を行いました. 勉強会で使用したスライドを以下に公開します. (スライドが表示されない場合は,一度リロードを行うと表示されるよ…

ICML2011気になった論文リスト

ICML2011のAccepted paperが公開されています. http://www.icml-2011.org/papers.php個人的に気になった(あとで読みたい)論文リストを以下にまとめていきます. オンライン学習,多クラス分類問題,スパース化,転移学習系の論文が多めです. Efficient S…

Complement NaiveBayesを実装したよ

レッドブルとカレーが美味しい季節になりました. 前回,ナイーブベイズを実装した後, 「どうせならComplement NaiveBayesも実装してしまいなよ.」 という天からの声が聞こえた気がしたので,実装してみました.Complement NaiveBayesとはなんぞや,という…

Twitterの被RT数を増やすには

恒例の現実(論文)から逃避するためのブログ執筆です. WWW2011のBest Poster Awardを受賞した"Predicting Popular Messages in Twitter" [Hong+, 2011] を読んだのでそのメモを書き留めます.結果から言ってしまうと, Follower数を多くすればいいよ! 被R…

今さらないーぶべいず

今週の言語処理のための機械学習入門を読む会(研究室内勉強会)は,ナイーブベイズの章に突入. どうせなら復習ついでにC++で実装しようかな,となんとなく思い立ったので実装してみました. コード GitHub - oiwah/classifier: Online Classification Libr…

Knuth-Morris-Pratt algorithm

例の如く論文執筆に疲れたので,コーディングで息抜きをします. 今回実装したのは,文字列照合アルゴリズムのクヌース-モリス-プラット法(KMP法)です. アルゴリズムの詳細は,Wikipediaへどうぞ( ゚д゚ ) http://en.wikipedia.org/wiki/Knuth%E2%80%93Morri…

Gmail優先トレイ論文メモ

元論文 “The Learning Behind Gmail Priority Inbox”, Douglas Aberdeen, Ondrey Pacovsky, Andrew Slater, LCCC : NIPS 2010 Workshop on Learning on Cores, Clusters and Clouds. http://research.google.com/pubs/archive/36955.pdf Gmail Priority Inbo…

MacBook Air 11インチ欲しい!

MacBook Air 11インチ欲しい! これを機にマカーに….

論文の息抜きにSuffixArray

2月上旬投稿予定の論文を書くのに疲れたので, 息抜きに非常に単純なSuffixArrayをPythonで実装してみました. ソースコード #!/usr/bin/python # -*- coding: utf-8 -*- import sys def createSA(text): """Create Suffix Array""" print "create SuffixArr…