A Stochastic Gradient Method with an Exponential Convergence Rate with Finite Training Sets
概要
データが事前に固定されていれば,ある種の一般的条件設定のもとで,データ数に対して定数オーダーの計算コストで線形収束を実現するSGDを提案.確率的最適化手法であるSGDと全データの勾配を毎ステップ計算して最適化するGDのハイブリッド(良いとこ取り)手法を提案し,こちらも理論的・実験的に非常に高速に最適解へ収束する事を示した.
貢献
アルゴリズム
- 1. データを1つランダムに選択し,現在の重みベクトルで勾配を計算
- 2. 各データの「最後に」算出された勾配を集め,その平均ベクトルを用いて学習器を更新
- 3. 一定の回数反復,あるいは一定の収束基準を満たすまで,1,2ステップを反復
実装上の工夫など
雑感
- 以前も結構話題になっていたので,すでに読んでいる人も多い?
- 以前実装して実験を回してみましたが,実際SGDより遥かに高速に収束してました
- 証明を解釈する会開きましょう(白目)