強化学習
強化学習その2
on-policy, off-policy
https://unit.aist.go.jp/diversity/ja/jst/teens/montecarlo.htm
モンテカルロ法
強化学習入門 Part2 - TensorflowとKerasとOpenAI GymでPolicy Gradientを実装してみよう! - Platinum Data Blog by BrainPad
Cartpole
インターネット詐欺対策 - リアルタイム学習から非同期フィードバックを活用した強化学習
Deep Q-Networkの概要 - Qiita
ER(Experience replay)には、Replay memory.
論文解説 Memory Networks (MemNN) - ディープラーニングブログ
Hard Attention, Soft Attention