Google、TensorFlowベースの強化学習フレームワーク「Dopamine」を公開

 Googleは8月27日、強化学習研究のためのフレームワーク「Dopamine」をオープンソースで公開した。強化学習アルゴリズムのプロトタイプを高速に実装できるという。

 強化学習は入力に対する「報酬」が最大になるような行動を学習によって決定する手法。人間の囲碁棋士に勝利したGoogle DeepMindの囲碁ソフトウェア「Alpha Go」などで採用されている機械学習手法の1つ。

 Googleによると、強化学習の課題として既存の強化学習フレームワークは研究者が効果的にイテレーションするのに十分な柔軟性と安全性がなく、新しい研究の方向性を探ることが難しいという問題があるという。また、既存のフレームワークからの結果の再現も時間がかかるという。

 Dopamineは機械学習ライブラリのTensorFlowを土台としたオープンソースの強化学習フレームワーク。ベンチマークテストを簡単に実行できる、新しいユーザーがリサーチアイディアを手軽に試すことができるなどの容易さ、柔軟性、安定性、再現性にフォーカスしているとのことで、「急進的な結果に引き出す投機的な要素の強い研究を可能にする」とGoogle Brain Teamの研究者は述べている。

 今回のリリースでは、シンプルなゲームをプレイするというアプリケーションに注力している。60のゲームに対応する4種類のエージェント(C51、DQN、Implicit_Quantile、Rainbow)やトレーニングデータも提供する。トレーニングを視覚化できるWebサイト(https://google.github.io/dopamine/baselines/plots.html)も用意した。既存の手法に対して新しいアイディアのベンチマークをすぐに作成できるという。 

 DopamineはプロジェクトのWebサイトで、Apache License 2の下で公開されている。

Dopamine
https://github.com/google/dopamine