米Yahoo!、Apache Spark/Hadoopクラスタで深層学習を実行できる「CaffeOnSpark」を公開

 米Yahoo!は2月24日、分散型のディープラーニング(深層学習)技術「CaffeOnSpark」をオープンソースで公開した。Apache Hadoop、Apache Sparkのクラスタ上でディープラーニングを実行できるという。

 CaffeOnSparkは、HadoopおよびSparkベースのクラスタ上でディープラーニングを行うためのライブラリ。ディープラーニングのための高速なフレームワーク「Caffe」に、HadoopとSparkの両ビックデータ技術を組み合わせた。GPUおよびCPUサーバーで構成したクラスタ上で分散型のディープラーニングを実行できる。

 Yahooでは製品チームがオンラインデータから洞察を得る目的でディープラーニングを利用していたが、多くのディープラーニングフレームワークでは別途クラスターを構築しなければならず、そのため複数のプログラムを作成する必要があった。さらにクラスター間で大規模なデータセットを移行させる必要があり、複雑性が増し遅延が問題になっていたという。既存のデータ処理パイプラインとともに同じクラスターでディープラーニングを行うべき、という考えから開発したと経緯を説明している。

 Caffeの拡張となり、ニューラルネットワークモデルのトレーニング、テスト、機能抽出などを利用できる。コードは主にC++で書かれており、Sparkアプリケーションがデータセットに対してディープラーニング処理を呼び出すScala APIを備える。Caffeユーザーは既存のLMDBデータファイルを使い、わずかな調整をするだけでディープラーニングを実行できるという。Apache Sparkの機械学習ライブラリであるMLibやSpark SQLについては、CaffeOnSparkは補完的なものと位置付けを説明している。

 CaffeOnSparkはプロジェクトのWebサイトより入手できる。ライセンスはApache License 2。

CaffeOnSpark
https://github.com/yahoo/CaffeOnSpark