Microsoft、オープンソースの機械学習ツールキット「Distributed Machine Learning Tookit(DMLT)」を公開
米Microsoftは11月9日、機械学習ツールキット「Distributed Machine Learning Tookit(DMLT)」をオープンソースで公開した。米Googleが先日公開した「TensorFlow」に続くものとなり、分散型システムでの機械学習システム構築を簡素化するものとなる。
Distributed Machine Learning Tookit(DMLT)は、Microsoft Research Asiaが開発した分散型の機械学習技術。さまざまな分野で機械学習の活用事例が増える一方で、利用には巨大なコンピューティングリソースを要することから、ビッグデータ処理における機械学習の利用は研究者や利用者にとって課題となっており、これの解決を図るものと位置付けている。オープンソースで公開することでビックモデルのトレーニングをクラスタで効率よく行うことができるようにする、と意図を説明している。
DMLTはアルゴリズムとシステムの両方の面での技術開発を含んでおり、プログラミングフレームワークとなる「DMTK Framework」、高速で拡張性のあるトピックモデルアルゴリズムの「LightLDA」、複数の意味を持つ単語のWord embeddingアルゴリズム「Distributed Word Embedding」で構成される。
DMTK Frameworkはパラメーターサーバーの役割を果たし、データの並列化、モデルストレージのためのハイブリッドデータ構造、モデルスケジューリングなどの特徴を備えているという。
DMLTのWindowsバイナリとLinuxバイナリ、およびソースコードは専用サイトより入手できる。ライセンスはMIT License。
Distributed Machine Learning Tookit(DMLT)
http://www.dmtk.io/