「Apache Hadoop 2.7」リリース
大規模データに向けた分散処理フレームワークであるApache Hadoop開発チームは4月21日、「Apache Hadoop 2.7.0」をリリースした。HDFSやYARNなどで機能強化が加わっており、JDKはバージョン7以上が必須となった。
Apache Hadoopはビックデータの分散処理向けのJavaソフトウェアフレームワーク。2系は2013年10月にGAとなっており、Hadoop 2.7は2014年11月に公開されたバージョン2.6に続くリリース。新機能を試すテスト用としてのリリースで、致命的な問題が残っている可能性もあることから運用環境向けではないとされている。
本バージョンではHadoop CommonやHDFS、YARNなどを中心に900以上もの変更が加わった。分散ファイルシステムHDFSではTruncateのサポートや可変長ブロックを持つファイルのサポートが加わっている。また、ヘテロジニアス(異機種混在)ストレージ機能として、ストレージタイプごとにクオータを設定できるようになった。このほか、NFS Gateway Server向けの管理・モニタリング機能も強化されている。Linuxのtopのように、名前付きノードユーザーの情報を得るためのツール「nntop」も加わった。
YARN(Yet Another Resource Negoiator)ではjarおよびファイルのグローバルキャッシュと自動共有機能が導入された。また、ResourceManager StateStoreの強化も行われている。
MapReduceでは、特定の時間で動くMapまたはReduceタスクの数に上限を設けることでジョブのサイズを制限する機能が導入された。また、FileOutputCommitterの高速化によってHiveやPig、MapReduceのジョブ高速化を図った。
Apache Hadoop 2.7.0はプロジェクトのWebサイトより入手できる。なお、2.7よりJDK6ランタイムのサポートがなくなり、JDK7以上が必須となっている。
Apache Hadoop
https://hadoop.apache.org/