「Apache Hadoop 3.0」リリース、Java 8が必須に
非営利団体のApache Software Foundation(ASF)は12月14日、分散処理フレームワーク「Apache Hadoop 3.0.0」を公開した。本バージョンではJava 7のサポートがなくなり、Java 8の利用が必須となっている。
Hadoop 3.0.0は2013年に正式版が公開された2系に続くメジャーリリースとなる。効率、拡張性、信頼性の強化にフォーカスして開発しており、「過去最大のリリース」と位置づけている。なお、本バージョンではJava 7対応は削除されており、Java 7を使っているユーザーに対してはJava 8にアップデートするよう求めている。
分散ファイルシステムHDFS(Hadoop Distributed File System)で、レプリケーションに変わるデータの冗長化手法となるErasure Codingを導入した。レプリケーションに比べてオーバーヘッドが3分の1になるケースもあり、データの永続性を改善しつつ、書き込み量を少なくすることでストレージのコストを削減できるという。
YARN Timeline Service v.2をプレビュー機能として導入した。ディスク、GPUなど追加リソースのスケジューリングが可能となり、機械学習、コンテナワークロードとの統合も強化した。これらの強化により、拡張性と信頼性を改善するとしている。
ExecutionType概念を導入し、Opportunistic Container実行が可能になった。これまでのYARNコンテナはリソースが割り当てられていない時のみスケジュールされていたが、ノードでの実行がすぐに開始されない場合でもNodeManagerにコンテナを割り当てる。リソースの使用を改善し、タスクのスループットを改善するという。
2つ以上のNameNodeのサポート、複数のディスクを管理するDataNodeでのイントラDataNodeバランサーなどを導入した。また、複数のサービスでデフォルトのポートが変更されている。
シェルスクリプトを書き直し、古くから存在するバグを修正した。一部後方互換性を損なう変更もあるという。MapReduceでは、Map出力コレクターのネイティブでの実装をサポートした。MapReduceタスク、デーモン向けのヒープ管理も見直しを進めた。
外部のクラウドストレージサービスとの連携も強化した。「Microsoft Azure Data Lake」「Aliyun Object Storage System」向けのコネクタを用意、Hadoop互換ファイルシステムとして統合できるようになった。「Amazon S3(S3Guard)」統合も強化した。
Apache Hadoop 3はプロジェクトのWebサイトより入手できる。
Apache Hadoop
http://hadoop.apache.org/