Hadoop向けデータウェアハウス構築ソフトウェア「Apache Tajo 0.11」公開

 Apache Hadoop環境で利用できる高度なデータウェアハウスシステム「Apache Tajo」開発チームは10月27日、最新版となる「Apache Tajo 0.11.0」をリリースした。

 Apache TajoはApache Hadoop環境で動作するリレーショナル・分散データウェアハウス(DWH)ソフトウェア。分散SQLクエリ処理エンジン、低遅延、拡張性のあるアドホッククエリ、オンラインアグリゲーションなどの機能を備え、Hadoop Distributed File System(HDFS)やその他のデータソース上にある大規模なデータセットにアクセスして分散実行を直接制御できる。ETL、ANSI/ISO SQL標準、Hive MetaStoreアクセス、CSV/JSON/RCFile/Paquetなどのファイル/データフォーマットをサポートするのも特徴。同プロジェクトは2014年にTLP(トップレベルプロジェクト)に昇格している。

 Apache Tajo 0.11.0は、3月に公開された0.10.0に続くリリース。入れ子になったレコードに対応、ORCファイルもサポートした。ResultSetでJDBCとTajoClientのフェッチパフォーマンスを改善し、RDBMSのような表領域Tablespaceが利用できるようになった。

 このほか、JDBC接続のストレージが利用できるようになり、射影/フィルタのプッシュダウンなどETLなしでRDBMSを効率よく処理できるようになった。マルチクエリとPython UDF/UDFAのサポートも加わっている。Join最適化、クエリレスポンスなども強化され、350近くのバグも修正した。

Apache Tajo
http://tajo.apache.org/