「Apache Hive 1.1」リリース、データ加工ツールの追加などが行われる

 Apache Hive開発チームは3月9日、Apache Hadoopベースのデータウェアハウス構築ソフトウェア「Apache Hive」の最新版「Apache Hive 1.1.0」をリリースした。プロジェクトのWebサイトより入手できる。

 Apache Hiveは米FacebookがApache Software Foundation(ASF)に寄贈したデータウェアハウスソフトウェア。分散ストレージ環境にある大規模なデータセットのクエリや管理が可能で、SQLライクな言語「HiveQL」でデータクエリが可能。Map/Reduce開発車がカスタム構築したマッパーに組み込むこともできる。HBase、RCFileなども利用できる。

 1.1は2015年2月に公開された初の正式版「Apache Hive 1.0」に続くもので、Hadoopは1系と2系に対応する。データの抽出や加工、ロード(ETL)を容易にするツールを提供するほか、さまざまなデータフォーマット上で構造を強制するメカニズムも加わった。

 また、Apache Hadoop MapReduceおよびApache Tezフレームワークからクエリの実行が可能になったほか、Apache HDFSまたはApache HBaseなどの他のデータストレージシステムにあるファイルに直接アクセスできるようになった。

 このほか、Parquetフォーマットでは、メモリマネージャーを改善し、圧縮をテーブルプロパティで設定できるようになった。クエリではCBO(コストベースオプティマイザ)がデフォルトで有効になった。これらに加えて、多数のバグも修正されている。

Apache Hive
https://hive.apache.org/