米Microsoft、BERT推論の最適化を加えたONNX Runtime最新版を公開

 米Microsoftは1月21日、自然言語処理技術のBERT(Bidirectional Encoder Representations from Transformers)を利用した推論の性能を強化する最適化技術をオープンソースで公開したことを発表した。同社の提供する推論エンジン「ONNX Runtime」の一部として公開している。

 BERTはGoogleが2018年に発表した自然言語処理のためのモデル。強力な言語モデルとして人気があるが、ほぼリアルタイムで拡張性のあるBERTの推論を行うことはコストが高いという問題がある。

 MicrosoftのAzure AI研究チームは2019年11月に、Bingチームと協業してBERT推論をNVIDIA GPU向けに最適化することで、Bingの遅延制限内で毎秒100万回以上のBERT推論を行うことができたことを報告している。今回、この最適化をさらに強化したものを機械学習モデルの推論エンジン「ONNX Runtime」に導入した。

 オープンソース化された技術は、Web検索クエリを理解するために開発したBERTモデルを、レスポンス時間改善のためにC++で再実装したもの。ONNX RuntimeはMicrosoftが開発した機械学習推論の加速化と最適化技術で、AI開発者はこれを利用して大規模なtransformerモデルをCPU及びGPUハードウェア上で高性能に動かすことができる。MicrosoftはONNX Runtimeを2018年末にオープンソースとして公開している。

 最新のONNIX Runtimeバージョン1.1.1は、プロジェクトのWebサイトより入手できる。

ONNIX Runtime
https://github.com/microsoft/onnxruntime