―東洋経済の保有するテキストデータ等を『Qlean Dataset』において、LLM/生成AI/マルチモーダルAI向けのAI学習用データとして提供開始ー
Visual Bank株式会社(東京都渋谷区、代表取締役CEO:永井 真之、以下「Visual Bank」)は、傘下の株式会社アマナイメージズ(以下「アマナイメージズ」)を通じて、株式会社東洋経済新報社(東京都中央区、代表取締役社長:田北 浩章、以下「東洋経済新報社」)とデータパートナーシップ契約を2024年11月19日に締結したことをお知らせします。
東洋経済新報社の有するテキスト等の大規模データを、Visual Bankが提供するAI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を通じ、AI学習用途に対して販売開始します。
本契約締結により東洋経済新報社の有する膨大なテキスト、グラフ等のデータを日本のAI開発現場に届け、日本のAI開発が加速・発展することに貢献していきます。
提供可能なデータ『週刊東洋経済』、「東洋経済オンライン」、「週刊東洋経済eビジネス新書」、「会社四季報オンライン」、『株式ウイークリー』で公開・提供される記事、グラフ、表のデータ
◆背景
AIの隆盛と良質な日本語コーパスの必要性
人工知能(AI)技術の進化のスピードは著しく、社会・生活の様々な場面に活用されています。特に2022年以降は生成AIやマルチモーダルAIの技術革新が注目を集めています。LLM(大規模言語モデル)のハルシネーション逓減を含めた自然言語処理技術の向上において、豊富かつ良質な学習用データセットは不可欠です。
しかし、グローバルで英語を用いたLLMの研究開発が進む一方で、日本においては信頼性の高いテキストデータを大量に入手する手段が限られており、日本語の独自LLMの開発は依然としてデータの質と量がボトルネックになっています。代表的な日本語公開コーパスとしては、CC-100、mC4、OSCAR、Swallow Corpus等がありますが、品質のばらつきもあり、学習データとして利用するためにはデータのクリーニング等の前処理が必要になります。
テキスト、グラフ等の大規模データ提供によるAI開発現場の支援を目指したデータパートナーシップ契約
こうした背景の中Visual Bankは、東洋経済新報社と共に、AIの研究開発におけるデータの多様性と品質を確保し、イノベーションを加速させることを目的とし、日本市場に向けたAI学習用のテキスト、グラフ等の大規模データの提供を開始します。LLM・生成AI・マルチモーダルAIでの活用を念頭に、良質で信頼性の高い日本語コーパス等を提供することで、日本におけるAIの研究開発を支援していきます。
◆データパートナーシップ契約の内容
本契約は、東洋経済新報社の有する良質でクローズドなテキスト、グラフ等のデータを、Visual BankのAI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を通じて販売開始するものです。AI開発企業や研究機関に対して提供し、LLM/生成AI/マルチモーダルAIの学習用途にご利用いただくことを想定しています。
提供可能なデータ
「東洋経済オンライン」「会社四季報オンライン」『株式ウイークリー』「週刊東洋経済eビジネス新書」『週刊東洋経済』で公開・提供される記事、グラフ、表のデータが対象です。
東洋経済新報社の有する、ビジネス誌系サイトのトップランナーでもある「東洋経済オンライン」や株式投資領域で独自のポジションを築いている「会社四季報オンライン」をはじめとした、過去20年以上のテキストデータやグラフデータを提供可能。各業界の専門記者が執筆してきた良質な日本語データを提供します。
[画像3: https://prcdn.freetls.fastly.net/release_image/108024/30/108024-30-ea69cca4dfa9916fd47ad6d27c182ea2-1716×922.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
『週刊東洋経済』
[画像4: https://prcdn.freetls.fastly.net/release_image/108024/30/108024-30-ee42067354e1c5566d21756ca0847653-1200×630.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
「東洋経済オンライン」
[画像5: https://prcdn.freetls.fastly.net/release_image/108024/30/108024-30-4bcc39fa45e0ce0b09c35357079216f0-1956×1046.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
「週刊東洋経済eビジネス新書」
[画像6: https://prcdn.freetls.fastly.net/release_image/108024/30/108024-30-da0829c2c61fef3afafa10db5de3563b-1954×1046.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
「会社四季報オンライン」
提供するデータの形式
[画像8: https://prcdn.freetls.fastly.net/release_image/108024/30/108024-30-7f9e942870f9d1e86f00744e2e893a22-1200×630.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
記事テキストデータ
[画像9: https://prcdn.freetls.fastly.net/release_image/108024/30/108024-30-9f78e423004a6c1c0b343b81b7126e5b-1200×630.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
表・グラフデータ
Qlean Dataset(キュリンデータセット)とは
AI開発の加速を支援するために、高品質かつ権利クリアなデータセットを開発するサービスで、アマナイメージズの40年にわたる権利許諾のノウハウを活かして提供しています。画像・映像・テキスト・音声・3D等多領域の「権利許諾済みデータベース」を基盤にデータセットを開発し、利用に応じた対価をデータ権利者に還元。本契約では、データセットの企画・開発と販売機能を提供。
「東洋経済オンライン」及び「会社四季報オンライン」を含む東洋経済新報社が提供・公開している記事・テキストデータベースは、東洋経済新報社の著作物で、日本の著作権法や国際条約等で保護されており、かつ、『Qlean Dataset』を通じてAIの学習用に有償で提供しているデータとなります。スクレイピングやクローリング等いずれの方法を問わず、無断でのAIの学習利用を禁止致します。万が一、無断利用が発覚した際は、著作権の侵害として法的措置を含め厳正に対処します。
◆各社コメント
株式会社東洋経済新報社 取締役: 廣田 充彦様
この度Visual Bank様にお力添えをいただき、「東洋経済オンライン」や『週刊東洋経済』に掲載している記事等をご提供させていただくこととなり大変有り難く思います。AI規制が進むなかで、法的に問題がないことが明らかな学習用データを提供している『Qlean Dataset』の存在が重要性を増しており、その充実に微力ながら貢献して参ります。
Visual Bankグループ 株式会社アマナイメージズ 代表取締役CEO:望月 逸平
日本において生成AI・LLMの研究開発が急ピッチで進行しています。そのなかで、良質なテキストやグラフデータを求める声は多く聞かれます。東洋経済新報社様とのデータパートナーシップ契約により、東洋経済新報社様の有する貴重な素材を『Qlean Dataset』を通じてAI開発現場に届けることで、新たなテクノロジーやユースケースが創出される一助になることを目指します。Visual Bankグループは、今後も適切な権利処理・用途管理・対価還元のもと、クローズド・データのAI学習用としての社会での利活用を推進し、安心・安全なAI開発を裏側から支援していきます。
『Qlean Dataset』: https://qleandataset.amanaimages.com/
◆Qlean Dataset × 東洋経済新報社のサービス概要
[画像10: https://prcdn.freetls.fastly.net/release_image/108024/30/108024-30-3b1eae8176cf1a6cc49acd38f3f66892-2172×1342.png?width=536&quality=85%2C75&format=jpeg&auto=webp&fit=bounds&bg-color=fff ]
特設ページはこちら
Qlean Dataset × 東洋経済新報社の取り組みの詳細はこちらからもご覧いただけます。
特長
1. 東洋経済新報社の過去20年以上の記事テキスト、グラフデータの提供
2. LLM/生成AI/マルチモーダルAIの学習用データに使用可能
3. 専門的なインストラクションデータも作成可能
LLM(大規模言語モデル)/生成AI/マルチモーダルAIにおける想定ユースケース
LLMの開発
・高品質な日本語コーパスを利用した汎用性の高いLLM開発、ファインチューニング
・経済領域での特化型のLLM開発、ファインチューニング
図表×テキストのマルチモーダルAIの開発
・IR資料、決算資料に関連するマルチモーダルAI
・社内パワーポイント資料、エクセル、ワード、PDF等の資料に関連するマルチモーダルAI
Visual Bankおよびアマナイメージズは今後もQlean Datasetのサービスを通じて、AIの研究開発におけるデータの多様性と品質を確保し、イノベーションを加速させることを目的としたサービス展開を行ってまいります。
Visual Bank株式会社
『創造性の黒子』を経営理念とし、クリエイターの創造物の管理・流通を行うスタートアップ企業。国内最大級の画像ライブラリ『amanaimages.com』、権利クリアなAI学習用データセット開発サービス『Qlean Dataset』を提供する株式会社アマナイメージズを100%子会社に持つ。
・代表取締役CEO:永井 真之
・所在地:〒102-0083 東京都千代田区麹町5-3-23 日テレ四谷ビル WeWork
・Visual Bank企業URL:https://visual-bank.co.jp/
・アマナイメージズ企業URL: https://amanaimages.com/about/
・『Qlean Dataset』: https://qleandataset.amanaimages.com/
お問い合わせ先
【AI開発ベンダーの方からのお問い合わせ】
問い合わせフォーム:https://qleandataset.amanaimages.com/contact
お問い合わせフォーム
無料相談にお気軽にお申し込みください
株式会社アマナイメージズ カスタマーサポート
電話:0120-410-225 営業時間:9:30 ~ 18:00(土日祝日を除く)
【本プレスリリースに関するメディアの方からのお問い合わせ】
株式会社Visual Bank 広報チーム
publicrelations@visual-bank.co.jp