社内の知識資産をAIの力へ
～RAGとデータレイクハウスが切り開く次世代データ活用～

1617回表示しました

2024年6月にサンフランシスコでDatabricks社主催の年次技術カンファレンス「Data+AI Summit」が開催されました。「Data Intelligence for All」をテーマとした今年は過去最高の出席者を記録し、生成AIとデータレイクハウスの融合に向けた多くの新機能が発表されるなど、データ活用の分野に大きな影響を与えています。日立ソリューションズでは日米両国でデータレイクハウスのソリューションを提供しており、本カンファレンスでは「Rags to Data Riches」と題して、RAG(Retrieval-Augmented Generation)とデータレイクハウスの連携事例を発表しました。本記事では発表内容を中心に、生成AI活用において最近注目が集まるRAGとデータレイクハウスの概要、これらの技術を組み合わせることで得られるメリットをご紹介します。ぜひ最後までお付き合いください。

※本記事は2024年10月に掲載されたものです。

川尻　剛

Senior Director, Tech Research, Hitachi Solutions America, Ltd.

入社後から現在まで主に先進技術の評価を担当。2022年からアメリカ・シカゴに赴任し、メタバース技術を用いたプロトタイプ開発に従事。現在はAI技術の最新動向に触れながら、カリフォルニア州アーバインで生成AI技術の業務活用に取り組んでいる。

DATA+AI Summitのカンファレンス会場

講演者と発表の様子
Dr. Michael Green, Senior Product Manager, Hitachi Solutions America
Dr. Micah Groh, Senior Data Scientist, Hitachi Solutions America
Topher Partimann, Senior Machine Learning Engineer, Hitachi Solutions America

RAG(Retrieval-Augmented Generation)とは

RAGとは生成モデルの能力を外部の知識源で拡張する手法やシステムを指し、2020年の論文で提案されました。当時の生成モデルは既に膨大な知識を学習していましたが、特定分野の情報を正確に引き出したり、それらを更新したりすることが困難となっていました。RAGは生成モデル自体を拡張する代わりに、外部から関連情報を取り込み、応答精度や信頼性を向上させるものです。例えば試験問題を解くAIシステムを作るとしたら、生成モデルを過去の問題で特訓するのではなく、問題ごとに参考書から関連情報を探し、それをヒントとしてAIに与えるのがRAGのアプローチとなります。シンプルな実装で実現できることや、AIが判断に使用した情報源を確認できることから普及が進み、現在では企業の知識資産をAIシステムで活用する標準的手法となっています。

ベクトルデータベースとは

RAGを構築する際に鍵となるのが与えるデータと検索メカニズムです。先の試験問題AIの例で言うと、いかに回答に役立つ情報を知識源から引き出すことができるかが応答の品質やパフォーマンスを左右するでしょう。これらの部分の実装について、現在はベクトルデータベースを用いることが一般的となりました。一部のAIモデルは入力されたテキストや画像の意味内容を、ベクトルと呼ばれる多次元の数値配列に変換する機能を持ち、類似したベクトルは意味的にも近いものとなります。ベクトルデータベースはこれらのベクトルの類似度検索機能が備わっており、ユーザ質問をベクトル化することで、データベース内の類似した情報を見つけ出すことができます。これにより、膨大なデータの中から、関連性の高いデータを瞬時に抽出することが可能となります。

社内知識資産をRAGで活用するには

RAGとベクトルデータベースの概要を踏まえて、社内ドキュメントを生成AI、特に大規模言語モデル(LLM: Large Language Model)で活用するためのプロセスを見ていきましょう。まずはチャットやAIエージェントで活用したいドキュメントやデータを収集し、テキストデータとして抽出します。次に収集したデータから不要な記号や個人情報を除去し、クリーンな状態にします。そして、LLMに入力できるように、文章を適切な長さに分割します。この粒度は検索精度や処理速度にも影響を及ぼすため、慎重な検討が必要となるでしょう。データの準備が整ったら、分割した文章ごとにベクターを生成し、ベクトルデータベースに保存します。これらのプロセスは複数のステップを含みますが、(1)データの収集、(2)データをクリーニングと分割、(3)ベクトルデータベースへの保存が重要なポイントとなります。RAGのアルゴリズムも日々進化しており、LLM側で検索クエリを構築する手法や知識グラフを利用する手法なども実用化されてきています。ユースケースに応じて最適なアルゴリズムを選択し、継続的に評価・改善することがシステムの効果を最大化する上で重要になるでしょう。

エンタープライズRAGの構築

近年のAIシステムの開発ではRAGの実装がますます容易になっています。多くのサービスがドキュメントをアップロードしたり、オンラインストレージを指定したりするだけで簡単にRAGを実現できるようになりました。これらのサービスはAIシステムの実現性や価値を素早く検証する上で非常に有効ですが、実際の業務で長期的に活用するためには、より戦略的で体系的なアプローチが求められるでしょう。エンタープライズレベルでRAGを構築する際の重要なポイントの一つは、最新の業務データを定期的にベクトルデータベースに供給するパイプラインの構築であり、この点でデータレイクハウスを活用することが注目されてきています。

データレイクハウスはDatabricks社が提唱したデータ利活用のアーキテクチャで、従来のデータウェアハウスとデータレイクの課題を総合的に解決します。具体的には、社内に点在する構造化データ(テーブルなど)や準構造化データ(XML, JSONデータなど)、非構造化データ(画像、音声データなど)を統合的に扱うことができ、データを段階的に精製していくための機能を提供します。従来は主に機械学習モデルの開発やダッシュボードの構築で使用されてきましたが、最近ではベクトルデータベースとの連携機能が強化され、RAGでの活用が注目されています。ここでは、データレイクハウスをRAGのデータパイプラインとして活用する利点を紹介します。

•データ管理
分散しがちな社内ドキュメントやデータをコピーすることなく、一か所で管理でき、さらにデータ構造やフォーマットの違いを問わず同じ方法でアクセスできるようになります。また、ビジネスインテリジェンス(BI)の分野で培われたETL(Extract/Transform/Load)処理の技術や機能を活用することで、RAGデータの前処理を容易に自動化できます。

•データガバナンスとコラボレーション
開発者やユーザがアクセスできる範囲を列単位できめ細やかに指定することができ、機密情報を公開することなくデータ処理やRAGのアルゴリズムを共同で開発できます。また、実装した機能は組織内で共有でき、サイロ化しがちなAIシステムの実装を一元管理することができます。

•MLOps
機械学習の分野で培われたAIモデル開発の評価・検証の仕組みをRAGに適用でき、最新の社内ドキュメントに対するAIシステムの品質をトラッキングすることができます。また、RAGのアルゴリズムや使用するAIモデルを差し替えて評価できるため、ユースケースに最適な構成を探索できます。

日立ソリューションズの取り組み

日立ソリューションズではデータレイクハウスの導入に先駆的に取り組み、日本ではデータ利活用ソリューション（※1）として、米国からはEmpower（※2）として提供しています。生成AIを業務に活用しようとする際、利用する生成モデルやサービスに注目が集まりがちですが、この分野では技術革新が日進月歩で進んでいます。生成AIのユースケースを特定した後は、強固なデータ基盤の整備を行い、長期的な価値創出の礎を築くのはいかがでしょうか。