モンドAIの書籍連動の仕組み
一般的なRAG

・ページ指定による問い合わせには、ページの情報を正確に取得できないため、ハルシネーションが発生しやすい。
・マルチモーダルページ(テキスト、画像、図表、グラフなどが混在するページ)では、さらに複雑な仕組みを要する。
モンドAIのアプローチ

・各ページを画像としてデータベースに格納しているので、ユーザがページを指定すると、正確にページ画像を取得できる。
・マルチモーダルのページを丸ごとAIに送ることができるので、画像などについての問い合わせにも処理できる。
この特許は、従来のAIチャットシステムが抱える根本的な問題を解決する、全く新しいアプローチを提案したものです。
現在主流となっているRAG(検索拡張生成)システムは、ユーザーの質問に対してベクトル検索などの類似度に基づいて関連する情報を「推測」で見つけ出し、それを基に回答を生成します。しかし、この「推測による検索」こそが問題の根源と言えます。なぜなら、推測は必ずしも正確ではなく、間違った情報や関係のない情報を取得してしまう可能性があり、これがAIのハルシネーション(事実ではない内容を事実のように回答してしまう現象)の主要因となっているからです。
この発明は、そうした「推測による検索」を完全に排除し、代わりに「決定的参照」という全く異なるアプローチを採用しています。具体的には、ユーザーが「この本の何ページについて質問したい」と明確に指定することで、システムは推測することなく、指定された書籍の指定されたページを確実に取得します。これは、図書館で特定の本の特定のページを開くのと同じような、確実で間違いのない方法です。
さらに重要なのは、取得したページを単純にテキストとして読み取るだけでなく、ページ上の図表、数式、レイアウト構造といった視覚的要素も含めて理解する点です。従来のRAGシステムは主にテキスト情報のみを扱っていたため、「このページの右下の表について教えて」といった、ページの視覚的構造を前提とした質問には適切に答えることができませんでした。この発明では、ページ全体を一つの画像として捉え、その中のあらゆる要素の位置関係や内容を理解した上で回答を生成します。
この仕組みによって得られる最大の利点は「検証可能性」です。RAGシステムでは、AIがどの情報源から回答を生成したのかが曖昧になりがちでしたが、この発明では常に「〇〇という本の△△ページ」という明確な典拠が存在します。ユーザーはAIの回答が正しいかどうかを、元のページを見ることで簡単に確認できるのです。
この特徴は、特に信頼性が重要な分野で大きな価値を持ちます。例えば、法務、医療、金融といった業界では、AIの判断や回答に対して「なぜそう判断したのか」「その根拠は何か」を明確に示す必要があります。この発明のシステムなら、回答の根拠となったページを具体的に示すことができるため、そうした厳格な要求にも応えることができるわけです。
つまり、この発明は単なる技術的改良ではなく、AI対話システムの信頼性と実用性を根本的に向上させるものです。
(特許出願中・特願2025-110901)
