従来のRAG手法は、文書を孤立したチャンクとしてエンコードするため、視覚的に豊かな文書(VRD)におけるレイアウト構造やページ間の依存関係を喪失するという課題がある。また、推論時に固定数のページのみを検索する静的なtop-$k$戦略は、質問の複雑さに適応できない。本研究は、文書を断片的な集合ではなく、構造的に連結された一貫性のあるものとして扱う必要があることを指摘している。具体的には、レイアウト情報の欠落、埋め込みへの過度な依存、および動的な検索能力の不足という3つの主要な課題に対処することを目指している。
LAD-RAGは、インジェクション時にヘッダー、図、表などの要素をノードとし、セクション境界やページ間の依存関係をエッジとする記号的文書グラフ $\mathcal{G}$ を構築する手法を提案する。これにより、標準的なニューラル埋め込み $\mathcal{E}$ と併用することで、包括的な文書表現を実現した。実験の結果、MMLongBench-Doc、LongDocURL、DUDE、MP-DocVQAの4つのベンチマークにおいて、top-$k$のチューニングなしで平均90%以上の完全再現率(perfect recall)を達成した。さらに、同等のノイズレベルにおいて、ベースラインの検索器を最大20%上回る再現率を示し、最小限のレイテンシで高いQA精度を実現している。
LAD-RAGは、インジェクション時と推論時の2フェーズで構成される。インジェクション時、GPT-4oを用いて各ページから要素(段落、図、表等)を抽出し、レイアウト位置や要約を含むノードを定義するとともに、継続的なメモリ $M$ を用いてページ間の関係性を追跡し、ドキュメントグラフ $\mathcal{G}$ を構築する。推論時、LLMエージェントは質問 $q$ に基づき、セマンティック検索を行う `NeuroSemanticSearch`、グラフ構造を操作する `SymbolicGraphQuery`、および Louvain コミュニティ検出を用いて文脈を拡張する `Contextualize` の3つのツールを反復的に使用する。このプロセスは、コンテキストウィンドウの限界や十分な証拠の収集といった終了条件を満たすまで、エージェントによる動的な計画と対話ループを通じて実行される。
評価は、MMLongBench-Doc、LongDocURL、DUDE、MP-DocVQAの4つのベンチマークを用いて行われた。検索性能の指標として、正解ページ集合 $P$ がリトリーバーの返却集合 $\hat{P}$ に含まれるかを判定する Perfect Recall (PR) と、無関係なページの割合を示す Irrelevant Pages Ratio (IPR) $\text{IPR} = \frac{|\hat{P} \setminus P|}{|\hat{P}|}$ を用いた。ベースラインには、E5-large-v2、BGE-large-en、BM25、ColPali、および階層的RAGであるRAPTORが設定された。結果として、LAD-RAGは同等のIPRにおいて、MMLongBench-Docで約20%、LongDocURLで15%、DUDEおよびMP-DocVQAで10%高いPRを示した。また、アブレーション研究により、`SymbolicGraphQuery` を欠いた場合は同等のノイズレベルで再現率が平均10%低下することが確認された。
LAD-RAGは、単なる意味的階層や視覚的特徴の利用だけでは不十分であり、記号的なレイアウト構造の明示的なモデリングが分散した情報を捉えるために不可欠であることを示した。レイテンシに関しては、グラフ構築をオフラインのインジェクションフェーズに集約しているため、推論時のオーバーヘッドは極めて小さく、エージェントのLLMコールも大部分が100トークン未満に抑えられている。一方で、本手法には、検索された証拠が完璧であってもLVLM自体の推論能力に依存するという限界や、低品質なスキャン文書における抽出エラーのリスクが存在する。今後の課題として、インジェクションパイプラインの簡素化や、より軽量なフレームワークの開発が挙げられる。
従来のRAG手法は、文書を孤立したチャンクとしてエンコードするため、視覚的に豊かな文書(VRD)におけるレイアウト構造やページ間の依存関係を喪失し、推論時に固定数のページのみを検索するという課題がある。これに対し、提案手法であるLAD-RAGは、インジェクション時にレイアウト構造とページ間依存関係を捉える記号的な文書グラフ(symbolic document graph)を構築し、標準的なニューラル埋め込みと併用することで、より包括的な文書表現を実現する。推論フェーズでは、LLMエージェントがニューラルおよび記号的なインデックスと動的に相互作用し、クエリに基づいて必要な証拠を適応的に検索する。MMLongBench-Doc、LongDocURL、DUDE、MP-DocVQAを用いた実験の結果、LAD-RAGはtop-$k$のチューニングなしで平均90%以上の完全再現率(perfect recall)を達成し、同等のノイズレベルにおいてベースラインの検索器を最大20%上回る再現率を示した。これにより、最小限のレイテンシで高いQA精度を実現している。
視覚的に豊かな文書(VRD)における従来のRAGは、文書構造やページ間の関係性を無視してセグメントを線形な孤立単位として扱うため、レイアウト情報の欠落、埋め込みへの過度な依存、および質問の複雑さに応じられない静的なtop-$k$検索という3つの課題がある。これに対し、提案手法であるLAD-RAGは、インジェクション時にヘッダー、図、表などの記号的要素をノードとし、セクション境界や図表のキャプション、ページ間の依存関係をエッジとする「記号的文書グラフ(symbolic document graph)」を構築することで、構造的・意味的な信号を保持する。推論時には、LLMエージェントがニューラルインデックスと文書グラフの両方にアクセスし、質問に応じてニューラル、グラフベース、またはハイブリッドの検索戦略を動的に選択・反復的に実行する。MMLongBench-Doc、Long-DocURL、MP-DocVQA、DUDEの4つのベンチマークを用いた評価では、LAD-RAGはtop-$k$の調整なしで平均90%以上の完全再現率(perfect recall)を達成し、同等のノイズレベルにおいてベースラインのリトリーバーを最大20%上回る再現率を示した。本手法は、文書を断片的な集合ではなく、構造的に連結された一貫性のあるものとして扱うことで、QAの精度をグラウンドトゥルースの証拠に近いレベルまで向上させている。
LAD-RAGは、視覚的に豊かな文書理解(VRDU)のために、インジェクション(蓄積)時と推論時の2フェーズで構成されるフレームワークである。インジェクション時、GPT-4oを用いて各ページから要素(段落、図、表等)を抽出し、レイアウト位置、要素タイプ、自己完結的な要約、視覚的属性を含むノードとして定義するとともに、継続的なメモリ $M$ を用いてページ間の関係性を追跡し、ドキュメントグラフ $\mathcal{G}$ を構築する。このグラフは、構造的関係を保持するシンボリックなグラフインデックス $\mathcal{G}$ と、ノードの要約に基づくベクトルベースのニューラルインデックス $\mathcal{E}$ の二重表現で保存される。推論時、LLMエージェントは質問 $q$ に基づき、セマンティック検索を行う `NeuroSemanticSearch`、グラフ構造を操作する `SymbolicGraphQuery`、および Louvain コミュニティ検出を用いて文脈を拡張する `Contextualize` のツールを反復的に使用する。このプロセスは、コンテキストウィンドウの限界、最大ステップ数、または十分な証拠の収集という終了条件を満たすまで、エージェントによる動的な計画と対話ループを通じて実行される。
LAD-RAGの評価実験は、MMLongBench-Doc、LongDocURL、DUDE、MP-DocVQAという、高レベルな内容から図表・セクション等の局所的な視覚要素までをカバーする4つの多様なベンチマークを用いて行われる。検索性能の比較対象(Baselines)として、テキストベースのE5-large-v2、BGE-large-en、BM25、および画像ベースのColPali、さらに階層的RAGであるRAPTORが設定されている。QA性能の評価には、Phi-3.5-Vision-4B、Pixtral-12B-2409、InternVL2-8B、GPT-4oの4つのLVLMが用いられ、決定論的なgreedy decodingにより回答を生成する。実験設定では、LAD-RAGによる検索結果に加え、固定サイズ($k=5, 10$)や検索予算を一致させた最良のベースライン、および正解ページを用いたoracle retrievalとの比較が行われる。さらに、mPLUG-DocOwl v1.5-8B等のフルドキュメント入力モデルと比較することで、ノイズを低減しつつ精度を維持するRAGの有効性を検証する構成となっている。
Retrievalの評価では、質問 $q$ に対する正解の証拠ページ集合を $P = \{p_1, p_2, \dots, p_n\}$、リトリーバーが返したページ集合を $\hat{P}$ と定義し、その網羅性と精度を測定する。具体的には、正解ページがすべて含まれているかを判定する Perfect Recall (PR) を $\text{PR} = 1 \text{ if } P \subseteq \hat{P} \text{ else } 0$ と定義し、マルチページ問題における情報の欠落を評価する。また、ノイズの混入度を測る指標として、取得したページのうち正解に含まれない割合を示す Irrelevant Pages Ratio (IPR) を $\text{IPR} = \frac{|\hat{P} \setminus P|}{|\hat{P}|}$ と定義している。Question answeringの評価においては、MMLongBenchやLongDocURLの設定に従い、GPT-4oを用いて取得されたコンテンツから簡潔な回答を抽出させ、ルールベースの比較により正解率(accuracy)を算出する。この自動評価の妥当性は、人間による評価との強い相関が確認されている。
LAD-RAGは、4つの視覚的に豊かな文書(VRD)ベンチマークにおいて、top-$k$の調整なしで平均90%以上のperfect recallを達成し、既存のベースラインと比較して無関係なページを大幅に少なく抑えつつ高い検索性能を実現している。同等の無関係率(irrelevance rate)において、LAD-RAGはMMLongBench-Docで約20%、LongDocURLで15%、DUDEおよびMP-DocVQAで10%高いperfect recall率を示しており、ベースラインが同等の再現率を得るには $k=5$ から $k=27$ という大きな値が必要であることと比較して、極めて高い選択性を有している。RAPTORのような階層的集約手法や、M3DocRAGのバックボーンであるColPaliのような視覚ベースの手法でも、LAD-RAGと同等の再現率に達するには大量のノイズ(無関係なページ)を蓄積せざるを得ない。この結果は、単なる意味的階層や視覚的特徴のみでは不十分であり、LAD-RAGがエンコードするような記号的なレイアウト構造の明示的なモデリングが、分散した情報を捉えるために不可欠であることを示唆している。特に複数ページにわたる証拠を必要とする質問において、LAD-RAGは構造化されたレイアウトモデリングと記号・ニューラルインデックス間の動的な相互作用により、他のすべてのベースラインよりも完全な証拠セットを継続的に取得できる。
LAD-RAGの構成要素に関するアブレーション研究では、MMLongBenchおよびLongDocURLベンチマークを用い、検索性能を「完全な再現率(perfect recall)と無関係なページ検索数の比率」として評価している。実験の結果、Contextualize (C) または GraphQuery (G) のいずれかを削除すると性能が低下し、特にGを欠いた場合は、同等のノイズレベルにおいて再現率が平均で $10\%$ 低下することが示された。また、階層的集約を行うRAPTORは、LAD-RAGのC成分を除いた構成(LAD-RAG w/o G)と同等の性能に留まっており、レイアウト駆動の依存関係を捉えるにはシンボリックな構造とエージェントによる動的な検索が不可欠であることが示唆されている。エンドツーエンドのQA精度においても、LAD-RAGはInternVL2-8BやGPT-4o-200Bなどの多様なモデルにおいて、固定的なtop-$k$検索や、LAD-RAGと同じページ数を取得するtop-$k$-adjusted設定を上回る改善を達成した。特にマルチページ問題では、top-$k$ベースラインに対して平均で $4\%$ から最大 $18\%$ の精度向上を見せ、Ground-Truth(正解根拠)を用いた場合との差を $5\text{--}8$ ポイント以内にまで縮小させている。
LAD-RAGの推論時におけるレイテンシを分析した結果、グラフ構築はインジェクション時のオフライン処理として一度のみ行われるため、推論時のオーバーヘッドは極めて小さいことが示されている。推論プロセスにおいて、エージェントベースのリトリーバーは通常 2–5 回の LLM コールを実行するが、その 97% 以上において生成トークン数は平均 100 トークン未満に抑えられている。これらのトークンは、事前に構築されたシンボリックグラフおよびセマンティックインデックスに対する検索クエリとして機能し、実行時のコストは無視できる程度である。これは、ドキュメントページを推論時に逐次スキャンすることで高コストな証拠拡張や選択を行う MoLoRAG や FRAG とは対照的である。総じて、LAD-RAG は推論レイテンシを最小限に抑えつつ、QA性能の大幅な向上を実現している。
視覚的に豊かな文書理解(VRDU)において、既存のRAG手法は、M3DocRAGやMDocAgentのようにテキストと画像の検索器を組み合わせるものや、RAPTORのようにインジェクション時に階層的な意味的集約を行うものがあるが、後者はクエリの構造的・レイアウト的な要求に動的に適応できないという課題がある。また、MoLoRAGやFRAGのように推論時に証拠を拡張する手法も存在するが、クエリごとのスキャンに多大な計算コストを要する。さらに、SimpleDocのような動的検索手法も登場しているが、レイアウト構造やページ間の依存関係を明示的にモデル化できていない。これに対し、提案手法であるLAD-RAGは、局所的なコンテンツとグローバルなレイアウト構造の両方を捉えるシンボリックな文書グラフを導入し、ニューラルおよびシンボリックなインデックスの両方に対して動的に推論を行うクエリ適応型リトリーバーを構築する。LAD-RAGは、モジュール化されたパイプラインとは異なり、インジェクション時に標準的なツールを用いて自動的にグラフを構築する単一のモデルに依存し、推論時には高コストな探索を伴わずに、クエリ駆動で柔軟なノードグループの取得を可能にすることで、QA精度を大幅に向上させている。
LAD-RAGは、視覚的に豊かな文書理解(VRD)のために、レイアウト情報を考慮した動的なRAGフレームワークを提案している。従来のRAGが文書チャンクを孤立して扱うのに対し、本手法はインジェクション時に局所的な意味論とグローバルなレイアウト構造の両方を捉えるシンボリックな文書グラフを構築し、ニューラルインデックスと共に保存する。推論時にはLLMエージェントがこのグラフを用いてクエリのニーズに基づき動的に推論・検索を行うことで、MMLongBench-Doc、LongDocURL、DUDE、MP-DocVQAの4つのベンチマークにおいて、top-$k$の調整なしで平均90%以上のperfect recallを達成した。具体的には、同等のノイズレベルにおいて、強力なテキスト・画像ベースのベースラインリトリーバーを最大20%上回るリコール性能を示している。このリトリーバルの改善は、最小限のレイテンシ増大でオラクルレベルに近いQA精度を実現しており、レイアウトやページを跨ぐ構造の推論がVRDにおいて極めて重要であることを示唆している。
LAD-RAGは、検索の完全性と精度を向上させることに特化しており、検索された証拠がほぼ完璧であっても、既存のLVLM(Large Vision-Language Models)がその内容を十分に活用しきれないという、QAモデル自体の推論能力に起因する限界が存在する。本手法は、インジェクション時にテキスト、表、図などの要素を抽出・構造化するために強力なLVLMに依存しており、DUDEやMP-DocVQAのようなスキャンされた低品質なドキュメントにおいては、抽出エラーのリスクが残る。実験では、InternVL2-8BがGPT-4oと同等の抽出品質を示すことが確認されたが、最終的には指示追従性と出力の構造化の観点からGPT-4oを採用している。システム設計としては、推論時にLVLMを多用する手法や高度にモジュール化されたパイプラインとは異なり、計算負荷の大部分をオフラインのインジェクションフェーズに集約し、推論時は構築済みのシンボリックグラフ上で軽量なテキストベースの推論を行うことで、計算コストと複雑性のトレードオフを最適化している。今後の課題として、インジェクションパイプラインのさらなる簡素化や、より軽量なフレームワークのバリアントの開発が挙げられる。