従来のRAGは、表を単一の単位として扱うか、平坦なテキストに変換する粗い粒度の戦略を採用しているため、セルレベルの精密な関係性や、表と周囲のテキストとの整合性を捉えることが困難である。既存の表形式RAGは、表のメタ情報を抽象化してしまいがちであり、特にグラフ拡張を用いた表中心のRAGは、構造化データの潜在的な利点を十分に活用できていない。本研究では、これら解決すべき課題として、複数表の統合やテキストと表の情報融合を必要とする高難易度な推論タスクを定義している。
本研究の主な貢献は、セルレベルの細粒度な検索と生成を可能にするFT-RAGフレームワークの提案である。具体的には、各セルを値とコンテキストメタデータを含む「cell groups」に分解し、スキーマを考慮した階層的な「SAT-Graph」として構造化する手法を導入した。また、複数表にまたがる情報の融合と連想的な検索、および複雑な推論を必要とする、81文書・308個の大型テーブルからなる9,870件のQAペアを含む新ベンチマーク「Multi-Table-RAG-Lib」を新たに構築した。実験により、FT-RAGが既存の最先端手法を全ての指標で上回り、表中心のRAGタスクにおいて新たなSOTAを確立したことを示した。
FT-RAGは、まず「Fine-Grained Table Parsing Module」において、PDFをMarkdownに変換した後、各セルをグローバル・テーブルメタデータおよび階層的なヘッダーパスを含む「Cell Group」へと分解する。次に「Structure-Aware Semantic Lifting Module」により、これらをSubject ($\mathcal{S}$)、Attribute ($\mathcal{A}$)、Temporal ($\mathcal{T}$)の3次元で構成されるSATグラフ $\mathcal{G} = (\mathcal{S}, \mathcal{A}, \mathcal{T})$ へと変換する。各値は全射写像 $f: \mathcal{S} \times \mathcal{A} \times \mathcal{T} \to \mathcal{V}$ によって、その「意味的な住所」へと固定される。検索フェーズでは、Anchorから属性を探す「Forward Traversal」と、属性から文脈を遡る「Reverse Traversal」を組み合わせたDual-Path Traversal Strategyを実行する。最後に「Text-Bridged Augmentation」により、抽出された構造化データ $\mathcal{R}$ を自然言語化し、関連するテキスト文脈と結合して生成プロセスを改善する。
実験は、独自の「Multi-Table-RAG-Lib」を用い、Pure Tabular RetrievalとContext-Augmented Retrievalの2つのタスクで実施された。比較対象にはStandard RAG、LangChain、Self-RAG、およびMixRAGの4手法を設定し、Hit Rate ($HR$)、Recall ($R$)、Precision ($P$)、およびセル単位の指標($C\text{-}HR, C\text{-}R, C\text{-}P$)で評価した。結果として、FT-RAGは表レベルのHit Rateで23.5%、セルレベルのHit Rateで59.2%の向上を達成した。生成性能においても、Exact Value Accuracy Recallが62.2%向上し、Value Accuracyにおいて54.5%という高い数値を記録した。アブレーション研究では、SAT-Graphの除去により全指標が40%未満に急落することが確認された。
FT-RAGは、SAT-Graphによって値を正確な意味的座標に固定することで、ベースラインが陥る精度低下を回避し、高い検索精度を実現している。特にContext-Augmented設定において、高信頼度のセルをアンカーとしてテキストを探索する「table-first」の階層構造により、MixRAGのようなテキストノイズによる性能低下を防ぐことに成功している。アブレーション実験の結果から、SAT-Graphによる構造的理解とMulti-modal Fusion Moduleによる意味理解の両方が、数値抽出において不可欠であることが証明された。本手法の限界と今後の展望については、付録Eにおいて詳細に議論されている。
FT-RAGは、従来のRAGが構造化された表データにおいて、粒度の粗さや意味理解の不足により性能が低下するという課題を解決するための、細粒度なRetrieval-Augmented Generationフレームワークである。本手法は、表をエントリレベルのセマンティック単位に分解して構造化グラフを構築し、グラフ検索時に構造的近傍拡張メカニズムを用いて意味的に接続されたエンティティを探索した後、マルチモーダル融合によって検索結果のコンテキストを統合する。また、本研究では、複数表の統合やテキストと表の情報融合を必要とする高難易度な9,870件のQAペアからなるベンチマーク「Multi-Table-RAG-Lib」を新たに導入している。実験の結果、FT-RAGは既存の最先端手法を全ての指標で上回り、表レベルのHit Rateで23.5%、セルレベルのHit Rateで59.2%の向上を達成し、生成性能においてもExact Value Accuracy Recallが62.2%向上するという顕著な成果を示した。
既存のRAG手法は、表を単一の単位として扱うか、平坦なテキストに変換する粗い粒度の戦略を採用しているため、セルレベルの精密な関係性や、表と周囲のテキストとの整合性を捉えることが困難である。本研究では、表データをより詳細なレベルで処理する新しいフレームワークであるFT-RAGを提案する。FT-RAGは、各セルを値とコンテキストメタデータを含む「cell groups」というセルレベルの意味単位に分解する「Entry-level table decomposition」を行い、これらをスキーマを考慮した階層的な「SAT-Graph」として構造化する。さらに、各ユニットを周囲のテキスト環境と関連付けることで、表のユニットが持つ曖昧さを解消する「Joint text-table fusion」を通じて生成プロセスを改善する。また、単一の原子的な値の抽出に留まる既存のベンチマークの限界を克服するため、複数の表にまたがる情報の融合と連想的な検索、および複雑な推論を必要とする新しいベンチマーク「Multi-Table-RAG-Lib」を導入する。
本セクションでは、グラフ強化型RAGと表形式LLM(Tabular LLMs)の2つの研究領域が概説されている。従来のRAGは、高密度ベクトル類似度やキーワード検索に依存しているが、断片的な情報を統合するマルチホップ推論を必要とする複雑な質問への対応が困難である。これに対し、LightRAGやHippoRAG、LinearRAGなどのグラフ強化型RAGは、エンティティや関係性を抽出して知識グラフを構築することで、構造的な事前知識を検索プロセスに組み込み、検索効率の最適化や知識の集約を図っている。一方、表形式LLMの研究は、データベース形式の表を自然言語にシリアル化する手法(RoTやGRIT)と、文書内の表を周囲のテキストと統合する手法(HRoTやMixRAG)に大別される。しかし、既存の表形式RAGは、表のメタ情報を抽象化してしまいがちであり、特にグラフ拡張を用いた表中心のRAGは、構造化データの潜在的な利点を十分に活用できていないという限界がある。
本セクションでは、複雑な文書内のテーブルエントリ単位の検索に焦点を当てた「Fine-grained Table-aware RAG」タスクを定式化している。質問集合 $\mathcal{Q}$ は、テーブルのみで回答可能な $f=0$ と、関連するテキスト情報の補完を必要とする $f=1$ のコンテキストフラグを持つ。文書集合 $\mathcal{D}$ は、テキストセグメント $\mathcal{T}$ と、フラットな構造または階層的な構造(マルチレベルヘッダや結合セル等)を持つテーブル $\mathcal{S}$ で構成される。タスクの目的は、質問 $q$ に対して、最小かつ十分な証拠となるエントリ集合 $\mathcal{E}$(各エントリは値 $v$、列 $c$、エンティティ $e$、時間 $t$、主語 $s$、属性 $a$、メタデータ $m$ を含むタプル $(v, c, e, t, s, a, m)$ で定義)と、必要に応じてテキスト $\mathcal{T}_{context}$ を検索し、それらに基づいて忠実な回答 $a$ を生成することである。評価用データセットとして、MultiHierttを基にした Multi-Table-RAG-Lib を導入しており、これは 81 文書、308 個の大型テーブルからなる 9,870 個の QA ペアで構成される。このデータセットでは、モデルがテキスト内の数値に頼らずテーブル構造から正確な情報を抽出できるよう、数値を含むテキストを LLM で言い換え(re-paraphrase)する前処理が施されている。
FT-RAGは、表とテキストが混在する不均一なコーパスから複雑な推論を行うための、セルレベルの細粒度なRAGフレームワークである。まず「Fine-Grained Table Parsing Module」において、PDFをMarkdownに変換した後、各セルを、グローバルメタデータ、テーブルメタデータ、および階層的なヘッダーパス(Indices, Types, Hierarchies)を含む「Cell Group」へと分解し、構造的文脈を保持する。次に「Structure-Aware Semantic Lifting Module」により、これらをSubject(主語)、Attribute(属性)、Temporal(時間)の3次元で構成されるSATグラフ $\mathcal{G} = (\mathcal{S}, \mathcal{A}, \mathcal{T})$ へと変換する。このグラフは、LLMによる構造的系譜を抽出するSubject Sub-tree $\mathcal{S}$、パターンベースで構築されるTemporal Sub-tree $\mathcal{T}$、それらを繋ぐAttribute Node Set $\mathcal{A}$、およびこれらに紐付くValue Leaf Node Set $\mathcal{V}$ からなり、各値は $f: \mathcal{S} \times \mathcal{A} \times \mathcal{T} \to \mathcal{V}$ という全射写像によって、その「意味的な住所」へと固定される。検索フェーズでは「Graph Retrieval and Multi-Modal Fusion Module」が機能し、クエリの不足情報に応じて、Anchorから属性を探す「Forward Traversal」と、属性から文脈を遡る「Reverse Traversal」を組み合わせたDual-Path Traversal Strategyを実行する。さらに、抽出された構造化データ $\mathcal{R}$ をテンプレートに基づき自然言語化し、関連するテキスト文脈と結合する「Text-Bridged Augmentation」を行うことで、数値的な正確性とテキストによる補完的な意味理解を両立させている。
本研究では、独自のベンチマークであるMulti-Table-RAG-Libを用い、構造化データのみを対象とするPure Tabular Retrievalと、周囲のテキスト文脈を統合するContext-Augmented Retrievalの2つのタスクでFT-RAGの性能を評価している。比較対象として、Standard RAG、LangChain、Self-RAG、およびMixRAGの4つの手法が設定され、評価指標にはHit Rate ($HR$)、Recall ($R$)、Precision ($P$)に加え、セル単位の精度を測るCell-Hit Rate ($C\text{-}HR$)、Cell-Recall ($C\text{-}R$)、Cell-Precision ($C\text{-}P$)が導入されている。実験の結果、FT-RAGはPure Tabular設定において、SAT-Graphの構造的制約を利用することで、ベースラインが陥る精度低下を回避し、高い検索精度を実現している。また、Context-Augmented設定においても、高信頼度のセルをアンカーとしてテキストを探索する「table-first」の階層構造により、MixRAGのようなテキストノイズによる性能低下を防いでいる。生成品質の評価では、FT-RAGはValue Accuracyにおいて54.5%という圧倒的な数値を記録し、SAT-Graphによって値を正確な意味的座標に固定できることが示された。アブレーション研究により、SAT-Graphの除去は全指標を40%未満に急落させ、Multi-modal Fusion Moduleの欠如はValue Accuracyの劇的な低下を招くことから、各コンポーネントが構造的理解と数値抽出において不可欠であることが証明されている。
本論文では、複雑な表データを含むTable-Centric QAにおける推論の困難さを解決するため、セル単位の細粒度な検索を行う新しいフレームワークであるFT-RAGを提案している。FT-RAGは、表を意味的な単位に分解して統一的なSATグラフとして構成することで、クエリと個々のセルとの直接的な意味的整合(semantic alignment)を可能にし、検索された証拠と周囲のテキスト文脈を結合するマルチモーダル融合戦略を通じて、根拠に基づいた証拠(grounded evidence)を生成する。また、本研究を促進するために、複数表にわたる関係性クエリを対象とした包括的なデータセットであるMulti-Table-RAG-Libを導入している。広範な実験の結果、FT-RAGは既存のベースラインを一貫して上回り、表中心のRAGタスクにおいて新たなSOTA(State-of-the-Art)を確立した。なお、本手法の限界と今後の展望については、付録Eにおいて詳細に議論されている。