本研究は、多言語RAG環境において、中国語と英語の検索結果が互いに矛盾する「証拠の衝突」問題に焦点を当てている。既存のRAG研究がオープンエンドな意味的忠実性を扱うのに対し、本研究は中英間の証拠が「一致」「不一致」「言語の反転」のいずれかになるよう制御された状況下でのモデルの振る舞いを診断する。具体的には、エンティティ(144件)、日付(101件)、数値(55件)の矛盾を含む、300の事例と534の証拠ドキュメントからなる $X\text{-RAMDocs-ZHEN v0.1}$ ベンチマークを構築した。このベンチマークは、データ漏洩を防ぐために正解や条件ラベルを隠蔽し、質問、証拠テキスト、証拠ID、言語タグのみを提供する設計となっている。
第一の貢献は、中英間の証拠衝突を精密に診断するための、リーク防止策を講じた制御済みベンチマーク $X\text{-RAMDocs-ZHEN}$ の提案である。第二に、文書ごとの抽出、修復、グルーピング、集約からなる解釈可能なパイプライン $X\text{-MADAM-RAG}$ を開発した。第三に、実験を通じて、現在のRAGにおける主要なボトルネックが、集約プロセスではなく、ドキュメントレベルでの抽出の堅牢性にあることを特定した。特に、明示的なテンプレートを除去した「Naturalized Stress Test」を用いることで、既存手法の限界を浮き彫りにしている。
提案手法 $X\text{-MADAM-RAG}$ は、以下の5段階からなる分解ベースのパイプラインである。まず、抽出エージェントが各証拠ドキュメントから独立して候補を抽出する。次に、修復モジュールが、抽出に失敗した場合に解析済みフィールドや生の出力から候補を補完する(label-blind repair)。その後、正規化された候補を決定論的にグルーピングし、単一グループなら回答、複数なら衝突の列挙、ゼロなら棄権を出力する。実験では、Qwen2.5-7B-Instructを用い、$\text{temperature}=0$ の決定論的デコーディングで実行した。比較対象として、全証拠を結合する naive RAG や、言語別に整理する evidence-normalized RAG、およびルールベースの rule-only extractor を設定している。
300サンプルの元のベンチマークにおいて、$X\text{-MADAM-RAG}$ は strict accuracy 0.9667、conflict-aware success 0.9767 を達成し、evidence-normalized RAG を $0.0767$ 上回った。また、unsupported-candidate rate を $0.1067$ から $0.0200$ へと大幅に低下させた。アブレーション研究では、repair機能を無効にすると strict accuracy が $0.8033$ まで低下することが確認された。一方で、100サンプルの自然化ストレス・テストでは、rule-only extractor の精度が $1.0000$ から $0.0000$ へ、 $X\text{-MADAM-RAG}$ も $0.9667$ から $0.3000$ へと激減した。この際、メタデータにアクセスできる oracle は $1.0000$ を維持しており、抽出段階の脆弱性が証明された。
$X\text{-MADAM-RAG}$ は制御された環境下では極めて強力な手法であるが、本研究のベンチマーク自体に強いテンプレートの規則性が存在することも示唆されている。rule-only extractor が元のベンチマークで完全な性能を示す点は、この限界を示している。ストレス・テストの結果は、現在のRAGの課題が、情報の集約よりも、非定型な文書から正確に情報を抜き出す「抽出の堅牢性」にあることを明確に示している。本研究の限界として、データが制御されたスニペットであること、単一モデル(Qwen2.5-7B-Instruct)への依存、および評価指標が自動的な語彙一致に限定され、人間による意味的判断を含まないことが挙げられる。
本研究では、多言語RAG環境において中国語と英語の検索結果が互いに矛盾する「証拠の衝突」問題を扱うため、RAMDocsから派生した制御されたベンチマーク $X\text{-RAMDocs-ZHEN}$ を提案している。このベンチマークは、単一言語の支持、二言語間の合意、逆方向の衝突、およびオプションのノイズを含む衝突など、6つの均衡した条件下で構成される300の事例を含んでいる。提案手法である $X\text{-MADAM-RAG}$ は、文書ごとの候補抽出、可視証拠の修復、決定論的な候補グルーピング、および衝突を考慮した集約というステップに分解される解釈可能なパイプラインである。Qwen2.5-7B-Instructを用いた実験では、$X\text{-MADAM-RAG}$ は厳密精度(strict accuracy)0.9667、衝突考慮成功率(conflict-aware success)0.9767を達成し、証拠正規化を行うシングルコール・ベースラインを上回った。しかし、テンプレートの規則性に依存するルールベースの抽出器が特定の条件下で高い精度を示す一方、明示的なテンプレートを除去した自然なストレス・テストでは、$X\text{-MADAM-RAG}$ の厳密精度は0.3000まで低下し、文書レベルの抽出が主要なボトルネックであることが示された。
本研究は、多言語RAGにおいて中国語と英語の検索結果が異なる回答を支持する場合の、モデルの振る舞いを診断・対処することを目的としている。著者らは、6つの均衡された証拠条件を持つ、リーク防止策を講じた中国語・英語証拠衝突ベンチマーク $\text{X-RAMDocs-ZHEN v0.1}$ を構築した。提案手法である $\text{X-MADAM-RAG}$ は、ドキュメントごとの候補抽出、ラベル盲目的修復(label-blind repair)、決定論的なグルーピング、および衝突を意識した集約を行う解釈可能なパイプラインである。実験の結果、$\text{X-MADAM-RAG}$ は単一呼び出しのLLMベースラインを大幅に上回るが、テンプレートを除去した自然なストレス環境下では、ルールベースの抽出器が崩壊する一方で $\text{X-MADAM-RAG}$ もベースラインを下回る性能低下を示した。この分析により、ドキュメントレベルでの抽出の堅牢性が、現在のRAGにおける主要なボトルネックであることが特定された。
既存のRAGにおける忠実性やハルシネーションの診断研究には、パラメータ知識と文脈の衝突を扱う FaithEval や、事実レベルの衝突を扱う FaithfulRAG、詳細な診断を行う RAGChecker、知識中心のハルシネーションを対象とする RefChecker などがある。本研究は、これらのようなオープンエンドな意味的忠実性の評価とは異なり、制御された中英間の証拠の衝突下における回答候補の振る舞いを、自動的な語彙指標を用いて診断する点に特徴がある。知識の衝突(Knowledge conflict)は、検索された証拠が互いに矛盾する場合やパラメータ知識と矛盾する場合に発生するが、本研究は RAMDocs や MADAM-RAG の設定を拡張し、中国語と英語の証拠が「一致」「不一致」「参照候補の言語を反転」のいずれかになるよう制御したクロスリンガルな次元を導入している。手法面では、MADAM-RAG 等の分解ベースのアプローチを踏襲しつつ、文書レベルの抽出後に決定論的な候補グルーピングを行うことで、各段階を個別に検査可能にしている。既存の XRAG や多言語 RAG 研究がクロスリンガルな検索や知識集約型QAを扱っているのに対し、本研究は検索ノイズから衝突の方向性を分離し、中英間の証拠間における回答レベルの不一致に特化して焦点を当てている。
X-RAMDocs-ZHEN v0.1は、中英間の証拠の不一致を診断するベンチマークであり、RAMDocsから派生した300のサンプルと534の証拠ドキュメント(中英各50%)で構成されている。タスクは、与えられた中英の証拠スニペットに基づき、単一・複数・あるいは言語間で矛盾する候補を識別し、追跡可能な証拠に基づいた回答または矛盾を認識した応答を生成することである。矛盾の内容は、エンティティ(144件)、日付(101件)、数値(55件)に分類され、6つの均衡のとれた証拠条件(Evidence Conditions)が設定されている。データ漏洩を防ぐため、標準的な手法には質問、可視的な証拠テキスト、証拠ID、言語タグのみが提供され、正解や条件ラベルなどのメタデータは隠蔽されている。また、テンプレートに依存した回答を検知するための「Naturalized Stress Test」も構築されており、これは明示的な回答テンプレートを排除しつつ、候補文字列とメタデータを保持した決定論的な変換を行っている。なお、ドキュメントレベルのメタデータにアクセスできる「Oracle diagnostic」は、展開不可能な上限分析としてのみ扱われる。
X-MADAM-RAGは、証拠の抽出、可視証拠の修復、候補の正規化、決定論的なグルーピング、および衝突を考慮した集約の5段階で構成されるパイプラインである。各証拠ドキュメントは、質問、公開証拠ID、言語タグ、および可視証拠テキストのみを受け取る抽出エージェントによって独立して処理され、抽出に失敗した場合は、非公開メタデータにアクセスせずに解析済みフィールドや生の出力から候補を補完する修復モジュールが機能する。正規化された候補は決定論的にグルーピングされ、単一のグループが得られれば直接回答を、複数のグループが得られれば衝突の列挙を、グループが得られなければ棄権を出力する。比較手法として、全証拠を結合する naive RAG、言語別に整理する evidence-normalized RAG、ルールベースの rule-only extractor、および抽出の不完全性の影響を推定するための特権的な oracle diagnostic が設定されている。また、修復工程を除去した no-repair や、決定論的グルーピングをモデルベースの判断に置き換えた no-grouping といったアブレーション研究により、各コンポーネントの寄与を分離して評価する。
LLMの実験には、決定論的デコーディング($\text{temperature}=0$)および $\text{bfloat16}$ 重みを用いたローカルの Qwen2.5-7B-Instruct が使用され、NVIDIA RTX 4090 環境下で最大 512 トークンの生成が行われる。評価は、元の 300 サンプルのベンチマークと 100 サンプルの自然化ストレス・サブセットに対して行われ、コンポーネントの切除実験は元のベンチマークのみで実施される。評価指標には、正規化された語彙一致に基づく Strict accuracy、衝突サンプルにおける認識と保持を問う Conflict-aware success、衝突の予測精度を測る Conflict F1、明示的な衝突表現を測る Conflict awareness、および根拠に基づかない候補の割合を示す Unsupported-candidate rate の 5 つの自動指標が用いられる。なお、これらの指標は意味的含意や事実検証、人間による判断を構成するものではない。元のベンチマークの比較においては、シード値 13 の 1,000 回のブートストラップ再サンプリングが用いられ、対検定は探索的なものとして実施される。
元の制御ベンチマーク(300サンプル)において、X-MADAM-RAGは展開可能なLLM手法の中で最高性能を示し、evidence-normalized RAGと比較してstrict accuracyを $0.0767$ 向上させ、unsupported-candidate rateを $0.1067$ から $0.0200$ へ低下させた。しかし、rule-only extractorが同ベンチマークで完全な性能を示すことから、元のベンチマークはテンプレート依存性が高く、意味的な抽出の堅牢性を証明するものではないことが示唆されている。コンポーネントの切除実験では、repair機能を無効にするとstrict accuracyが $0.9667$ から $0.8033$ へと大幅に低下し、決定論的なgroupingをモデルによる衝突判定に置き換えることも性能を悪化させることが確認された。自然言語化されたストレス・テスト(100サンプル)では、rule-only extractorのstrict accuracyが $1.0000$ から $0.0000$ へ、X-MADAM-RAGも $0.9667$ から $0.3000$ へと大幅に低下した。一方で、privilegedなmetadataを用いるoracleは両設定で $1.0000$ を維持しており、この結果は自然言語化された表現下ではドキュメントレベルの抽出が主要なボトルネックであることを特定している。
X-MADAM-RAGは、既存のベンチマークにおいて最も強力なデプロイ可能なLLM手法であり、その内部コンポーネントであるrepair(可視的な証拠から欠落した候補を復元する)やdeterministic grouping(監査可能性と性能を向上させる)の有効性が示されている。しかし、ルールベースの手法が完璧な結果を示すことから、元のベンチマークはテンプレートの規則性が高く、X-RAMDocs-ZHEN v0.1は汎用的な堅牢性ベンチマークではなく、証拠の衝突挙動を診断するための制御されたツールとして理解すべきである。自然言語化されたストレス・テストにおいて、X-MADAM-RAGは単一呼び出しのベースラインを下回る性能劣化を示す一方、oracleは完璧な結果を維持することから、ボトルネックはグルーピングや集約ではなく、抽出段階にあることが特定された。本研究の限界として、使用されたデータは自然に検索された多言語の文章ではなく、RAMDocsのフィールドから派生した制御されたスニペットであること、実験がQwen2.5-7B-Instructという単一のモデルに依存していること、評価指標が自動的な語彙診断に限定され人間による意味的な判断を含まないことなどが挙げられる。したがって、本研究の主張は制御された中英間の証拠衝突の診断に限定されており、広範なハルシネーション検出や自然な検索に対する堅牢性を保証するものではない。
本研究では、RAGにおける中英間の証拠矛盾を診断するための、リーク防止策を講じた制御済みベンチマークである X-RAMDocs-ZHEN を提案し、それに基づき、文書ごとの抽出、可視的な証拠修復、決定論的な候補グルーピング、および矛盾を考慮した集約を行う解釈可能なパイプライン X-MADAM-RAG を検討した。実験の結果、元の制御済みベンチマークにおいて X-MADAM-RAG は単一呼び出しの LLM ベースラインを上回り、アブレーション解析により修復および決定論的グルーピングの有効性が確認された。しかし、ルールのみを用いた抽出器が完全な性能を達成したことは、データセットに強いテンプレートの規則性が存在することを示唆している。明示的なルールの手がかりを除去した自然化ストレス・テストでは、X-MADAM-RAG の性能が単一呼び出しベースラインを下回る一方で、特権的なオラクルは完全な性能を維持したため、抽出の堅牢性が未解決の主要な課題であることが特定された。今後の展望として、自然な検索環境での評価、完全な人間による監査、追加のモデルや言語への適用、およびより堅牢な文書レベルの抽出と意味的な候補検証手法の開発が挙げられる。