従来のRAGは、クエリの構文変化によって検索性能が $15\% \text{--} 20\%$、場合によっては $40\%$ 以上も低下するという脆弱性を抱えている。また、無関係な文書が推論を妨害することでハルシネーションを引き起こす課題もある。既存のSelf-Consistency等の手法は、トークンレベルのサンプリングによる多様性に依存しており、クエリの定式化への感度や、偏った証拠によって強化された誤答を識別する能力に限界がある。本研究は、正解は構文が異なるクエリ間でも高い信頼性を維持するが、ノイズによる誤答は信頼性が変動するという仮説に基づき、この問題に対処する。
本研究の主な貢献は、学習不要で検索コストを大幅に増大させることなく、クロスクエリの一貫性を利用して誤答をフィルタリングするCQC-RAGを提案したことである。TriviaQAにおいて $+4.76 \text{ pp EM}$(実験セクションでは $+10.47$ ポイントと記載)、MuSiQueにおいて $+9.12 \text{ pp EM}$(実験セクションでは $+20.32$ ポイントと記載)の精度向上を達成し、既存の強力なマルチクエリ手法を上回る性能を示した。また、証拠に基づいたプロトコルを用いることで、モデルの忠実性を維持しつつ、外部の教師信号なしに自己評価を行う枠組みを確立した。
まず、元のクエリ $q_0$ に対して、固有名詞を固定するハード制約と、語彙的摂動・構文的再構築・語用論的モダリティのシフトというソフト制約を用いて、意味を維持した多様なクエリ集合 $\mathcal{Q} = \{q_0, q_1, \dots, q_n\}$ を生成する。各クエリ $q_i$ に対して、共有の文書プールからリランキングされたコンテキスト $c_i$ を用い、証拠スパン $e_i$ と回答 $a_i$ のペア $(a_i, e_i)$ を生成する。最終的な回答選択では、以下の式で定義されるクロスクエリ一貫性スコア $S(a, e)$ を用いる:
$$ S(a, e) = \bar{V}(a, e) - \alpha \cdot \text{Var}(V(a, e)) $$
ここで、$\bar{V}(a, e) = \frac{1}{|\mathcal{Q}|} \sum_{q_i \in \mathcal{Q}} V(a, e, q_i)$ であり、$V$ は評価モデルの「Yes/No」トークンのロジットを正規化した決定論的な値である。
TriviaQA、PopQA、HotpotQA、MuSiQueの4つのオープンドメイン質問応答ベンチマークを用いて評価を行った。実験の結果、CQC-RAGはTriviaQAでEMが $+10.47$ ポイント、MuSiQueで $+20.32$ ポイント向上するなど、Self-CertaintyやDMQR-RAGといった既存手法を上回るSOTA性能を達成した。アブレーション解析により、クエリ書き換えとクエリ固有のリランキングの両方が重要であることが示された。特に、証拠に基づいたプロトコルを欠くと、TriviaQAのEMが $15.92$ ポイント低下することが確認されている。また、評価器に独立したMistral-7Bを用いることで、自己強化バイアスを回避している。
CQC-RAGは、単一の検索視点に依存する従来のRAGの限界を、複数のクエリから得られる補完的な推論コンテキストを通じて克服している。本手法の核心である「Cross-Query Consistency Hypothesis」は、真の回答はクエリの構文変化に対して安定しているのに対し、ハルシネーションはクエリに依存した偽の証拠パターンに左右され、信頼度が不安定になるという性質を突いている。これにより、特に検索ノイズや偏った証拠が増幅されやすい複雑なマルチホップ・シナリオにおいて、顕著な堅牢性の向上が実現されている。
CQC-RAGは、意味的に等価だが構文が異なる複数のクエリ間での回答の信頼性の安定性を利用する「Cross-Query Consistency Hypothesis」に基づいた、堅牢な検索拡張生成(RAG)フレームワークである。本手法は、元の質問を意味を維持したまま多様なクエリへと書き換え、共有ドキュメントプールからリランクされたクエリ条件付きの推論コンテキストを構築することで、デコーディングのランダム性に頼らずに多様性を確保する。具体的には、証拠に基づいたプロトコルを用いて回答と証拠のペアを抽出し、複数のコンテキスト間における回答の信頼性(confidence stability)に基づいて最終的な回答を選択する。実験では、4つのオープンドメイン質問応答ベンチマークにおいて、TriviaQAで $+4.76 \text{ pp EM}$、MuSiQueで $+9.12 \text{ pp EM}$ の精度向上を既存の強力なマルチクエリ手法に対して達成しており、外部の教師データなしでノイズに起因するハルシネーションを効果的に除去できることを示した。
RAG(Retrieval-Augmented Generation)は、クエリの構文変化によって検索性能が $15\% \text{--} 20\%$、極端な場合には $40\%$ 以上も低下する脆弱性や、無関係な文書が推論を妨害しハルシネーションを引き起こす課題を抱えている。既存のSelf-Consistency等の手法は、トークンレベルのサンプリングによる多様性注入に依存しており、クエリの定式化への感度への対処や、偏った証拠によって強化された誤答を識別する能力に限界がある。本研究では、正解は意味的に等価だが構文が異なるクエリ間でも高い信頼性を維持する一方、ノイズに起因する誤答は信頼性が変動するという「Cross-Query Consistency Hypothesis」を提唱する。提案手法であるCQC-RAGは、クエリ書き換えによって多様なクエリを生成し、共通の文書プールを各クエリに対してリランクすることで、異なる優先順位を持つ推論コンテキストを構築する。最終的な回答選択では、モデルのロジットに基づき、各クエリ視点における回答の信頼性の平均が高く、分散が低い(high mean and low variance)ものを選択することで、外部の教師信号なしに自己評価を行う。TriviaQAやMuSiQueを用いた実験の結果、CQC-RAGはSelf-ConsistencyやSpeculative RAGといったベースラインを大幅に上回る性能を示し、検索コストを増大させることなく、クロスクエリの一貫性による効果的な誤答フィルタリングが可能であることを実証した。
本研究は、RAGシステムの堅牢性向上と回答の信頼性評価の交差点に位置しており、既存研究の限界を克服することを目指している。クエリレベルの多様性に関する既存手法(Rewrite-Retrieve-ReadやAdaptive-RAGなど)は、主に検索精度の向上や証拠の統合を目的としており、クエリの書き換えによって単一の最適解へ収束させる傾向があるため、推論のための制御可能な多様性の注入という課題を解決できていない。また、回答評価に関する既存のSelf-ConsistencyやRanked Voting、DistriVotingといった手法は、単一のクエリに条件付けられた証拠に基づいた推論の繰り返しに依存しており、ノイズの多い証拠が優先された場合に誤った回答が確信を持って生成される問題に対処できない。これに対し、提案手法であるCQC-RAGは、単一の検索視点を超えた「クロス・クエリ一貫性(cross-query consistency)」を評価軸とすることで、複数のクエリから得られる補完的な推論コンテキストを通じて回答の信頼性を検証する。
CQC-RAGは、単一のクエリに基づく推論の不安定性を克服するため、クエリの多様性と回答の一貫性を利用するフレームワークである。まず、ユーザーの元のクエリ $q_0$ に対して、意味的な等価性を厳密に保ちつつ構文的な多様性を最大化するパラフレーズ生成を行い、クエリ集合 $\mathcal{Q} = \{q_0, q_1, \dots, q_n\}$ を構築する。この際、固有名詞を固定するハード制約に加え、語彙的摂動、構文的再構築、語用論的モダリティのシフトというソフト制約を用いて、リランキング時に異なる文書順序(推論コンテキスト $c_i$)を誘発させる。各クエリ $q_i$ に対して、共有の文書プールからリランキングされたコンテキスト $c_i$ を用いて、証拠スパン $e_i$ と回答 $a_i$ のペア $(a_i, e_i)$ を並列に生成する。最終的な回答の選択には、回答と証拠のペアに対するクロスクエリ一貫性スコア $S(a, e)$ を用い、以下の式で算出される平均検証スコア $\bar{V}(a, e)$ と、分散に基づくペナルティ項を組み合わせる:
$$ S(a, e) = \bar{V}(a, e) - \alpha \cdot \text{Var}(V(a, e)) $$
ここで、$\bar{V}(a, e) = \frac{1}{|\mathcal{Q}|} \sum_{q_i \in \mathcal{Q}} V(a, e, q_i)$ であり、検証スコア $V$ は評価モデルの「Yes/No」トークンのロジットを正規化した決定論的な値として計算される。この手法により、特定のクエリに依存したノイズや幻覚(hallucination)を排除し、複数の視点から一貫して支持される堅牢な回答の特定を可能にしている。
本研究では、クロス・クエリの一貫性(Cross-Query Consistency)を利用して、検索拡張生成(RAG)の堅牢性を高める手法「CQC-RAG」を提案している。評価は、事実知識を問うTriviaQA、ロングテール知識を扱うPopQA、およびマルチホップ推論を要するHotpotQAとMuSiQueの4つのベンチマークで行われ、指標としてExact Match (EM)、F1-score、およびその平均値が用いられた。実験の結果、CQC-RAGはTriviaQAでEMが$+10.47$ポイント、MuSiQueで$+20.32$ポイント向上するなど、標準的なRAGやSelf-Certainty、DMQR-RAGといった既存のマルチパス手法を上回るSOTA性能を達成した。アブレーション解析により、クエリ書き換え(Rewriting)とクエリ固有のリランキング(Query-specific Reranking)の両方が、検証に不可欠な多様な推論コンテキストの生成に寄与していることが示された。特に、証拠に基づいたプロトコル(Evidence-grounded Protocol)を欠くと、TriviaQAのEMが$15.92$ポイント低下するなど、モデルの忠実性が著しく損なわれることが確認された。また、評価器として推論モデル自身を用いるのではなく、独立したモデル(Mistral-7B)を用いることで、自己強化バイアスを回避し、より正確な回答識別が可能となっている。
本研究では、単一のクエリ形式やノイズの多い根拠に基づくRAGの信頼性の限界に対処するため、「Cross-Query Consistency Hypothesis(相互クエリ一貫性仮説)」を提案している。この仮説は、真に適切な根拠に基づく正解は、意味的に等価で構文的に異なる複数のクエリ間でも安定した信頼度を維持するのに対し、ノイズに起因するハルシネーションはクエリに依存した偽の証拠パターンに左右されるため信頼度が不安定になるというものである。これに基づき、追加の検索コストをかけずに、クエリレベルの多様性注入と相互クエリ一貫性の評価を組み合わせた、学習不要のフレームワークであるCQC-RAGを開発した。CQC-RAGは、元の質問を意味を保持したまま複数のバリアントに書き換え、リランキングを通じてクエリごとの推論コンテキストを構築し、それらのコンテキスト間での信頼度の安定性に基づいて回答を選択する。オープンドメインQAベンチマークを用いた実験の結果、CQC-RAGは代表的なマルチパスRAGのベースラインと比較して回答の信頼性を向上させ、特に検索ノイズや偏った証拠が増幅されやすい複雑なマルチホップ・シナリオにおいて顕著な効果を示した。