A Systematic Literature Review of Retrieval-Augmented Generation: Techniques, Metrics, and Challenges

Andrew Brown, Muhammad Roman, Barry Devereux
採択先: Big Data and Cognitive Computing ・ 2025-12-12 ・ source: openalex

補充候補採択先 Big Data and Cognitive Computing公開日 2025-12-12キーワード一致 2被引用 12関連度 5アブストラクト読む価値 4/5

RAGの最新動向を網羅した系統的レビューであり、LLMを用いた選別プロセスなど手法も現代的。研究の指針として非常に有用。

本文取得済み: アブストラクトを根拠に要約しています。

Retrieval-Augmented GenerationRAG

一言で: 2020年から2025年5月までのRAG（Retrieval-Augmented Generation）に関する高引用論文128件を対象とした、PRISMA 2020フレームワークに基づく系統的文献レビュー。RAGのアーキテクチャ、データセット、評価指標、および課題を体系化し、今後の研究の優先方向を提示する。

どんなもの？

本研究は、LLMの課題である事実の幻覚（hallucination）、知識の陳腐化、およびドメイン特化型クエリへの対応力を改善する手法であるRAGに関する包括的なレビューである。RAGは、事前学習によるパラメータメモリと、推論時に外部コーパスから取得する非パラメータメモリを組み合わせることで、モデルの重みに蓄えられた意味的な汎化性能を維持しつつ、出力を最新の知識に接地（grounding）させる。分析の基準点（baseline）として、Lewis et al. による Dense Passage Retriever と sequence-to-sequence generator を組み合わせたオリジナルのRAGアーキテクチャを採用している。対象範囲は、2020年から2025年5月までに発表された、RAGまたは類似の検索ベースのシステムに関する影響力の高い研究である。

先行研究と比べてどこがすごい？

本研究は、RAGの構成要素であるRetrieval Mechanism、Chunking Mechanism、Vector Space Encoder、Generation Modelを詳細にカタログ化している。4721件の記録から、厳格な基準に基づき128件の主要論文を抽出・分析した。研究分野の分布として、知識集約型タスク（27.34%）、オープンドメイン質問応答（15.62%）、ソフトウェア工学（10.16%）、医療分野（8.59%）といったドメイン別の傾向を明らかにした。これにより、NLP研究者やエンジニアに対し、堅牢でスケーラブルなRAGシステム構築のための指針と、手法上のギャップ、および今後の研究の優先方向を提供している。

技術や手法のキモはどこ？

PRISMA 2020ガイドラインに準拠し、Identification、Screening、Inclusionの3段階で構成される体系的なレビューを実施した。検索対象はACM Digital Library、IEEE Xplore、Scopus、ScienceDirect、DBLPの5つの主要データベースである。論文の選別には引用数によるフィルタリングを用い、2025年刊行論文は15件以上、2024年以前の論文は30件以上の引用を必須条件とした。スクリーニング工程では、2名の査読者による独立した作業に加え、`deepseek-ai/DeepSeek-R1-Distill-Llama-70B` を用いた多数決によるLLM支援を導入している。データ抽出には、RAGフレームワークを用いた自動抽出と人間による検証を組み合わせる手法を採用した。

どうやって有効だと検証した？

4721件の初期記録から、重複や基準外の文献を除去するプロセスを経て、最終的に128件の研究を分析対象として抽出した。除外された16件のフルテキスト論文については、RAG以外が主眼であるもの（$n=7$）、RAGが補助的な構成要素に留まるもの（$n=7$）、生成型検索（Generative Retrieval）など概念が異なるもの（$n=2$）と詳細に分類し、選別の妥当性を確保している。また、2025年の論文については、引用数の少なさに起因するバイアスを軽減するため、引用数の閾値を低く設定する調整を行っている。

議論はある？（限界・課題）

本レビューでは、RAGの有効性と限界に関する実証的証拠を提示しているが、データ抽出プロセスにおける特有の課題も指摘されている。具体的には、RAG特有のハルシネーションのリスクや、検索された文脈（context）内に必要な情報が欠落している可能性が挙げられる。文献の年次分布を見ると、2024年に顕著な増加が見られるが、2025年のデータは調査時点での未完了な数値である点に注意が必要である。今後の研究においては、特定ドメインへの集中だけでなく、抽出された手法のギャップを埋めるためのスケーラビリティと堅牢性の向上が求められる。

セクション別の詳細要約

A Systematic Literature Review of Retrieval-Augmented Generation: Techniques, Metrics, and Challenges

本研究は、2020年から2025年5月までに発表された高引用論文を対象に、Retrieval-Augmented Generation (RAG) に関する系統的な文献レビューを行ったものである。RAGは、ニューラルなリトリーバーと生成言語モデルを結合することで、モデルの重みに蓄えられた意味的な汎化性能を維持しつつ、出力を最新かつ非パラメトリックなメモリに接地（grounding）させる手法として定義される。PRISMA 2020フレームワークに基づき、ACM Digital LibraryやIEEE Xploreなどの主要データベースから抽出された128件の論文を対象に、データセット、アーキテクチャ、評価手法、およびRAGの有効性と限界に関する実証的証拠をカタログ化している。分析においては、引用数の少なさに起因するバイアスを軽減するため、2025年に発表された論文に対しては引用数の閾値を低く設定する調整が行われている。本レビューは、現在の研究動向を明らかにするとともに、手法上のギャップを特定し、今後の研究の優先方向を提示することを目的としている。

I Introduction

Retrieval-Augmented Generation (RAG) は、事前学習によるパラメータメモリと、推論時に外部コーパスから取得する非パラメータメモリを組み合わせることで、LLMの課題である事実の幻覚（hallucination）や知識の陳腐化、ドメイン特化型クエリへの対応力を改善する手法である。本研究は、PRISMA 2020声明に基づき、2020年から2025年5月までに発表された影響力の高い128件の研究を対象とした系統的文献レビューであり、Semantic Scholarの引用統計を用いて選別を行っている。レビューの基準点（baseline）として、Lewis et al. による Dense Passage Retriever と sequence-to-sequence generator を組み合わせたオリジナルのRAGアーキテクチャを採用し、各変種をこの基準と比較して特徴付けしている。本稿は、データセット、アーキテクチャ、評価指標、および未解決の課題を体系化することで、NLP研究者とエンジニア双方に対し、より堅牢でスケーラブルなRAGシステムの構築に向けた指針を提供することを目的としている。

II Methodology

本研究のメソドロジーは、PRISMA 2020ガイドラインに準拠した体系的な文献レビューであり、Identification、Screening、Inclusionの3段階で構成されています。検索対象はACM Digital Library、IEEE Xplore、Scopus、ScienceDirect、およびDBLPの5つのリソースであり、2020年1月から2025年5月までに発表された、RAGまたは類似の検索ベースのシステムに関する研究に限定しています。採択基準には引用数によるフィルタリングが含まれており、2025年刊行論文は15件以上、2024年以前の論文は30件以上の引用が必須条件となっています。スクリーニング工程では、2名の査読者が独立して実施するほか、意思決定の補助として `deepseek-ai/DeepSeek-R1-Distill-Llama-70B` を用いた多数決によるLLM支援も導入されています。データ抽出においては、RAGの構成要素（Retrieval Mechanism, Chunking Mechanism, Vector Space Encoder, Generation Model）やドメイン、使用データセット、評価指標などを詳細に記録しており、抽出の正確性を担保するためにRAGフレームワークを用いた自動抽出と人間による検証を組み合わせています。ただし、データ抽出プロセスにおける課題として、RAG特有のハルシネーションのリスクや、検索された文脈内に必要な情報が欠落している可能性が挙げられています。

III Results

本研究では、4721件の記録から重複や基準外の文献を除去した結果、最終的に128件の研究を分析対象として抽出した。除外された16件のフルテキスト論文については、主要な焦点がRAG以外であるもの（$n=7$）、RAGが補助的な構成要素に留まり実質的な分析が欠如しているもの（$n=7$）、および生成型検索（Generative Retrieval）のようにRAGとは概念的に異なるパラダイムに焦点を当てたもの（$n=2$）に分類されている。文献の年次分布は2020年から2023年にかけて増加傾向にあり、2024年に顕著な増加が見られるが、2025年の数値は調査時点での未完了なデータであることを考慮する必要がある。研究分野のドメイン別分布では、知識集約型タスクが27.34%と最も多く、次いでオープンドメイン質問応答（ODQA）が15.62%、ソフトウェア工学が10.16%、医療分野が8.59%となっており、特定の領域への集中と多様なニッチ分野の存在が示されている。