技術文書におけるRAGの課題である、情報の断片化と関係性の喪失に対処するための手法である。技術文書では、一つの回答の根拠が番号付き条項や図表、キャプションなどに分散して存在するため、単純なチャンク分割では文脈が失われる。本研究は、文書を「不均一な要素グラフ(heterogeneous element graph)」として表現することで、この問題の解決を図っている。
技術文書の構造を保持する「TechDocRAG」フレームワークの提案である。各要素に対して「技術的識別子(technical identifiers)」、「意味的要約(semantic summaries)」、「生の根拠(raw evidence)」の3つの視点から検索を行う仕組みを構築した。これにより、製品マニュアルやエンジニアリング文書における回答精度と、根拠のヒット率を劇的に向上させた。
文書を不均一な要素グラフとして表現し、3つの検索ビューを整合させる手法を用いる。具体的には、識別子を意識したリコール(identifier-aware recall)から始まり、要約レベルでのリランキング、そして最終的に生の根拠を束ねる(raw evidence bundling)というプロセスで検索が進む。これにより、分散した情報を構造的に再構成して回答に利用する。
製品マニュアルやエンジニアリング文書、マルチモーダルPDFを含む4つのベンチマーク(計7,500件以上のQAペア)を用いて評価を行った。結果として、最強のフラットなベースラインに対し平均エンドツーエンドスコアで20.3ポイント、最強の非フラットなベースラインに対し9.3ポイントの向上を確認した。また、厳密な根拠のヒット率は0.510から0.942へと大幅に改善した。
技術文書における信頼性の高いRAGは、単に多くのパッセージを検索することよりも、根拠の解釈可能性を支える「関係性の保持」に依存していることが示唆された。堅牢性テストでは、関係性の喪失による性能低下は緩やかであったが、識別子の深刻な破損には敏感に反応することが分かった。クエリの遅延時間は、標準的なハイブリッド検索と同程度であり、実用性も示されている。