我们一直专注于单个块,但有时最好的信息分布在多个连续的块上。相关段提取 (RSE) 解决了这个问题。 RSE 不仅仅抓取前 k 个块,还尝试识别和提取相关文本的整个片段。
源代码
https://github.com/CrazyAndy/rag-all-techniques/blob/main/app/08_rse.py
增强RAG的关联段落提取(RSE)
实现关联段落提取(Relevant Segment Extraction,RSE)技术,以提高RAG系统的上下文质量。我们不仅仅检索一组孤立的片段,而是识别并重建提供更好上下文的连续文本段落,从而为语言模型提供更好的支持。
核心原理
相关的片段往往会在文档中聚集成簇。通过识别这些簇并保持其连续性,RSE为大型语言模型提供了更加连贯的上下文。
大家一起来讨论