我们一直专注于单个块,但有时最好的信息分布在多个连续的块上。相关段提取 (RSE) 解决了这个问题。 RSE 不仅仅抓取前 k 个块,还尝试识别和提取相关文本的整个片段。

源代码

https://github.com/CrazyAndy/rag-all-techniques/blob/main/app/08_rse.py

增强RAG的关联段落提取(RSE)

实现关联段落提取(Relevant Segment Extraction,RSE)技术,以提高RAG系统的上下文质量。我们不仅仅检索一组孤立的片段,而是识别并重建提供更好上下文的连续文本段落,从而为语言模型提供更好的支持。

核心原理

相关的片段往往会在文档中聚集成簇。通过识别这些簇并保持其连续性,RSE为大型语言模型提供了更加连贯的上下文。

设计思路

Written by

虎哥(微信:hugeaitop)

我是AI领域知识学习的小学生,大家一起来学AI哈!

大家一起来讨论