铭鸿体育资讯网

技术博文:我们如何为 RAG 建立图像索引 -- 让 LLM 能够读取技术文档中

技术博文:我们如何为 RAG 建立图像索引 -- 让 LLM 能够读取技术文档中的截图、图表和表格地址:www.kapa.ai/blog/how-we-index-images-for-rag“Kapa 构建能够根据技术文档回答问题的 AI 助手。我们处理的知识库中包含数百万张图像:截图、架构图、电路原理图、带注释的 UI 操作指南等。我们花了数月时间研究如何让这些图像在我们的 RAG 流水线中发挥作用。

简而言之:我们不会在查询时将图像发送给模型。相反,我们在建立索引时使用廉价的视觉模型对每张图像进行一次描述,将这些描述以文本形式存储,并在检索时与普通文本块一起返回。

建立索引是一次性成本;完成之后,相较于纯文本方案,每次查询的额外开销仅增加 1% 到 6%,而回答质量则有可测量且具有统计学显著性的提升。本文将介绍我们是如何实现这一点的。”AI创造营