香港大学推出RAG-Anything：让AI也能"过目不忘"地处理图文混合文档

这项由香港大学郭子瑞、任旭斌、徐令瑞、张佳豪以及黄超教授领导的研究团队完成的研究，发表于2025年1月14日的arXiv预印本平台，论文编号为arXiv:2510.12323v1。对这项研究感兴趣的读者可以通过该编号查询完整论文内容。

当你翻开一本厚厚的教科书时，会发现里面不仅有文字，还有各种图表、公式和插图。这些不同类型的内容就像拼图的各个碎片，只有把它们组合在一起，才能看到完整的画面。但现在的AI助手就像一个只能看懂文字的助理，面对图文混合的复杂文档时，往往会"视而不见"那些重要的图表和公式。

香港大学的研究团队意识到了这个问题。他们发现，现实世界中的知识并不是只存在于纯文本中的。无论是学术论文中的实验图表，还是财务报告中的数据表格，又或者是医学文献中的诊断图像，这些非文字内容往往包含着最关键的信息。传统的检索增强生成系统就像戴着有色眼镜的读者，只能看到文字部分，对其他重要信息视而不见。

为了解决这个问题，研究团队开发了RAG-Anything框架。这个系统就像培养了一个全能助理，不仅能理解文字，还能读懂图表、理解公式、分析表格。更重要的是，它能理解这些不同类型信息之间的关系，就像一个优秀的侦探能够把看似无关的线索串联起来，找到案件的真相。

一、智能文档解析：从混乱到有序的信息整理

当我们面对一份复杂的研究报告时，通常需要在文字、图表和表格之间来回切换，才能理解完整的内容。RAG-Anything系统做的第一件事，就是把这些散乱的信息重新整理，就像一个细心的图书管理员把不同类型的书籍分门别类地摆放整齐。

系统首先会对输入的文档进行"原子化"处理。这个过程就像把一道复杂的菜肴分解成各种食材一样。每个段落、每张图片、每个表格、每个公式都被识别出来，并标记上它们的"身份证"——是文字类型、图像类型、表格类型还是公式类型。这种细致的分类确保了每种信息都能得到专业的处理。

更巧妙的是，系统并不是简单地把这些信息分开处理，而是像编织毛衣一样，保持着它们之间的联系。比如，一个图表的标题、图表本身以及对图表的解释文字，都被系统记录为相关联的信息单元。这样，当需要回答关于某个图表的问题时，系统不仅能找到图表本身，还能同时提供相关的解释和背景信息。

在处理图像内容时，系统会生成两种不同的文字描述。第一种是详细的描述，就像给盲人朋友仔细描述一幅画的内容一样，包含图像中的所有重要细节。第二种是提取关键实体的摘要，就像给这幅画写一个简短的标签，标明主要的人物、物体和关系。这种双重描述确保了图像信息既能被详细理解，又能被快速检索。

对于表格数据，系统会像一个经验丰富的会计师一样，不仅记录表格中的具体数值，还会理解表格的结构关系。每一行、每一列的标题，以及它们之间的逻辑关系，都被系统完整地保存下来。这样，当需要查找某个特定数据时，系统不仅能找到数值本身，还能理解这个数值在整个表格中的含义和位置。

数学公式的处理则更加精细。系统不仅会识别公式的符号和结构，还会理解公式所代表的数学概念和物理意义。就像一个数学老师在黑板上写完公式后，还会解释这个公式是用来计算什么的，在什么情况下使用，公式中每个符号代表什么含义。

二、双图谱构建：搭建知识的立体网络

如果说文档解析是把信息分门别类，那么双图谱构建就是在这些信息之间搭建一座座桥梁，形成一个立体的知识网络。这就像在城市中修建地铁系统，不仅要有各个站点，还要有连接这些站点的线路，让人们能够方便地从一个地方到达另一个地方。

RAG-Anything采用了一种创新的"双图谱"策略。第一个图谱专门处理跨模态关系，就像一个懂多种语言的翻译官，能够理解文字、图像、表格之间的对应关系。比如，当文章中提到"如图1所示"时，系统能够准确地建立文字描述和对应图像之间的连接。当表格中的某个数据被文字解释时，系统也能建立起表格数据和解释文字之间的关联。

第二个图谱则专门负责处理文本内容中的细粒度语义关系。这就像一个专业的文学分析师，能够识别文章中提到的各种概念、人物、事件之间的复杂关系。比如，在一篇研究论文中，系统能够理解某个研究方法是由哪位学者提出的，这个方法解决了什么问题，又被后续的哪些研究所改进。

这两个图谱最终会被巧妙地融合在一起，就像两条河流汇聚成一条更大的河流。融合的过程主要通过实体对齐来实现，也就是识别出在两个图谱中代表同一个概念的节点，然后把它们连接起来。这样，整个系统就形成了一个既能处理跨模态关系，又能理解细致语义联系的综合知识网络。

在图谱构建过程中，系统特别注重保持空间关系和层次结构。比如，在处理一个包含多个子图的复杂图表时，系统会记录每个子图的位置关系，以及它们在整个图表中的层次结构。这样，当用户询问某个特定子图的内容时，系统不仅能找到正确的信息，还能理解这个子图在整体语境中的作用。

对于表格数据，系统会建立详细的行列关系图。每个表格单元不仅包含具体的数值，还记录着它所属的行标题、列标题，以及在整个表格中的位置。这种细致的结构化表示让系统能够准确回答类似"2020年的销售额是多少"这样需要精确定位的问题。

三、混合检索机制：像侦探一样追踪线索

当用户提出问题时，RAG-Anything就像一个经验丰富的侦探开始工作。它不会只采用一种方法去寻找答案，而是同时运用多种侦查手段，确保不遗漏任何重要的线索。

系统首先会对用户的问题进行"线索分析"。如果问题中包含"图表"、"表格"、"公式"这样的关键词，系统就知道用户很可能在寻找特定类型的信息，会相应地调整搜索策略。就像侦探听到"在银行附近"这样的线索时，会重点关注银行周围的监控录像一样。

在实际检索时，系统采用了两条并行的搜索路径。第一条路径是"结构化知识导航"，就像沿着地图上的道路行走一样。系统会利用之前构建的知识图谱，从与问题相关的实体开始，沿着图谱中的连接关系，寻找可能包含答案的信息节点。这种方法特别擅长处理需要多步推理的复杂问题，比如"A导致B，B影响C，那么A对C有什么影响"这类需要逻辑链条的推理。

第二条路径是"语义相似性匹配"，就像通过气味追踪目标一样。系统会将问题转换成数学向量，然后在所有已知信息中寻找语义上最相似的内容。这种方法能够发现那些在图谱中没有直接连接，但在语义上高度相关的信息。

这两条搜索路径会同时进行，最终的结果需要综合考虑多种因素。系统不仅要看信息在结构上的重要性，还要考虑语义相似度，以及用户问题中透露出的模态偏好。比如，如果用户明确询问某个图表的内容，系统会给图像类信息更高的权重。

特别值得一提的是，系统在处理长文档时表现尤为出色。传统方法往往会因为信息过载而迷失方向，就像在图书馆里找书却不知道从哪个书架开始一样。但RAG-Anything通过图谱结构能够快速定位到相关的信息区域，然后在这个局部范围内进行精细搜索，大大提高了检索效率和准确性。

四、智能信息融合：拼接完整的答案拼图

找到相关信息只是解决问题的一半，如何把来自不同模态的信息片段组织成一个连贯、准确的答案，这是RAG-Anything面临的另一个挑战。这个过程就像一个熟练的编辑，需要把来自不同记者的采访素材整理成一篇条理清晰的新闻报道。

当系统收集到相关的信息片段后，首先会进行信息整理。文字信息会被组织成结构化的上下文，就像为一场演讲准备讲稿一样，确保信息的逻辑顺序和重要性排列都是合理的。同时，系统会标记每个信息片段的来源和类型，确保在生成答案时能够正确引用。

对于图像信息，系统采用了一种巧妙的"双轨制"处理方式。在检索阶段，系统使用图像的文字描述来进行匹配和筛选，这就像通过电影简介来选择要看的电影一样。但在最终回答时，系统会重新调用原始的图像内容，确保答案基于最真实、最完整的视觉信息。

信息融合的过程中，系统特别注重保持不同模态信息之间的一致性。比如，如果文字描述和图表内容有矛盾，系统会优先相信视觉证据，因为图表通常包含更精确的数据。这就像法官在法庭上更相信物证而不是口供一样。

系统还会根据问题的类型调整答案的生成策略。对于需要精确数值的问题，系统会重点引用表格数据，并在答案中明确标注数据来源。对于需要理解概念关系的问题，系统会更多地依赖文字信息和知识图谱中的关系链。对于涉及视觉内容的问题，系统会同时利用图像的视觉特征和相关的文字描述。

在生成最终答案时，系统使用先进的视觉语言模型，这就像请了一位既懂文字又懂图像的专家来回答问题。这位"专家"能够同时理解文字上下文和视觉内容，生成既准确又自然的回答。

五、实验验证：在真实世界中的表现

为了验证RAG-Anything的实际效果，研究团队选择了两个极具挑战性的测试平台。这就像选择最困难的考试来检验学生的真实水平一样，只有在最苛刻的条件下表现出色，才能证明方法的真正价值。

第一个测试平台DocBench包含了229个多模态文档，涵盖学术、金融、政府、法律和新闻五个不同领域。这些文档平均长度达到66页，包含约46000个词汇，就像一本中等厚度的专业书籍。测试中包含1102个精心设计的问答对，每个问题都需要从文档中找到准确的答案。

第二个测试平台MMLongBench专门关注长文档理解能力，包含135个文档，涵盖7种不同的文档类型，平均长度约47页。这个测试特别强调在长文档中准确定位信息的能力，就像在一部长篇小说中找到某个特定情节的描述一样困难。

实验结果令人振奋。RAG-Anything在DocBench上达到了63.4%的准确率，明显超过了其他现有方法。特别是在处理多模态内容时，准确率达到76.3%，这意味着在四个问题中，系统能正确回答三个以上。在MMLongBench上，系统的整体准确率达到42.8%，同样显著超越了其他竞争方法。

更有趣的是，研究团队发现，随着文档长度的增加，RAG-Anything的优势变得越来越明显。在超过100页的长文档中，RAG-Anything的性能优势能够达到13个百分点以上。这就像一个马拉松选手，在长距离比赛中展现出的耐力优势远超短跑选手。

为了深入理解系统各个组件的贡献，研究团队还进行了详细的拆分实验。结果显示，图谱构建是系统性能提升的最主要因素。如果移除图谱构建，仅使用传统的文档分块方法，系统准确率会下降3.4个百分点。这证明了结构化知识表示对于处理复杂多模态文档的重要性。

交叉模态重排序机制虽然贡献相对较小，但仍然能够带来约1个百分点的性能提升。这就像在一道已经很美味的菜肴上再加一点调味料，虽然改变不大，但确实能让味道更加完美。

六、典型案例分析：解决实际问题的能力

为了更好地展示RAG-Anything的实际应用能力，研究团队分析了几个典型的成功案例，这些案例就像精彩的破案故事，展现了系统如何巧妙地解决复杂问题。

第一个案例涉及多面板图表的解读。用户询问"根据图2，哪个模型的样式空间显示了不同样式之间更清晰的分离？"这个问题的挑战在于，图2包含多个子图，而正确答案需要比较其中特定子图中的聚类分离效果。

传统方法往往会被多个子图搞混，就像在一个有多个房间的房子里找东西，却总是走错房间一样。但RAG-Anything通过构建视觉布局图谱，将每个子图、坐标轴标题、图例都变成图谱中的节点，并建立了明确的层次关系。这样，系统能够准确定位到"样式空间"这个特定的子图，然后在这个子图内分析聚类分离效果，最终得出正确答案：DAE模型显示了更清晰的分离。

第二个案例展示了系统处理复杂表格数据的能力。用户询问"新诺德2020年在工资和薪酬上的总支出是多少？"这个看似简单的问题其实包含了多重挑战：需要在大型财务表格中准确定位特定公司、特定年份、特定项目的数据。

RAG-Anything将财务报表转换成结构化图谱，每个行标题、列标题、数据单元格都成为图谱中的节点，彼此之间通过"行归属"、"列归属"等关系连接。当处理用户查询时，系统能够精确导航到"工资和薪酬"行与"2020年"列的交汇点，找到准确数值26778百万丹麦克朗。其他方法往往会混淆相似的项目名称或选择错误的年份列，但图谱结构确保了准确的数据定位。

第三个案例涉及复杂的学术图表分析。用户询问某个研究中哪种模型配置的准确率最低。这类问题需要系统不仅理解图表的视觉内容，还要能够比较不同配置的性能数据。

RAG-Anything通过构建包含条形图各个元素的详细图谱，将每个条形、对应的标签、数值都建立明确的对应关系。系统能够识别出"-S-A"配置（移除源推文嵌入和双重共同注意力机制）对应的条形是最低的，从而给出正确答案。这种精确的视觉-文本对齐能力是传统方法难以达到的。

这些案例清楚地展示了RAG-Anything在处理真实世界复杂问题时的优势。系统不仅能够理解用户的问题意图，还能在复杂的多模态信息中准确定位答案，这种能力在学术研究、商业分析、技术文档理解等众多领域都有重要应用价值。

七、技术创新与局限性

RAG-Anything的核心创新在于打破了传统多模态处理系统的架构分割问题。以往的系统就像一个公司里各个部门各自为政，图像处理部门只管图像，文本处理部门只管文字，彼此之间缺乏有效沟通。而RAG-Anything就像建立了一个统一的协调机制，让所有部门能够紧密合作，共同解决复杂问题。

系统的另一个重要创新是双图谱架构。这种设计避免了将所有模态强行融合到单一结构中可能带来的信息损失。就像一个翻译官既要精通每种语言的特色，又要理解语言之间的对应关系一样。交叉模态图谱专门处理不同模态之间的关系，而文本图谱则专门处理文字内容的细致语义，两者结合确保了信息的完整性和检索的精确性。

混合检索机制也是一个重要突破。传统方法要么完全依赖关键词匹配，要么完全依赖语义相似度，就像只用一只眼睛看世界，总会有盲区。RAG-Anything同时使用结构化导航和语义匹配，就像用双眼视物，能够获得更准确的距离感和更全面的视野。

然而，系统也存在一些局限性。首先是计算复杂度问题。构建详细的图谱结构需要大量的计算资源，就像建造一座精密的城市需要更多的时间和材料一样。对于某些简单的查询任务，这种复杂的架构可能显得有些"杀鸡用牛刀"。

其次，系统的性能很大程度上依赖于底层模型的能力。如果用于图像描述或实体识别的基础模型出现错误，这些错误会在后续的图谱构建和检索过程中被放大，就像建筑的地基不稳会影响整座大楼的安全一样。

此外，系统在处理某些特殊类型的内容时仍有改进空间。比如，对于手写文档、艺术性图像或包含大量噪声的扫描文档，系统的解析准确度还需要进一步提升。

最后，虽然实验结果很有前景，但测试数据集的规模和多样性仍然有限。真实世界的文档类型和复杂度远超实验环境，系统在更广泛应用场景下的表现还需要进一步验证。

八、应用前景与影响

RAG-Anything的成功开发为多个领域带来了新的可能性。在学术研究领域，这种技术能够帮助研究人员更高效地处理海量的多模态文献。想象一下，一个生物学家需要从数千篇包含复杂图表和数据的论文中寻找特定的实验结果，RAG-Anything能够像一个超级助手一样，快速定位到相关的图表和数据，大大加速科学发现的进程。

在商业分析领域，这项技术能够革命性地改变企业处理报告和数据的方式。财务分析师不再需要花费大量时间在密密麻麻的报表中查找数据，而可以直接询问具体问题，系统会自动找到相关的图表和数值。这不仅提高了工作效率，还减少了人为错误的可能性。

医疗领域是另一个重要的应用方向。医生在诊断过程中需要综合患者的病历文字记录、检查图像、化验数据等多种信息。RAG-Anything能够帮助医生快速检索相关的医学文献，找到类似病例的诊断图像和治疗方案，为临床决策提供有力支持。

在教育领域，这项技术能够创造出全新的学习体验。学生可以向智能教学系统询问教科书中任何复杂的概念，系统不仅能提供文字解释，还能调用相关的图表、实验数据和示例，提供更加立体和全面的知识讲解。

法律行业也能从中受益。律师在处理案件时经常需要查阅大量包含图表、合同条款、财务数据的法律文档。RAG-Anything能够帮助律师快速找到相关的法律条文、先例案例和支持证据，提高案件准备的效率和准确性。

技术文档管理是另一个重要应用场景。在软件开发、工程设计等领域，技术文档往往包含大量的流程图、架构图、代码示例和配置参数。RAG-Anything能够帮助技术人员快速查找特定的技术信息，减少在复杂文档中寻找答案的时间。

这项技术的社会影响也值得关注。它有潜力显著降低信息获取的门槛，让更多人能够高效地利用复杂的专业文档。这对于教育公平、知识普及和技能提升都有积极意义。同时，它也可能改变某些职业的工作方式，需要相关行业提前做好适应和转型的准备。

从长远来看，RAG-Anything代表的不仅是一项技术进步，更是人工智能向更加智能、更加实用方向发展的重要里程碑。它展示了AI系统处理复杂现实问题的能力正在快速提升，为构建真正智能的信息助手奠定了基础。

说到底，RAG-Anything解决的是一个我们每个人都会遇到的问题：如何在信息过载的时代快速找到我们真正需要的知识。无论你是学生、研究者、商业分析师还是普通上班族，这项技术都可能改变你获取和处理信息的方式。它让AI助手从只能"阅读"文字的初级助理，升级为能够理解图表、分析数据、解读复杂文档的全能伙伴。虽然这项技术还在不断完善中，但它已经为我们展示了一个更加智能、更加便捷的信息处理未来。对这项突破性研究感兴趣的读者，可以通过论文编号arXiv:2510.12323v1查询完整的技术细节和实验数据。

Q&A

Q1：RAG-Anything与传统的AI文档处理系统有什么区别？

A：传统系统只能理解文字内容，遇到图表、公式就像盲人摸象。RAG-Anything则像培养了一个全能助理，不仅能读懂文字，还能理解图表、分析表格、解读公式，更重要的是能理解这些不同信息之间的关系，就像把散落的拼图碎片重新组合成完整画面。

Q2：RAG-Anything在处理长文档时为什么表现更好？

A：长文档就像一座大图书馆，传统方法会迷失在海量信息中。RAG-Anything通过构建知识图谱，就像给图书馆建了详细的索引系统，能快速定位到相关信息区域，然后精确查找。文档越长，这种结构化导航的优势越明显，性能提升可达13个百分点以上。

Q3：普通人什么时候能用上RAG-Anything技术？

A：虽然完整系统还在研究阶段，但这种技术已经在逐步应用到实际产品中。未来几年内，我们可能会在智能办公软件、在线教育平台、专业分析工具中看到类似功能。它将让每个人都能像拥有专业助理一样，轻松处理复杂的图文混合文档。