个人学习工作分享

标签
科技前沿

AI答非所问？你的知识库为什么不好用？4500字长文带你读懂rag发展史

学习

文章摘要：本文介绍了RAG（检索增强生成）技术的演进历程，从最初的Naive RAG到Advanced RAG、Modular RAG、Graph RAG以及最后的Agentic RAG。文章详细描述了每种形态的特点、技术突破、应用场景和局限性，并提到了文档处理在RAG系统中的重要性和相关开源项目的应用。最后，文章探讨了RAG技术的实用化和落地应用的前景，以及AI自主决策在RAG未来发展中的重要作用。关键词：RAG、科技前沿、AI答非所问、知识库、发展历程一、引言近年来，人工智能技术在自然语言处理领域取得了显著进展，其中RAG（检索增强生成）技术备受关注。RAG通过集成实时数据检索来增强大型语言模型（LLM），以提供与上下文相关的最新响应。本文旨在带您了解RAG技术的发展历程，从最初的Naive RAG到Agentic RAG，探究RAG的进化历程和实用化前景。二、RAG的初步形态：Naive RAG Naive RAG是RAG技术的初步形态，基础但功能相对简单。它依赖于简单的基于关键字的检索技术从静态数据集中获取文档，然后利用这些文档增强语言模型的生成功能。虽然Naive RAG存在局限性，如缺乏上下文感知、碎片化输出和可扩展性问题，但它为集成检索与生成提供了关键的概念验证，为更复杂的范式奠定了基础。三、RAG的进阶形态：Advanced RAG Advanced RAG是RAG技术的重要进步，实现了密集向量搜索和上下文重新排序等技术突破。它能够在用户查询和检索到的文档之间实现更好的语义对齐，从而提供更精准的答案。然而，Advanced RAG仍然面临计算开销和可扩展性受限等挑战，尤其是在处理大型数据集或多步骤查询时。四、RAG的模块化发展：Modular RAG Modular RAG是RAG技术的重要发展方向，它将RAG系统拆分为可替换的模块，如检索器、生成器和工具接口，按需定制。这种灵活性使得Modular RAG能够适应不同的用例，提高了系统的可配置性和适应性。Modular RAG的出现打破了“一刀切”的解决方案，成为企业落地RAG的主流选择。五、RAG的关系化拓展：Graph RAG Graph RAG是RAG技术的关系化拓展，通过集成基于图的数据结构来扩展传统的检索增强生成系统。它能够利用图形数据中的关系和层次结构来增强多跳推理和上下文丰富性，实现更丰富、更准确的生成输出。然而，Graph RAG也面临着可扩展性、数据依赖性和集成复杂性的挑战。六、RAG的终极形态：Agentic RAG Agentic RAG作为RAG技术的终极形态，追求AI自主决策的能力。它通过智能代理技术实现AI系统的自主决策能力，能够自主处理复杂任务、自适应调整参数和自主优化性能。Agentic RAG的出现将带来RAG技术的重大突破，为实现真正的智能化应用提供支持。七、文档处理在RAG系统中的重要性和相关开源项目应用在RAG系统中，文档处理是一个核心模块，其质量直接影响后续的检索结果和回答生成效果。为了提升文档处理的效果，出现了许多开源项目，如微软的Markdown和基于模型的分片处理Agentic Chunking等。这些项目为RAG系统的文档处理提供了有效的工具和方法。八、结论与展望 RAG技术作为自然语言处理领域的重要突破，经历了从Naive RAG到Agentic RAG的演进历程。未来，随着技术的不断发展，RAG系统将更加实用化、智能化和自主化。我们将继续关注RAG技术的发展，期待它在各个领域带来更大的突破和创新。

阅读anthropic building-effective-agents 文章有感而发

学习

作者最近对开源平台上的一篇关于构建有效代理的文章进行了阅读，引发了对智能创作、工作流程和代理的思考。文章讨论了构建智能代理的几种流程，包括从用户查询到LLM的处理过程以及创建智能工作流的经验。作者关注到了通过预定义代码路径编排LLM和工具的系统工作流程的复杂性。在开发智能代理时，重点在于有足够聪明的模型和接口定义清晰明确的工具。作者在探讨如何改善模型工具使用过程中的模糊性问题，如数据检索和合并时可能出现的问题，强调了接口定义描述清晰的重要性。最后作者讨论了模型返回结果的格式化控制问题以及公众号的关注等后续内容。整体来看，这是一篇关于AI和科技前沿领域内的思考和探讨的文章。

大升级！LLM应用监控、测试、优化一步到位！

学习

本文介绍了使用langfuse工具来监控、测试和优化LLM（大模型）应用的方法。文章详细描述了langfuse的功能，包括LLM可观测性、提示管理、LLM评估、数据集管理等。文章还介绍了langfuse最近的v3.0.0大版本更新，包括引入Async Worker和Redis提高系统性能，使用Clickhouse和S3/Blob Storage处理不同类型的数据等。此外，文章还展示了如何使用langfuse的云服务来追踪和管理LLM应用，包括安装sdk、使用trace功能、提示词管理等。总结部分鼓励读者分享使用langfuse的经验和想法，并欢迎大家关注公众号。关键词：python、AI、开源、好玩的项目、科技前沿、大升级、LLM应用监控优化。

微软开源的处理工具 - markitdown

学习

微软最近开源了一个Python工具markitdown，可以将各种格式的文件和office相关格式的文件转换为Markdown格式。该工具支持多种文件格式，包括PDF、PowerPoint、Word、Excel、图片、音频、HTML等。它还支持调用大模型处理图片、音视频等格式的文件数据。markitdown工具具有安装简便、支持多种转换器以及API集成等特点，能够满足非结构化数据转换、模型训练效率提高、复杂文档解析、知识管理和团队协作、数据源集成等方面的需求，助力在线文档与静态网站的构建，促进批量处理和自动化，是科技前沿的一种重要的处理工具。

ChatGpt崩了，Gemini 2.0上线

杂的文

今天上午访问ChatGPT时服务似乎挂掉了，具体原因不明。与此同时，谷歌发布了Gemini 2.0，这是科技领域的一大进展。Gemini 2.0具有显著的性能提升，相较于前代产品Gemini 1.5 Pro，其在关键基准测试中的性能大幅提升，速度达到后者的两倍。该版本支持多模态输入与输出，包括图像、视频和音频等，并可直接调用Google搜索、执行代码以及第三方用户定义的函数等工具。此外，Gemini 2.0 Flash作为该系列的第一个模型，集成了文本转语音和图像生成技术，并免费提供给所有Gemini用户使用。谷歌在开发过程中采取了负责任的态度，通过识别和理解潜在风险来减轻AI的风险。同时，推出了三个智能体研究原型，展示了AI向智能助手转变的潜力。