AI答非所问?你的知识库为什么不好用?4500字长文带你读懂rag发展史

学习 

文章摘要:本文介绍了RAG(检索增强生成)技术的演进历程,从最初的Naive RAG到Advanced RAG、Modular RAG、Graph RAG以及最后的Agentic RAG。文章详细描述了每种形态的特点、技术突破、应用场景和局限性,并提到了文档处理在RAG系统中的重要性和相关开源项目的应用。最后,文章探讨了RAG技术的实用化和落地应用的前景,以及AI自主决策在RAG未来发展中的重要作用。 关键词:RAG、科技前沿、AI答非所问、知识库、发展历程 一、引言 近年来,人工智能技术在自然语言处理领域取得了显著进展,其中RAG(检索增强生成)技术备受关注。RAG通过集成实时数据检索来增强大型语言模型(LLM),以提供与上下文相关的最新响应。本文旨在带您了解RAG技术的发展历程,从最初的Naive RAG到Agentic RAG,探究RAG的进化历程和实用化前景。 二、RAG的初步形态:Naive RAG Naive RAG是RAG技术的初步形态,基础但功能相对简单。它依赖于简单的基于关键字的检索技术从静态数据集中获取文档,然后利用这些文档增强语言模型的生成功能。虽然Naive RAG存在局限性,如缺乏上下文感知、碎片化输出和可扩展性问题,但它为集成检索与生成提供了关键的概念验证,为更复杂的范式奠定了基础。 三、RAG的进阶形态:Advanced RAG Advanced RAG是RAG技术的重要进步,实现了密集向量搜索和上下文重新排序等技术突破。它能够在用户查询和检索到的文档之间实现更好的语义对齐,从而提供更精准的答案。然而,Advanced RAG仍然面临计算开销和可扩展性受限等挑战,尤其是在处理大型数据集或多步骤查询时。 四、RAG的模块化发展:Modular RAG Modular RAG是RAG技术的重要发展方向,它将RAG系统拆分为可替换的模块,如检索器、生成器和工具接口,按需定制。这种灵活性使得Modular RAG能够适应不同的用例,提高了系统的可配置性和适应性。Modular RAG的出现打破了“一刀切”的解决方案,成为企业落地RAG的主流选择。 五、RAG的关系化拓展:Graph RAG Graph RAG是RAG技术的关系化拓展,通过集成基于图的数据结构来扩展传统的检索增强生成系统。它能够利用图形数据中的关系和层次结构来增强多跳推理和上下文丰富性,实现更丰富、更准确的生成输出。然而,Graph RAG也面临着可扩展性、数据依赖性和集成复杂性的挑战。 六、RAG的终极形态:Agentic RAG Agentic RAG作为RAG技术的终极形态,追求AI自主决策的能力。它通过智能代理技术实现AI系统的自主决策能力,能够自主处理复杂任务、自适应调整参数和自主优化性能。Agentic RAG的出现将带来RAG技术的重大突破,为实现真正的智能化应用提供支持。 七、文档处理在RAG系统中的重要性和相关开源项目应用 在RAG系统中,文档处理是一个核心模块,其质量直接影响后续的检索结果和回答生成效果。为了提升文档处理的效果,出现了许多开源项目,如微软的Markdown和基于模型的分片处理Agentic Chunking等。这些项目为RAG系统的文档处理提供了有效的工具和方法。 八、结论与展望 RAG技术作为自然语言处理领域的重要突破,经历了从Naive RAG到Agentic RAG的演进历程。未来,随着技术的不断发展,RAG系统将更加实用化、智能化和自主化。我们将继续关注RAG技术的发展,期待它在各个领域带来更大的突破和创新。

Docker - 飞牛NAS部署电子书阅读,支持刮削和手机阅读~


本文介绍了如何在飞牛NAS上部署talebook来阅读电子书,并分享了如何在手机上通过app进行阅读。首先,通过docker-compose文件在飞牛NAS上部署talebook,并配置相关参数。然后,通过扫描书籍导入书籍信息。最后,介绍了如何使用手机app(安卓的静读天下和iOS的kybook)来访问talebook服务并阅读电子书。本文还提到了配置互联网书籍信息源和刮削书籍信息的步骤。总结来说,本文提供了一种在飞牛NAS上部署电子书阅读服务的方法,并支持刮削和手机阅读。

Docker - NAS部署新闻聚合平台,永远吃瓜第一线~

nas 

本文介绍了一个基于Docker的NAS部署新闻聚合平台——newsnow。该平台可部署在多种支持Docker的NAS系统,如飞牛、群晖、绿联、极空间等。通过docker部署,安装简单,只需配置环境变量,包括端口、github登录密钥、JWT秘钥、数据库初始化和缓存设置等。新闻源数据保存在SQLite数据库中,可查看和管理新闻源数据。还提供其他注意事项,如解决网络问题导致的docker拉取失败等。关注公众号《编程挺好玩》可交流讨论。

飞牛NAS影视应用更新!qBittorrent下载的小坑要注意!

nas 

飞牛NAS系统更新了影视应用,修复了多个bug。其中涉及qBittorrent下载器的问题,包括监控媒体文件更新和下载过程中可能触发的CPU异常占用。同时提供了一个小技巧,即在qb的设置中添加特定配置,实现自动下载种子文件的功能。需要注意的是,建议设置复杂的qb密码以增强安全性。本文首发于公众号《编程挺好玩》,欢迎关注。

飞牛NAS打造专属音乐时光机,珍藏你的听歌足迹!

nas 

本文介绍了如何使用飞牛NAS搭配navidrome、musictag以及音流app来打造专属音乐时光机,记录并珍藏听歌足迹。文章详细阐述了navidrome关于音乐记录的功能,包括与last.fm和ListenBrainz的集成,以及Spotify的配置。此外,文章还分享了在配置过程中遇到的问题及解决方案,如创建应用data-share目录失败的问题。最后,文章提供了完整的docker-compose.yaml文件配置示例,并鼓励读者分享自己的体验或心得。

飞牛NAS常用下载器盘点

nas 

本文盘点了飞牛NAS上常用的下载器,包括迅雷、qBittorrent、transmission、Aria2以及百度网盘。迅雷下载BT资源速度快,但需注意设置限速及上传速度。qBittorrent和transmission类似于BT下载,可根据网络情况调整下载和上传速度限制。Aria2需要设置密钥,与其他下载器类似。百度网盘则是一个在线存储和分享平台。总体而言,各下载器有其特点和优势,用户可根据需求选择。

纯粹乐享,用飞牛NAS打造专属私人音乐库经验分享

nas 

本文介绍了在飞牛NAS上使用navidrome搭建私人音乐服务的过程。包括navidrome的安装和音乐文件的扫描,使用music tag补充音乐信息,以及手机APP音流的配置。文章还介绍了如何刮削音乐文件,包括封面图和歌词的获取和保存。最后,文章总结了整个过程的体验和可能的缺点。关键词:纯粹乐享,飞牛NAS音乐库建设经验分享。

100天深度体验,飞牛NAS如何改变普通用户的数字生活

nas 

作者分享了他在使用飞牛NAS的硬件成本和安装应用的过程体验,涵盖了硬件和成本投入,系统优化和资源存储扩充方面的详细体验;也详细介绍了其在应用方面的情况,如影视、外网访问和数据备份等方面具体操作的细节与感悟体验,描述了通过FTP等云服务以及其他的互联网技术和服务来改善其数据管理情况的实际经验和使用体会,飞牛NAS对其数字生活带来的改变和影响。整体来看,这是一篇深度体验飞牛NAS系统的文章,总结了作者在飞牛NAS系统应用方面的实践经验和感悟。

飞牛防火墙设置

nas 

飞牛近期更新了版本,增加了防火墙功能。防火墙设置包括启用防火墙、选择工作模式(Auto或Genic)、配置局域网访问权限、设置入站规则和出站规则等。入站规则管理外部网络试图进入受保护网络的数据流,出站规则管理从受保护网络发出的数据流。飞牛默认未匹配规则的访问是允许的,但建议更改默认允许访问的选项为拒绝访问,并根据需要开放特定应用端口。操作包括在飞牛系统的命令行查看日志变动,并添加开放的应用到外网访问。飞牛的frpc应用设置的端口似乎不受此限制,可能需进一步配置。欢迎大家关注作者公众号以获取更多更新。

为什么不推荐在 Django 的orm查询中使用 .first()查询唯一记录

学习 

Django是一个流行的Python框架,其ORM(对象关系映射)简化了数据库交互。对于查询唯一记录,推荐使用.get()而不是.first(),因为.first()会引入不必要的排序操作,可能影响性能。然而,如果查询字段有索引,排序的性能开销通常可以忽略。Django的ORM允许开发者使用Python代码操作数据库,无需编写复杂的SQL语句。在使用Django的ORM进行查询时,需要注意索引的使用,因为索引可以显著提高查询性能。此外,可以在Django的settings.py中设置开启ORM查询时的SQL日志,以便性能分析和调试。