个人学习工作分享|生命不止，折腾不息。

重磅更新！飞牛NAS再也不用担心停电了

nas

飞牛NAS系统更新了版本0.8.27，新增了ups功能，支持USB通讯协议，断电后可自动安全关机，解决了停电导致的硬盘损坏问题。同时，新增了文件共享协议范围可选远程挂载、外接存储和应用文件，mac用户可通过时间机器进行数据备份。管理员可备份所有用户的文件，包括其他用户的目录和应用文件。此外，还新增了花生壳应用，提供内网穿透功能。更新还包括smb多通道、共享协议文件范围、备份任务管理等。总的来说，这次更新增强了数据安全保障，提升了用户体验。

大升级！LLM应用监控、测试、优化一步到位！

学习

本文介绍了使用langfuse工具来监控、测试和优化LLM（大模型）应用的方法。文章详细描述了langfuse的功能，包括LLM可观测性、提示管理、LLM评估、数据集管理等。文章还介绍了langfuse最近的v3.0.0大版本更新，包括引入Async Worker和Redis提高系统性能，使用Clickhouse和S3/Blob Storage处理不同类型的数据等。此外，文章还展示了如何使用langfuse的云服务来追踪和管理LLM应用，包括安装sdk、使用trace功能、提示词管理等。总结部分鼓励读者分享使用langfuse的经验和想法，并欢迎大家关注公众号。关键词：python、AI、开源、好玩的项目、科技前沿、大升级、LLM应用监控优化。

Duplicati alist备份百度网盘提示error

Q&A

使用Duplicati和alist备份数据至百度网盘时遇到文件报错提示，具体问题为某个文件大小超过百度网盘限制导致无法备份。解决方法是调整远程卷的大小以减少数据量，重新备份即可。同时，建议进行数据多重备份以增加安全性。

腾讯云智能结构化OCR实战：从图片到结构化数据的高效转换

学习

本文介绍了作者使用腾讯云智能结构化OCR服务的实战体验。文章首先描述了作者的需求背景，即汇总多个理财子公众号发布的理财产品的数据。由于遇到一些识别不准确和费用较高的问题，作者尝试使用腾讯云的智能结构化OCR服务来解决问题。文章详细介绍了安装SDK、代码实现、验证和web部署的过程，并分享了使用腾讯云智能结构化OCR服务的体验。整体上，腾讯云智能结构化OCR服务用起来比较简单，相较于传统OCR，多了一层结构化数据的处理。文章最后欢迎大家在评论区留言分享对OCR应用的经验和看法。

微软开源的处理工具 - markitdown

学习

微软最近开源了一个Python工具markitdown，可以将各种格式的文件和office相关格式的文件转换为Markdown格式。该工具支持多种文件格式，包括PDF、PowerPoint、Word、Excel、图片、音频、HTML等。它还支持调用大模型处理图片、音视频等格式的文件数据。markitdown工具具有安装简便、支持多种转换器以及API集成等特点，能够满足非结构化数据转换、模型训练效率提高、复杂文档解析、知识管理和团队协作、数据源集成等方面的需求，助力在线文档与静态网站的构建，促进批量处理和自动化，是科技前沿的一种重要的处理工具。

fast-graphrag 探索（3）- insert

学习

摘要：本文介绍了fast-graphrag的插入流程，包括state_manager属性的介绍、GraphRAG类实例的state_manager是DefaultStateManagerService的介绍、以及插入文档到GraphRAG时的具体步骤。文章详细描述了插入过程中的关键步骤，如调用state_manager的insert_start方法、读取历史数据、过滤重复数据、提取实体和关系、执行upsert操作等。此外，文章还提到了模型应用的一些经验和看法，并鼓励读者在评论区分享自己的经验。

fast-graphrag 探索（2）

学习

本文探索了fast-graphrag库的GraphRAG类，它是基于Graph的检索增强生成系统的入口点。文章详细解释了GraphRAG类的几个关键部分，包括继承自BaseGraphRAG类的泛型特性、数据类概念、依赖注入以及如何使用泛型提高代码的灵活性。同时，文章还介绍了如何使用泛型创建简单的图类，并对比了使用和不使用泛型的区别。最后，文章展示了如何初始化GraphRAG类并实例化其中的服务和策略。整体来看，本文旨在帮助读者理解fast-graphrag库中GraphRAG类的基本结构和功能，为后续的模型应用和开发打下基础。

ChatGpt崩了，Gemini 2.0上线

杂的文

今天上午访问ChatGPT时服务似乎挂掉了，具体原因不明。与此同时，谷歌发布了Gemini 2.0，这是科技领域的一大进展。Gemini 2.0具有显著的性能提升，相较于前代产品Gemini 1.5 Pro，其在关键基准测试中的性能大幅提升，速度达到后者的两倍。该版本支持多模态输入与输出，包括图像、视频和音频等，并可直接调用Google搜索、执行代码以及第三方用户定义的函数等工具。此外，Gemini 2.0 Flash作为该系列的第一个模型，集成了文本转语音和图像生成技术，并免费提供给所有Gemini用户使用。谷歌在开发过程中采取了负责任的态度，通过识别和理解潜在风险来减轻AI的风险。同时，推出了三个智能体研究原型，展示了AI向智能助手转变的潜力。

fast-graphrag 探索（1）

学习

摘要：本文主要介绍了对fast-graphrag项目的初步探索和实践。首先，简要介绍了数据准备阶段，包括使用模型生成故事以及官方demo的修改。接着，描述了测试代码的执行过程，包括环境变量的设置、GraphRAG的创建以及数据的插入和查询。然后，展示了生成的pkl文件和pklz文件的处理方式，并解释了使用这些文件的原因。最后，对fast-graphrag项目进行了拓展，包括后续的查询操作和可能的进一步应用。整体而言，这是一个有趣且富有挑战性的项目，对于理解和应用图结构数据有一定的帮助。

他会是RAG方案的王者吗？

学习

文章讨论了RAG（Retrieval Augmented Generation）技术的几个主要问题，并介绍了RAG如何解决这些问题。通过从海量数据源中检索信息来辅助大语言模型生成答案，RAG克服了LLM的一些固有局限性，提高了生成内容的可靠性和可解释性。文章还介绍了最近两年RAG技术的发展，包括GraphRag和fast-graphrag等。其中，fast-graphrag是一个号称更加高效的框架，测试结果表现优异，安装简单，且提供测试代码示例。但具体效果需进一步测试验证。关键词：python，RAG技术，fast-graphrag。