腾讯云智能结构化OCR实战:从图片到结构化数据的高效转换

学习 

本文介绍了作者使用腾讯云智能结构化OCR服务的实战体验。文章首先描述了作者的需求背景,即汇总多个理财子公众号发布的理财产品的数据。由于遇到一些识别不准确和费用较高的问题,作者尝试使用腾讯云的智能结构化OCR服务来解决问题。文章详细介绍了安装SDK、代码实现、验证和web部署的过程,并分享了使用腾讯云智能结构化OCR服务的体验。整体上,腾讯云智能结构化OCR服务用起来比较简单,相较于传统OCR,多了一层结构化数据的处理。文章最后欢迎大家在评论区留言分享对OCR应用的经验和看法。

微软开源的处理工具 - markitdown

学习 

微软最近开源了一个Python工具markitdown,可以将各种格式的文件和office相关格式的文件转换为Markdown格式。该工具支持多种文件格式,包括PDF、PowerPoint、Word、Excel、图片、音频、HTML等。它还支持调用大模型处理图片、音视频等格式的文件数据。markitdown工具具有安装简便、支持多种转换器以及API集成等特点,能够满足非结构化数据转换、模型训练效率提高、复杂文档解析、知识管理和团队协作、数据源集成等方面的需求,助力在线文档与静态网站的构建,促进批量处理和自动化,是科技前沿的一种重要的处理工具。

fast-graphrag 探索(3)- insert

学习 

摘要:本文介绍了fast-graphrag的插入流程,包括state_manager属性的介绍、GraphRAG类实例的state_manager是DefaultStateManagerService的介绍、以及插入文档到GraphRAG时的具体步骤。文章详细描述了插入过程中的关键步骤,如调用state_manager的insert_start方法、读取历史数据、过滤重复数据、提取实体和关系、执行upsert操作等。此外,文章还提到了模型应用的一些经验和看法,并鼓励读者在评论区分享自己的经验。

fast-graphrag 探索(2)

学习 

本文探索了fast-graphrag库的GraphRAG类,它是基于Graph的检索增强生成系统的入口点。文章详细解释了GraphRAG类的几个关键部分,包括继承自BaseGraphRAG类的泛型特性、数据类概念、依赖注入以及如何使用泛型提高代码的灵活性。同时,文章还介绍了如何使用泛型创建简单的图类,并对比了使用和不使用泛型的区别。最后,文章展示了如何初始化GraphRAG类并实例化其中的服务和策略。整体来看,本文旨在帮助读者理解fast-graphrag库中GraphRAG类的基本结构和功能,为后续的模型应用和开发打下基础。

ChatGpt崩了,Gemini 2.0上线


今天上午访问ChatGPT时服务似乎挂掉了,具体原因不明。与此同时,谷歌发布了Gemini 2.0,这是科技领域的一大进展。Gemini 2.0具有显著的性能提升,相较于前代产品Gemini 1.5 Pro,其在关键基准测试中的性能大幅提升,速度达到后者的两倍。该版本支持多模态输入与输出,包括图像、视频和音频等,并可直接调用Google搜索、执行代码以及第三方用户定义的函数等工具。此外,Gemini 2.0 Flash作为该系列的第一个模型,集成了文本转语音和图像生成技术,并免费提供给所有Gemini用户使用。谷歌在开发过程中采取了负责任的态度,通过识别和理解潜在风险来减轻AI的风险。同时,推出了三个智能体研究原型,展示了AI向智能助手转变的潜力。

fast-graphrag 探索(1)

学习 

摘要: 本文主要介绍了对fast-graphrag项目的初步探索和实践。首先,简要介绍了数据准备阶段,包括使用模型生成故事以及官方demo的修改。接着,描述了测试代码的执行过程,包括环境变量的设置、GraphRAG的创建以及数据的插入和查询。然后,展示了生成的pkl文件和pklz文件的处理方式,并解释了使用这些文件的原因。最后,对fast-graphrag项目进行了拓展,包括后续的查询操作和可能的进一步应用。整体而言,这是一个有趣且富有挑战性的项目,对于理解和应用图结构数据有一定的帮助。

他会是RAG方案的王者吗?

学习 

文章讨论了RAG(Retrieval Augmented Generation)技术的几个主要问题,并介绍了RAG如何解决这些问题。通过从海量数据源中检索信息来辅助大语言模型生成答案,RAG克服了LLM的一些固有局限性,提高了生成内容的可靠性和可解释性。文章还介绍了最近两年RAG技术的发展,包括GraphRag和fast-graphrag等。其中,fast-graphrag是一个号称更加高效的框架,测试结果表现优异,安装简单,且提供测试代码示例。但具体效果需进一步测试验证。关键词:python,RAG技术,fast-graphrag。

Lobe-Chat:你的一站式AI聊天解决方案

学习 

Lobe-Chat是一个开源的高性能聊天机器人框架,提供语音合成、多模态交互和可扩展的插件系统。它支持一键部署私有ChatGPT/LLM Web应用,拥有活跃的社区和丰富的“助理”与插件。技术特点包括支持OpenAI的gpt-4-vision模型、集成文本到语音和语音到文本技术。用户体验方面,界面简洁友好,支持多平台使用,并提供个性化对话设置和角色配置。文章还介绍了私有化部署、接入模型、chat功能、发现广场等方面的详细操作,以及Lobe-Chat与千帆模型的接入问题及解决方案。总的来说,Lobe-Chat是一站式AI聊天解决方案,为本地部署提供了高效的信息服务和丰富的交互体验。

别用 print 调试了,peek 让你轻松掌控代码

学习 

摘要: 本文主要介绍了Python调试工具peek的使用及其优势。通过与传统调试方法(如print语句)的比较,展示了peek在提供丰富调试信息、方便性以及在生产环境中的灵活配置等方面的优势。此外,文章还介绍了peek的配置项和安装方法。关键词:Python,调试工具,peek,轻松掌控代码,好玩的项目。

Django 这个特性居然等了19年!

学习 

Django 5.2 推出了多列主键(Composite Primary Key)的支持,使得开发者在处理复杂数据关系时更加便捷。除了这一新特性,Django 5.2 还引入了一些其他重要更新,如 auth.login 中的 request.user 回退功能的弃用和新增的 AlterConstraint 迁移操作。文章还介绍了复合主键的意义和用途,包括唯一性、复杂数据关系处理、查询效率提高和数据完整性维护等方面。此外,文章还提到了在没有复合主键特性之前,可以通过 unique_together 来实现类似的功能,并介绍了其优缺点。最后,文章鼓励读者升级 Django 版本以体验新特性,并分享看法和使用体验。