Datawhale+AI夏令营_让AI读懂财报PDF task2深入赛题笔记

1.深入理解baseline方案
1.1 赛题任务

项目背景
本次赛题的核心目标是打造一个能看懂图片、读懂文字、并将两者关联起来思考的AI助手,构建一个先进的智能问答系统,以应对真实世界中复杂的、图文混排的信息环境。
(1)让AI模型能够阅读并理解包含大量图标、图像和文字的pdf文档,基于信息回答用户问题。
(2)能找到答案的同时还需要标注出答案的出处,比如源自于哪一个文件的哪一页。

1.2 相关知识点及参考资料
多模态RAG任务有四大核心要素
此次赛题的核心不仅仅是简单的问答,而是基于给定的pdf知识库的、可溯源的多模态问答。
它定义了我们系统的四个基本支柱,也是我们构建解决方案时必须时刻牢记的四个约束:
数据源:一堆图文混排的PDF,这是我们唯一的数据。
可溯源:必须明确指出答案的出处。
多模态:问题可能需要理解文本,也可能需要理解图表(图像)。
问答:根据检索的信息生成一个回答。

1.3 相关知识点及参考资料
PDF文档解析库PyMuPDF官方教程:https://pymupdf.readthedocs.io/en/latest/
强大的中文OCR工具PaddleOCR:https://github.com/PaddlePaddle/PaddleOCR
领先的中文文本向量化模型库FlagEmbedding (BGE模型):https://github.com/FlagOpen/FlagEmbedding
经典图文多模态向量化模型CLIP (Hugging Face实现):https://huggingface.co/docs/transformers/model_doc/clip
高性能向量检索引擎FAISS入门指南:https://github.com/facebookresearch/faiss/wiki/Getting-started
简单易用的向量数据库ChromaDB快速上手:https://docs.trychroma.com/getting-started
通义千问Qwen大模型官方仓库 (含多模态VL模型):https://github.com/QwenLM/Qwen-VL
集成化RAG开发框架LlamaIndex五分钟入门:https://docs.llamaindex.ai/en/stable/getting_started/starter_example.html
Xinference官方仓库(模型推理框架):
https://github.com/xorbitsai/inference

2.任务要求的重点和难点

未完待续…

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/2745.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

OpenAI开源大模型 GPT-OSS 开放权重语言模型解析:技术特性、部署应用及产业影响

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】 清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷…

前端懒加载技术全面解析

懒加载(Lazy Loading)是一种优化前端性能的重要技术,核心思想是延迟加载非关键资源,只在需要时加载它们。 一、懒加载的基本原理 懒加载的核心思想是通过以下方式优化性能: 减少初始加载实践: 只加载首屏所需资源 节省带宽和内存: 避免加载用户可能不会查看的内容 提高…

【渲染流水线】[几何阶段]-[图元装配]以UnityURP为例

【从UnityURP开始探索游戏渲染】专栏-直达 前情提要 【渲染流水线】主线索引-从数据到图像以UnityURP为例-CSDN博客 图元装配负责将离散顶点组装成完整几何图元(如点、线、三角形、三角形条带) (对渲染的探索是个持续不断完善的过程&#x…

Vue3的简单学习

一、创建应用(createApp)Vue3 中通过 createApp 函数创建应用实例,替代了 Vue2 的 new Vue()。知识点:createApp(App) 创建应用实例,mount(#app) 挂载到 DOM。应用实例可链式调用配置(如全局组件、指令等&a…

v-model双向绑定指令

文章目录前言v-model.lazy 延迟同步v-model.trim 去掉空格前言 v-model指令是Vue.js中实现双向数据绑定的一种重要机制。它可以将表单控件的值与Vue.js实例中的数据进行双向绑定,即当表单控件的值发生变化时,Vue.js实例中的数据也会随之更新&#xff0c…

使用Prometheus + Grafana + node_exporter实现Linux服务器性能监控

监控与告警系统部署:项目示例: "使用Prometheus Grafana node_exporter实现Linux服务器性能监控"描述: 在目标服务器部署node_exporter采集系统指标(CPU, 内存, 磁盘, 网络)。部署配置Prometheus Server,抓取node_exporter数据。部署配置Gra…

2025 蓝桥杯C/C++国B 部分题解

P12836 [蓝桥杯 2025 国 B] 翻倍 题目描述 给定 nnn 个正整数 A1,A2,…,AnA_1, A_2, \ldots, A_nA1​,A2​,…,An​,每次操作可以选择任意一个数翻倍。 请输出让序列单调不下降,也就是每个数都不小于上一个数,最少需要操作多少次?…

在 Mac 上安装 IntelliJ IDEA

在 Mac 上安装 IntelliJ IDEA 步骤。下面我将提供两种最主流的安装方法,并附上详细的图文解说式步骤。 安装前的准备:选择版本 首先,你需要决定安装哪个版本的 IntelliJ IDEA。 版本Ultimate (旗舰版)Community (社区版)价格付费 (提供 30…

云原生时代的 Linux:容器、虚拟化与分布式的基石

📝个人主页🌹:慌ZHANG-CSDN博客 🌹🌹期待您的关注 🌹🌹 在云计算与容器化快速发展的今天,Linux 已经不再只是服务器上的操作系统,而是整个云原生生态的底层基石。无论是运…

【普中STM32精灵开发攻略】--第 14 章 动态数码管实验

(1)实验平台: 普中STM32精灵开发板​​​https://item.taobao.com/item.htm?id739076227953(2)资料下载:普中科技-各型号产品资料下载链接 前面章节我们已经介绍了如何使用 STM32 单片机控制IO 输出。本章将介绍数码管显示,在实际应用中通常…

Bitmap 裁剪和拉伸

Drawable 转换成 bitmp fun drawableToBitmap(drawable: Drawable): Bitmap? {if (drawable is BitmapDrawable) {return drawable.bitmap}val width drawable.intrinsicWidthval height drawable.intrinsicHeightval bitmap Bitmap.createBitmap(width, height, Bitmap.Co…

计算机视觉(opencv)——图像本质、数字矩阵、RGB + 基本操作(实战一)

OpenCV 入门教程: OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉库,广泛应用于图像处理、视频分析、机器学习等领域。 在 Python 中,cv2 是 OpenCV 的主要接口模块。本文将带你一步步掌握 cv2…