猫头虎AI分享|字节开源了一款具备长期记忆能力的多模态智能体:M3-Agent 下载、安装、配置、部署教程

猫头虎AI分享|字节开源了一款具备长期记忆能力的多模态智能体:M3-Agent

大家好,我是猫头虎 🦉🐯,今天给大家带来一个超硬核的开源 AI 项目分享:M3-Agent。这是一款由字节开源的、多模态智能体框架,最大的亮点是它具备长期记忆能力,能够像人类一样“看、听、记、推理”。

项目地址: 👉 猫头虎开源 fork github


什么是 M3-Agent?

M3-Agent 是一款能够实时处理视觉和听觉输入,并将其转化为长期记忆的多模态智能体。它不仅可以存储情景记忆(episodic memory),还能够逐渐积累语义记忆(semantic memory),形成类似人类的长期知识库。

其核心创新点在于:

  • 实体为中心的记忆系统:把与同一实体相关的多模态信息(如人脸、声音、相关知识)关联起来,构建成一个图谱。
  • 多轮迭代推理:在执行任务时,能够从长期记忆中检索相关信息来辅助推理,而不仅仅依赖即时上下文。
  • 跨模态理解能力:它不局限于单一模态,能够在视觉、听觉、语言之间进行信息融合与推理。

这一设计让 M3-Agent 在基准测试(M3-Bench)中表现相当突出,特别是在需要长期记忆和跨模态推理的任务上,超越了 Gemini-1.5-pro 和 GPT-4o 等强大基线模型。

文章目录

  • 猫头虎AI分享|字节开源了一款具备长期记忆能力的多模态智能体:M3-Agent
    • 什么是 M3-Agent?
    • @[toc]
    • 效果演示
    • M3-Bench:专门的长视频推理基准
    • 系统架构
    • 实验结果
    • 本地运行指南
      • 1. 环境搭建
      • 2. 视频切片
      • 3. 生成记忆图谱
      • 4. 可视化记忆图谱
      • 5. 控制与推理
    • 训练资源
    • 总结

效果演示

M3-Agent 不只是理论上的“记忆体”,而是有真实的 demo 展示:

在这里插入图片描述
A demo of M3-Agent as a personal assistant!

在这里插入图片描述

它可以结合视觉与语音输入,像一个智能助手一样,记住并关联过往的对话和环境信息。


M3-Bench:专门的长视频推理基准

为了测试智能体的长期记忆与跨模态推理能力,M3-Agent 团队设计了 M3-Bench ——一个长视频问答数据集。

  • M3-Bench-robot:100 个机器人第一视角录制的真实场景视频
  • M3-Bench-web:920 个来自网络的多样化长视频

这些视频被设计成模拟智能体在真实场景中的输入,并配有开放式问答任务,考察智能体能否构建一致的长期记忆并在此基础上进行有效推理。

在这里插入图片描述
M3-Bench 示例

在这里插入图片描述
统计概览


系统架构

M3-Agent 的系统架构非常有意思,主要分为两个并行流程:

  1. 记忆(Memorization):实时处理视频、音频流,生成情景记忆与语义记忆,并构建成多模态图谱
  2. 控制(Control):在执行任务时,从长期记忆中检索相关信息,进行多轮推理,最终完成目标。

在这里插入图片描述
Architecture of M3-Agent

这种图谱化的长期记忆结构,让 M3-Agent 能更深入、更一致地理解环境,而不是“短时记忆式”的处理。


实验结果

在 M3-Bench 和其他跨模态推理任务上,M3-Agent 的表现非常亮眼,超越了 Gemini-1.5-pro 和 GPT-4o 等基线模型:

在这里插入图片描述

  • M3-Bench-robot:准确率提升 8.2%
  • M3-Bench-web:提升 7.7%
  • VideoMME-long:提升 5.3%

这意味着它在需要长期记忆和多模态推理的场景下,已经展现出了接近“人类记忆机制”的能力。


本地运行指南

如果你想在本地尝试 M3-Agent,可以按照以下步骤操作:

⚠️ 提前在 configs/api_config.json 中添加 API 配置

1. 环境搭建

bash setup.sh
pip install git+https://github.com/huggingface/transformers@f742a644ca32e65758c3adb36225aef1731bd2a8
pip install qwen-omni-utils==0.0.4

2. 视频切片

将视频切成 30 秒片段,方便记忆处理:

#!/bin/bashvideo="robot/bedroom_01"
input="data/videos/$video.mp4"
mkdir -p "data/clips/$video"
duration=$(ffprobe -v error -show_entries format=duration -of default=noprint_wrappers=1:nokey=1 "$input")
duration_seconds=$(echo "$duration" | awk '{print int($1)}')segments=$((duration_seconds / 30 + 1))
for ((i=0; i<segments; i++)); dostart=$((i * 30))end=$(((i + 1) * 30))output="data/clips/$video/$i.mp4"ffmpeg -ss $start -i "$input" -t 30 -c copy "${output}"
done

3. 生成记忆图谱

python data_preparation/generate_memory_qwen.py \--data_file data/data.jsonl

4. 可视化记忆图谱

python visualization.py \--mem_path data/memory_graphs/robot/bedroom_01.pkl \--clip_id 1

5. 控制与推理

使用 M3-Agent-Control 模型进行问答与评估:

python m3_agent/control.py \--data_file data/annotations/robot.json

训练资源

  • 记忆模块训练:sft-qwen2.5-omni-thinker
  • 控制模块训练:M3-Agent-Training

总结

M3-Agent 是一个非常值得关注的开源项目,它让多模态智能体真正具备了“长期记忆”与“跨模态推理”的能力。

相比大多数只依赖短时上下文的 LLM 助手,M3-Agent 的实体图谱式记忆多轮推理机制,让它更接近人类的认知方式,也为未来的智能体应用(如个人助手、机器人、交互式教育等)提供了新思路。

感兴趣的同学可以直接试试:
👉 猫头虎开源 fork github


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/2807.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

应用缓存不止是Redis!——亿级流量系统架构设计系列

在当今互联网架构中&#xff0c;缓存技术犹如系统的"加速器"&#xff0c;通过将热点数据存储在高速介质中&#xff0c;显著降低数据库负载并提升响应速度。无论是CPU的L1/L2/L3缓存&#xff0c;还是分布式系统中的Redis集群&#xff0c;缓存无处不在。本文将深入探讨…

洛谷 P2834 纸币问题 3-普及-

题目背景 你是一个非常有钱的小朋友。 注意&#xff1a; 本题和《进阶篇》的对应题目&#xff0c;输入格式略有差异。 题目描述 你有 nnn 种面额互不相同的纸币&#xff0c;第 iii 种纸币的面额为 aia_iai​ 并且有无限张&#xff0c;现在你需要支付 www 的金额&#xff0c;请问…

C++常见面试题-5.数据结构

五、数据结构 5.1 线性数据结构数组和链表的区别&#xff1f;数组&#xff08;Array&#xff09;&#xff1a; 存储方式&#xff1a;连续的内存空间&#xff1b;访问方式&#xff1a;支持随机访问&#xff0c;通过索引直接访问元素&#xff0c;时间复杂度为O(1)&#xff1b;插入…

Node.js 在 Windows Server 上的离线部署方案

Node.js 在 Windows Server 上的离线部署方案 离线部署的核心是提前准备所有依赖资源&#xff08;避免在线下载&#xff09;&#xff0c;并通过本地配置完成服务搭建&#xff0c;整体分为「依赖准备」「环境配置」「项目部署」「服务注册」4个阶段。 一、提前准备离线资源&am…

18.web api 9

3.M端事件4.js插件

母猪姿态转换行为识别:计算机视觉与行为识别模型调优指南

> 在现代智能化养殖中,母猪姿态识别是健康监测的关键技术。本文将带你从0到1构建高精度母猪姿态识别系统,准确率可达95%以上! ## 一、为什么母猪姿态识别如此重要? 母猪的行为姿态是其健康状况的重要指标: - **站立姿态**:可能表示发情期或进食需求 - **侧卧姿态**:…

Unity进阶--C#补充知识点--【Unity跨平台的原理】Mono与IL2CPP

来源于唐老狮的视频教学&#xff0c;仅作记录和感悟记录&#xff0c;方便日后复习或者查找 一.跨平台基本原理 知识回顾&#xff1a; ①在之前我们已经知道了跨语言的原理是.Net体系下定义了这些语言需要遵守的工业标准CLI。因此实现了面向.Net的语言都可以被编译转化成统一规…

LeetCode:无重复字符的最长子串

目录 解题过程: 描述: 分析条件: 正确解题思路: 通过这道题可以学到什么: 解题过程: 描述: 3. 无重复字符的最长子串 提示 给定一个字符串 s &#xff0c;请你找出其中不含有重复字符的 最长 子串 的长度。 示例 1: 输入: s "abcabcbb" 输出: 3 解释: 因为…

JUC读写锁

文章目录一、读写锁概述1.1 核心目标1.2 核心思想1.3 关键规则与保证1.4 核心组件二、使用示例2.1 采用独占锁的姿势读、写数据2.2 使用读写锁读、写数据2.3 锁降级 **&#xff08;Lock Downgrading&#xff09;**三、应用场景3.1 缓存系统【高频读、低频更新】3.2 配置中心【配…

docker compose再阿里云上无法使用的问题

最原始的Dokcerfile # 使用官方Python 3.6.8镜像 FROM python:3.6.8-slimWORKDIR /app# 复制依赖文件 COPY requirements.txt .RUN pip install --upgrade pip # 检查并安装依赖&#xff08;自动处理未安装的包&#xff09; RUN pip install --no-cache-dir -r requirements.tx…

【运维进阶】LNMP + WordPress 自动化部署实验

LNMP WordPress 自动化部署实验 一、实验目标 通过 Ansible 自动化工具&#xff0c;在目标服务器&#xff08;lnmp 主机组&#xff09;上搭建 LNMP 架构&#xff08;Linux 系统 Nginx 网页服务器 MariaDB 数据库 PHP 脚本语言&#xff09;&#xff0c;并部署 WordPress 博…

豆包 Java的23种设计模式

Java的23种设计模式是软件开发中常用的设计思想总结&#xff0c;根据用途可分为三大类&#xff1a;创建型、结构型和行为型。 一、创建型模式&#xff08;5种&#xff09; 用于处理对象创建机制&#xff0c;隐藏创建逻辑&#xff0c;使程序更灵活。 单例模式&#xff1a;保证一…