微软 AI 研究团队推出 SIGMA:一个开源研究平台,旨在推动混合现实与人工智能交叉领域的研究与创新

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

生成式 AI、超大型语言模型、视觉模型和多模态模型的突破,为开放领域知识、推理和生成能力奠定了基础,能够支持开放式任务辅助场景。这不仅包括生成相关指令和内容,还为构建能与人类在现实世界中合作的 AI 系统提供了起点。这类应用包括混合现实任务助手、交互机器人、智能制造工厂、自动驾驶车辆等。

为了与人类无缝合作,AI 系统必须能够在多模态流中持续感知和推理其周围环境。这一要求不仅限于目标检测和追踪。为了实现有效的团队合作,所有参与者都必须了解物体的潜在功能、它们之间的关系、空间限制,以及这些因素随时间的变化。

这些系统不仅需要对物理世界进行推理,还需要理解人类行为。推理中应包括对实时协作行为的认知状态和社会规范的判断,并且还需涵盖对身体姿势、声音和动作的低级判断。

借助混合现实和 AI 技术(如大型语言和视觉模型)的组合,微软研究院推出了 SIGMA。这款互动程序可使用 HoloLens 2 指导用户完成流程任务。任务可以由大型语言模型(如 GPT-4)或任务库中手动定义的阶段动态生成。当用户在互动过程中提出开放式问题时,SIGMA 可以利用其强大的语言模型提供答案。此外,SIGMA 可以利用 Detic 和 SEEM 等视觉模型,在用户视野中定位并突出显示与任务相关的物体。

SIGMA 选择了几种设计方式来实现其研究目标。一个例子是客户端-服务器架构。HoloLens 2 设备运行轻量级客户端应用程序,将多个多模态数据流传输到更强大的桌面服务器。这些数据流包括 RGB(红、绿、蓝)、深度、音频、头部、手部和视线追踪信息。桌面服务器将数据和指令传送给客户端应用程序,以便在设备上显示内容,并执行应用程序的基本功能。通过这种设计,研究人员能够超越头戴设备当前的计算限制,并为将该程序扩展到其他混合现实设备打开了可能性。

SIGMA 的基础是名为 Platform for Situated Intelligence(psi)的开源架构,该架构支持多模态综合性 AI 系统的开发和研究。psi 框架提供高性能流媒体和日志基础设施,并允许快速原型制作。数据重放基础设施使数据驱动的应用级开发和调试成为可能。Platform for Situated Intelligence Studio 提供了丰富的可视化、调试、优化和维护支持。

虽然 SIGMA 目前的功能还不够完善,但它为未来混合现实与人工智能融合的研究奠定了基础。许多研究主题,特别是感知,可以使用收集的数据集进行探索,这些问题包括计算机视觉和语音识别。

SIGMA 是微软对该领域持续投入的一个例子,也是该公司探索新型人工智能和混合现实技术的代表。Dynamics 365 Guides 是微软为一线员工提供的另一款企业级混合现实解决方案。客户可以在 Copilot in Dynamics 365 Guides 中使用私有预览功能,获得逐步操作指导和工作流程相关信息。AI 和混合现实相结合,让这成为可能。Dynamics 365 Guides 为一线员工提供了强大的工具,可以在复杂操作中受益。

通过公开该系统,研究人员希望能帮助其他研究者解决构建全栈交互应用的基础工程任务负担,以便他们能够专注于本领域的新兴研究。

SIGMA: An open-source mixed-reality system for research on physical task assistance - Microsoft Research

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/601551.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何永久删除服务和相关文件夹

如何永久删除服务和文件夹? How can I remove the service and folder permanently? 以AlibabaProtect服务为例 takeown /f "C:\Program Files (x86)\AlibabaProtect sc delete AlibabaProtect我运行了上述操作,并通过任务管理器杀死了“阿里巴巴…

AI时代的就业转型与个人发展

AI时代的就业转型与个人发展:机遇与挑战并存 AI出现的背景:技术革命的浪潮 随着21世纪信息技术的突飞猛进,人工智能(Artificial Intelligence, AI)作为一场技术革命的产物,正逐渐从科幻小说走向现实世界的…

linux的信号量的使用

1.信号量 在多线程情况下,线程要进入关键代码就得获取信号量(钥匙){sem_init(&sem, 0, 0);},没有信号量的情况下就一直等待sem_wait(&sem),只到别人把钥匙(sem_post(&sem))给你。 …

淘宝数据分析——Python爬虫模式♥

大数据时代, 数据收集不仅是科学研究的基石, 更是企业决策的关键。 然而,如何高效地收集数据 成了摆在我们面前的一项重要任务。 本文将为你揭示, 一系列实时数据采集方法, 助你在信息洪流中, 找到…

Linux提示:mount: 未知的文件系统类型“ntfs”

mount: 未知的文件系统类型“ntfs” 在Linux系统中,如果遇到“mount: 未知的文件系统类型‘ntfs’”的错误,这通常意味着您的系统没有安装支持NTFS文件系统的软件。为了挂载NTFS文件系统,您需要安装ntfs-3g软件包。以下是如何在不同Linux发行…

【Git】Git学习-10-11:GitHub,SHH配置,克隆仓库

学习视频链接:【GeekHour】一小时Git教程_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1HM411377j/?vd_source95dda35ac10d1ae6785cc7006f365780 创建仓库 配置SSH密钥可以更加安全,方便地推送、拉取代码 根目录下,进入.ssh文件&am…

【busybox记录】【shell指令】unexpand

目录 内容来源: 【GUN】【unexpand】指令介绍 【busybox】【unexpand】指令介绍 【linux】【unexpand】指令介绍 使用示例: 空格转化成制表符 - 默认输出 空格转化成制表符 - 转换所有的空格 空格转化成制表符 - 指定制表位 常用组合指令&#…

【intro】图注意力网络(GAT)

论文阅读 https://arxiv.org/pdf/1710.10903 abstract GAT,作用于图结构数据,采用masked self-attention layers来弥补之前图卷积或类似图卷积方法的缺点。通过堆叠layers,让节点可以添加其邻居的特征,我们就可以给不同的邻居节…

C#语言核心

一、面向对象基本概念 万物皆对象,用程序来抽象(形容)对象,用面向对象的思想来编程 用中文去形容一类对象,把一类对象的共同点提取出来,然后用程序语言把它翻译过来,带着对象的概念在程序中使…

一文搞懂深度学习:最全神经网络介绍

本文是深度学习系列文章的第二篇,我们将深入探讨各种类型的人工神经网络,探索它们独特的特性和应用。 01 神经网络介绍 人工神经网络已经彻底改变了机器学习领域,并成为人工智能的基石,它的设计目的是模仿人类大脑的结构和功能&a…

测试平台开发:Django开发实战之注册界面实现(下)

1、 评论和用户建立关联 1)修改model: 软关联还是硬关联默认值是什么关联方被删除怎么办如何根据评论找到用户如何根据用户找到评论 然后执行命令: pdm run M pdm run init 这样在表里面就会多一个user_id的字段 2)修改视图&#xf…

一个故事就能够教会你看懂各种锁

我是一个线程,一个卖票程序的线程。 自从我们线程诞生以来,同一个进程地址空间里允许有多个执行流一起执行,效率提升的同时,也引来了很多麻烦。 我们卖票线程的工作很简单,比如票的总数是100,每卖一张就减…

LabelImg下载及目标检测数据标注

为什么这一部分内容这么少会单独拎出来呢,因为后期会接着介绍YOLOv8中的其他任务,会使用其他软件进行标注,所以就单独区分开来每一个任务的标注方式了。 这一部分就介绍目标检测任务的标注,数据集是我从COCO2017Val中抽出来两类&a…

H5视频付费点播打赏影视系统程序全开源运营版

这是一款视频打赏源码,勿做非法用途,由用户亲测功能完善,源码仅用于学习使用,分享链接是用户云盘,具有时效性,感兴趣的可以去学习。 thinkphp开发,前后端分离设计,支持游客登陆、VIP…

经典的设计模式和Python示例(一)

目录 一、工厂模式(Factory Pattern) 二、单例模式(Singleton Pattern) 三、观察者模式(Observer Pattern) 一、工厂模式(Factory Pattern) 工厂模式(Factory Pattern…

牛客网刷题 | BC79 小乐乐求和

目前主要分为三个专栏,后续还会添加: 专栏如下: C语言刷题解析 C语言系列文章 我的成长经历 感谢阅读! 初来乍到,如有错误请指出,感谢! 描述 小乐乐最近接触了求…

java-springboot项目添加swagger2/Knife4j,附注解

文章目录 添加依赖config工作包中新增SwaggerConfig报错注解 环境&#xff1a; jdk1.8 java8 springboot2.6.13 swagger2.9.2 添加依赖 pom.xml <!-- 添加swagger2--><dependency><groupId>io.springfox</groupId><artifactId>springfo…

函数编辑器调研及设计开发

前言&#xff1a;在产品研发中需要一款可嵌入web开发的代码及函数编辑器&#xff0c;本文从功能&#xff0c;扩展&#xff0c;外观/交互&#xff0c;维护/社区&#xff0c;兼容性&#xff0c;开源与否等方面考虑&#xff0c;进行对比筛选 1、编辑器统计数据 市面上编辑器有很…

【管理篇】如何提升管理中的沟通效率?

目录标题 管理沟通那些事如何提升沟通效率?&#x1f525;如何提升沟通技能&#xff1f; 向上沟通、员工激励和团队凝聚力提升 是管理沟通上比较难得问题 管理沟通那些事 管理沟通让技术管理者们痛苦的主因是确定性和规则性的减弱&#xff0c;不确定性的大幅度上升&#xff0c…

微软正在自主构建一个名为 MAI-1 的大型语言模型(不依赖 OpenAI)

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…
最新文章