国产Sora诞生!清华团队发布Vidu大模型,可直接生成16秒视频

大模型之争已从单模态转向多模态。

4月27日,在2024中关村论坛年会未来人工智能先锋论坛上,清华大学联合北京生数科技有限公司正式发布了文生视频大模型——Vidu。

在会议上,清华大学人工智能研究院副院长、生数科技首席科学家朱军对外展示了多段由Vidu生成的视频,单段视频最长可达16秒,并且在整个视频呈现上,Vidu已经不输Sora。

年初,OpenAI发布的Sora惊艳了世界,也让外界对大模型的关注焦点从单模态转向多模态。而Vidu的发布,则是国内首个具备“长时长、高一致性、高动态性”等特点的视频大模型。

国产Sora

据朱军介绍,目前国内已有视频大模型的生成视频大多在4秒左右,而Vidu可以一次性生成16秒的视频。除了在时长上的突破以外,Vidu在视频效果方面也得到显著提升。

比如Vidu能够生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能够在一段画面里实现远景、近景、中景、特写等不同镜头的切换,包括直接生成长镜头、追焦、转场等效果。

另外,Vidu既能够模拟真实物理世界,也能够生成真实世界不存在的虚构画面。其中对于真实世界,Vidu能生成细节复杂且符合真实物理规律的场景,例如合理的光影效果、细腻的人物表情等。

同时,作为国产大模型,Vidu更理解中国元素,能够生成熊猫、龙等特有的中国元素。

朱军表示,Vidu与Sora一样,采用的都是“一步到位”的生成方式,即视频片段从头到尾是连续生成的,在底层算法上则是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。

早于DiT架构提出U-ViT

据朱军介绍,Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。

需要指出的是,外界熟悉的Sora、Stable Diffusion 3等模型,采用的都是Diffusion Transformer架构DiT。而所谓Diffusion Transformer是在Diffusion Model(扩散模型)中,用Transformer替换常用的U-Net,将Transformer的可扩展性与Diffusion模型处理视觉数据的天然优势进行融合。

DiT架构由伯克利团队于2022年12月发表。而生数科技在其之前提出的基于Transformer的网络架构U-ViT,两项工作在架构思路与实验路径上完全一致,均是将Transformer与扩散模型融合。

2023年3月,Vidu团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,并率先完成了U-ViT架构的大规模可扩展性验证。

正是有了这些长期的技术积累,Vidu团队才能够在Sora发布仅两个月后,就快速推出了自研视频大模型。

朱军表示,从图文任务的统一到融合视频能力,作为通用视觉模型,Vidu能够支持生成更加多样化、更长时长的视频内容,同时面向未来,灵活架构也将能够兼容更广泛的模态,进一步拓展多模态通用能力的边界。

生数科技是谁?

作为Vidu的研发方之一,外界对于生数科技可能相对陌生。

生数科技成立于2023年3月,核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。

去年,生数科技完成多笔融资,投资方包括蚂蚁集团、锦秋基金等。今年3月,生数科技完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投。

目前,生数科技团队于ICML、NeurIPS、ICLR等人工智能顶会发表相关论文近30篇。在扩散模型方面,该团队的成果已涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。

另外虽然成立时间不长,但生数科技已经开始推进大模型的商业化落地。一方面是以API的形式向B端机构直接提供模型能力,另一方面打造垂类应用产品,按照订阅等形式收费。

截至目前,生数科技已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作,同时,生数科技也于去年上线两款工具产品,分别是视觉创意设计平台PixWeaver金额3D资产创建工具VoxCraft。

大模型岗位需求

大模型时代,企业对人才的需求变了,AIGC相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好,希望能够真正帮助到大家。

-END-


👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/583003.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

windows11家庭版开启Hyper-v

前提:如果在控制面板中-->程序和功能-->启用和关闭windows功能-->没有Hyper-v 1.什么是Hyper-v? Hyper-v分为两个部分:底层的虚拟机平台、上层的虚拟机管理软件 2.Hyper-v安装 2.1新建hyper.cmd文件,写入下面的内容&…

C++初阶-----对运算符重载的进一步理解(2)

目录 1.对于加加,减减运算符的重载理解 2.const修饰的一些事情 3.日期对象之间的减法实现逻辑 1.对于加加,减减运算符的重载理解 (1)在C语言里面,我们已经知道并且了解加加,减减的一些基本的用法&#…

RepeatMasker 基因组重复区域文件

rmsk.txt 一般关注标红的几列, 各列含义: Schema for RepeatMasker - Repeating Elements by RepeatMasker "rmsk.txt" 是 UCSC Genome Browser 提供的一个文件,用于描述重复序列的注释信息。通常,它包含了以下列: 1. **bin**:UCSC Genome Browser 使用的染色…

笔记:编写程序,绘制一个展示 2013~2019 财年阿里巴 巴淘宝+天猫平台的 GMV 的柱形图,实现过程如下:

文章目录 前言一、GMV 的柱形图是什么?二、编写代码总结 前言 编写程序。根据实例 2 的要求,绘制一个展示 2013~2019 财年阿里巴 巴淘宝天猫平台的 GMV 的柱形图,实现过程如下: (1) 导入 matplotlib.pypl…

2024中国(江西)国际先进陶瓷材料及智能装备博览会

2024中国(江西)国际先进陶瓷材料及智能装备博览会 “中国(江西)国际先进陶瓷材料及智能装备博览会” 陶瓷三新展 (新材料、新装备、新技术) 绿色智能、引领未来 2024年11月1日-11月3日 中国江西 南昌…

生活服务推出品牌实惠团购,覆盖五一假期“吃喝玩乐”多场景

4月26日,抖音生活服务平台上线“跟着大牌过五一”活动会场,携手22家连锁品牌商家,于“五一”前推出优价团购和时令新品,覆盖“吃喝玩乐”多重购物需求,助力假期消费。同时,伴随各地涌现的文旅热潮&#xff…

项目:使用LNMP搭建私有云存储

目录 项目:使用LNMP搭建私有云存储 准备工作 回复快照,关闭安全软件 上传软件 设置nextcloud安装命令权限 设置数据库 重启数据库 配置nginx 安装 内网穿透 cpolar的域名信任 项目:使用LNMP搭建私有云存储 准备工作 回复快照&a…

C#上位机与S7-200Smart通信注意事项

S7-200SMART连接 问题描述 我们使用C#开发上位机和S7-200Smart系列PLC交互数据时,大多会用到Sharp7、Snap7之类的通信类库。有些通信类库默认的使用的是PG连接资源,而对于S7-200Smart来说,它的PG连接资源只有1个。 官网200smart提到的连接数…

解决idea不识别${pageContext.request.contextPath}的方法

文章目录 一、产生原因二、解决方法——直接修改web.xml文件三、修改模板——找到web.xml模板,修改替换 一、产生原因 由于web.xml 使用的web-app版本号过低。导致无法识别"{pageContext.request.contextPath}"。 IDEA在创建javaweb项目的时候&#xff0…

imx6ull配置交叉编译环境编译u-boot及linux所遇问题解决记录

文章目录 前言一、问题 1 及解决方法1、问题 1 描述2、问题 1 解决方法 二、问题 2 及解决方法1、问题 2 描述2、问题 2 解决方法 三、问题 3 及解决方法1、问题 3 描述2、问题 3 解决方法 四、问题 4 及解决方法1、问题 4 描述2、问题 4 解决方法 前言 CoM-iMX6UL(L) 是一款兼…

笔记:能量谱密度与功率谱密度(二)

目录 一、ESD与PSD的定义、单位、性质 二、对ESD与PSD的直观理解 三、总结: 某物理量的“分布”在离散系统中,各点(纵坐标含义)的物理意义仍然是该物理量,而在连续系统中,各点(纵坐标含义)的物…

react报错:Warning: Each child in a list should have a unique “key“ prop.

我是万万没想到的,使用Popconfirm不添加key属性也会报错: react-refresh:160Warning: Each child in a list should have a unique "key" prop. Check the render method of Cell. Seehttps://reactjs.org/link/warning-keys for more informa…

STM32点灯大师(点了一颗LED灯,轮询法)

配置操作: 一、使用CubeMX配置到大致的操作 1.1 选择芯片 1.2 选择引脚(根据电路图) 1.3 配置gpio口 1.4 配置系统 1.5文件项目操作 最后就是点击 二、点击CubeMX生成的代码,并且修改代码 2.1 看看效果 2.2 写代码

Python 网络编程实践:从基础到进阶

目录 网络编程 一.IP地址简介 1. IP 地址的概念 1.1. IP 地址的表现形式 1.2. IP 地址的作用 2. 查看 IP 地址 3. 检查网络是否正常 4. 小技巧 二.端口和端口号 1. 什么是端口 2. 什么是端口号 3. 端口和端口号的关系 4. 端口号的分类 4.1. 知名端口号 4.2. 动…

【Unity学习笔记】第十四 Prefab 概念解惑

目录 1 prefab、prefab变体、prefab覆盖和prefab 嵌套2 connect 与unpack3 prefab到底是什么,它和gameobject又有什么区别?4 为什么要用prefab?5 代码动态加载prefab6 为什么我unity PrefabUtility.InstantiatePrefab() 得到的是null7 Prefab…

基于Springboot的租房网站

基于SpringbootVue的租房网站的设计与实现 开发语言:Java数据库:MySQL技术:SpringbootMybatis工具:IDEA、Maven、Navicat 系统展示 用户登录 首页 房屋信息 交流论坛 房屋资讯 后台登录 用户管理 房屋类型管理 房屋信息管理 预…

关于权限的设计

首先系统权限,每个账号登录后,都需要知道这个账号允许访问哪些api,哪些数据权限(一般是指其他账号的一些数据) 这里就需要通过角色来关联。 --1.角色绑定菜单,每个菜单设计的时候包含了这个菜单会用到的所…

【成功案例】利用多款国产内网渗透工具勒索数十台虚拟机的babyk解密恢复项目

1.背景 2024年4月11日,某影视公司的服务器遭受了勒索软件攻击,随后向我司寻求帮助进行恢复。经过我司溯源排查,勒索组织通过一处用友NC资产进行入侵,攻击者利用国产工具横移了数小时后实施勒索。其中一台超融合(vcente…

监控员工上网有什么软件(2024三款受欢迎的员工上网监控软件盘点)

企业对员工上网行为的有效监管显得愈发重要。 既要确保工作效率与信息安全,又要尊重员工隐私并遵守相关法律法规,选择一款功能强大、合规且易于使用的员工上网监控软件至关重要。 本文将为您介绍2024年三款备受市场欢迎的员工上网监控软件,以…

20232801 2023-2024-2 《网络攻防实践》实践八报告

20232801 2023-2024-2 《网络攻防实践》实践八报告 1.实践内容 1.动手实践任务: 对提供的rada恶意代码样本,进行文件类型识别,脱壳与字符串提取,以获得rada恶意代码的编写作者. 2.动手实践任务二:分析Crackme程序 在WinXP Attac…