Stable Diffusion 3 Early Preview发布

2月22日,Stability AI 发布了 Stable Diffusion 3 early preview,这是一种开放权重的下一代图像合成模型。据报道,它继承了其前身,生成了详细的多主题图像,并提高了文本生成的质量和准确性。这一简短的公告并未附带公开演示,但 Stability今天为那些想尝试的人开放了Waitlist,想等着尝鲜的同学可以注册加入Waitlist。

Waitlist地址:SD 3 Waitlist — Stability AI

Stability 表示,其 Stable Diffusion 3 系列模型(采用称为“prompt”的文本描述并将其转换为匹配图像)的参数大小从 8 亿到 80 亿不等。尺寸范围允许模型的不同版本在各种设备(从智能手机到服务器)上本地运行。参数大小大致对应于模型可以生成多少细节的能力。较大的模型还需要 GPU 加速器上有更多 VRAM 才能运行。

自 2022年以来,我们看到 Stability 推出了一系列 AI 图像生成模型:Stable Diffusion 1.4、1.5、2.0、2.1 、 XL 、 XL Turbo ,现在是 3。Stability 因提供更开放的替代方案而闻名,例如,类似OpenAI 的 DALL-E 3 这样的专有图像合成模型。尽管由于使用受版权保护的训练数据、偏见和滥用的可能性而引起争议,并导致了一些未解决的诉讼。Stable Diffusion模型是开放权重且源可用的,这意味着模型可以在本地运行并进行微调以改变其输出。

Stable Diffusion 3的技术改进

就技术改进而言,Stability 首席执行官 Emad Mostaque在 X 上写道:“这使用了新型Diffusion Transformer(类似于Sora),并结合了流量匹配(flow matching)和其他改进。这利用了Transformer的改进,不仅可以进一步扩展,还能够接受多模式输入。”

正如 Mostaque 所说,Stable Diffusion 3 系列使用Diffusion Transformer架构,这是一种利用 AI 创建图像的新方法,它将常用的图像构建块(例如U-Net 架构)替换为适用于小块图像的系统。该方法的灵感来自于擅长处理模式和序列的Transformer。这种方法不仅可以有效地扩大规模,而且据报道还可以产生更高质量的图像。

Stable Diffusion 3 还利用了流匹配(flow matching),这是一种创建 AI 模型的技术,该模型可以通过学习如何从随机噪声平滑过渡到结构化图像来生成图像。它不需要模拟过程的每个步骤,而是专注于图像创建应遵循的总体方向或流程。

我们目前还无法访问 Stable Diffusion 3 (SD3),但从我们在 Stability 网站和相关社交媒体帐户上发布的样本来看,这几代模型似乎与目前其他最先进的图像合成模型大致相当,包括前面提到的DALL-E 3、Adobe Firefly、Imagine with Meta AI、Midjourney和Google Imagen。

在Stability AI提供的示例中,SD3 可以很好地处理文本生成。文本生成是早期图像合成模型的一个特别弱点,因此在免费模型中改进该功能是一件大事。此外,提示保真度(它遵循提示中的描述的程度)似乎与 DALL-E 3 类似,但我们还没有自己测试过。

虽然 Stable Diffusion 3 尚未广泛使用,但 Stability 表示,一旦测试完成,其权重将可以免费下载并在本地运行。Stability 写道:“与之前的模型一样,这个预览阶段对于收集见解以在公开发布之前提高其性能和安全性至关重要。”

Stability 最近一直在尝试各种图像合成架构。除了 SDXL 和 SDXL Turbo 之外,就在上周,该公司还发布了Stable Cascade,它使用三阶段过程进行文本到图像的合成。

Flow Matching介绍

Flow Matching是Stable Diffusion 3中一个重要的技术改进。目前很多文生图模型使用的是CNF(连续正规化流动)训练方法,主要使用常微分方程对流动进行建模,实现从一种已知分布到目标分布的平滑映射。Stable Diffusion 3的Flow Matching基于“Flow Matching for Generative Modeling”,abs: https://arxiv.org/abs/2210.02747。

CNF的训练过程需要进行大量的微分方程模拟,会导致算力成本高、模型设计复杂、可解释性差等缺点。FM则是放弃微分方程的直接模拟,而是通过回归固定条件概率轨迹来实现无模拟训练。研究人员设计了条件概率分布与向量场的概念,利用边缘分布的结合可以建立总体目标概率轨迹与向量场,从而消除了模拟过程对梯度计算的影响

1)条件概率路径构建:FM需要给出一个目标概率路径,该路径从简单分布演变到逼近数据分布。然后利用条件概率路径构建了目标路径,这样每个样本有一个对应的条件路径。

2)变换层:构成FM的基本单元,每个变换层都是可逆的。这意味着从输入到输出的每一步映射都可以精确地反转,从而允许从目标分布反推到原始分布。

3)耦合层:将输入分成两部分,对其中一部分应用变换,而变换函数可以是任意的神经网络,其参数由另一部分决定,保证了变换的可逆性。

目前,FM技术已在图像生成与超分辨率、图像理解、图像修复与填充、条件图像生成、图像风格迁移与合成、视频处理等领域得到广泛应用。

Stable Diffusion 3文生图展示

声明:以下的prompt和图片均来自StabilityAI官方和互联网,本人还在Waitlist无法亲自测试。

Prompt: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy

Prompt: cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home"

Prompt: a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion"

Prompt: studio photograph closeup of a chameleon over a black background

Prompt: night photo of a sports car with the text "SD3" on the side, the car is on a race track at high speed, a hug road sign with the text "faster"

Prompt: Photo of an 90's desktop computer on a work desk, on the computer screen it says "welcome". On the wall in the background we see
beautiful graffiti with the text "SD3" very large on the wall

Prompt: Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3.

作者Blog原文:Stable Diffusion 3 Early Preview发布 - HY's Blog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/404719.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

节假日效应prophet预测模型和节假日识别错误

节假日效应是指在特定的节假日或纪念日期间,人们的行为和活动发生变化,从而影响到相应的时间序列数据(股票或者其他)。这种效应可能在多个领域产生影响,包括销售、交通、能源消耗等。 完整代码和数据可关注gzh’financ…

[算法沉淀记录] 排序算法 —— 归并排序

排序算法 —— 归并排序 算法介绍 归并排序是一种分治算法,由约翰冯诺伊曼在1945年发明。它的工作原理是将未排序的列表划分为n个子列表,每个子列表包含一个元素(包含一个元素的列表被认为是有序的),然后重复合并子列表以生成新的有序子列表…

最简单方式把jar打包成Windows服务

废话 😢 将JAR文件转化为Windows服务是一种高效且常见的Java应用部署策略。这种转变赋予了Java应用程序在Windows操作系统上以无界面后台服务模式运行的能力,从而实现了持续、稳定且可靠的功能提供。这种部署方式不仅提升了应用的可用性&#xff0c…

TreeData 数据查找

TreeData 数据查找 最近做需求的时候遇到了这样的一个需求,Tree组件数据支持查找,而且TreeData的数据层级是无限级的 开始想的事借助UI组件库(Ant-design-vue)中的Tree组件的相关方法直接实现,看了下api 发现没法实现,…

Java SpringBoot测试OceanBase

对上篇mysql导入到OceanBase中的数据库进行代码测试,写了个demo包含测试方法,在原mysql库中成功执行,迁移到OceanBase时看是否能不修改业务代码而成功执行测试方法: 代码基于SpringBoot MyBastis测试增删改查、批量新增、多表联…

onnx 1.16 doc学习笔记一:ONNX概念

onnx作为一个通用格式,很少有中文教程,因此开一篇文章对onnx 1.16文档进行翻译与进一步解释, onnx 1.16官方文档:https://onnx.ai/onnx/intro/index.html](https://onnx.ai/onnx/intro/index.html), 如果觉得有收获&am…

【Redis服务搭建】

目录 Redis的修改配置启动以及参数调优Redis的常用基本操作Redis运维监控命令Redis的配置的动态更新和写入Redis的多用户管理Redis的慢日志Redis禁用危险命令和压测工具Redis持久化存储1.Redis的RDB持久化存储2.Redis的AOF持久化存储 Redis的主从复制redis的哨兵实现主从自动切…

信号信号槽

三、信号槽 概念 信号和槽是两种函数,这是Qt在C基础上新增的特性,类似于其他技术中的回调的概念。 信号槽通过程序员提前设定的“约定”,可以实现对象之间的通信,有两个先决条件。 通信的对象都是在QOBject类中派生出来的。 QOBje…

提升App推广效果,从优化落地页开始

在App推广过程中,落地页的转化率一直是推广运营者关注的重点。然而,很多运营者发现,即使使用了相同的工具和模板,别人的效果却远远超出自己。那么,问题到底出在哪里呢?今天,我们就来聊聊如何提升…

便携式气象站的安装注意事项

型号推荐:云境天合TH-BQX9】便携式气象站的安装注意事项包括以下几点: 安装前检查:在安装前,应对便携式气象站进行检查,确保设备的包装完好无损,配件齐全,如气象站传感器、支架、采集器和传输模…

链表和顺序表的优劣分析及其时间、空间复杂度分析

链表和顺序表的优劣分析及其时间、空间复杂度分析 一、链表和顺序表的优劣分析二、算法复杂度<font face "楷体" size 5 color blue>//上面算法的执行次数大致为&#xff1a;F&#xff08;N&#xff09; N^22*N10;   N 10,F(10) 1002010 130次   N 1…

提高学习效率和速度的方法

如下是一些策略和方法来帮助提高学习效率和速度&#xff1a; 1. **主动学习**&#xff1a;主动寻找信息并提出问题&#xff0c;而不是被动接受。这样可以提高您的学习动力和效率。 2. **分块学习**&#xff1a;将复杂的知识点分解成小块&#xff0c;逐一理解和掌握。这种方法可…

unity屏幕受伤特效

//使用用途&#xff1a;同于屏幕掉血的后处理特效 //请结合和脚本&#xff1a;BloodScreen 挂载至摄像机使用本特效 //本特效设计之初未考虑兼容移动设备&#xff0c;请注意//使用说明&#xff1a; //掉血获取此脚本&#xff0c;将showBlood设置为true&#xff0c;如果您需要更…

Js的 Promise的 then catch 笔记240222

Js的 Promise的 then catch 笔记240222 基本用法 new Promise(f>{setTimeout(ev>{f("一秒后输出控制台");},1000); }).then(f的参数>{console.log(f的参数); }); // 控制台输出: 一秒后输出控制台上面代码中, f 的标准名叫做 resolve , 所以应该写成 new …

函数栈帧的创建及销毁(超详解)

目录 1.预备知识 1.1内存区的划分 1.2认识相关寄存器和汇编指令 1.2.1寄存器 1.2.2相关汇编指令 2.测试前 2.1测试代码及环境 2.2 main函数也是被其他函数调用的 3.函数栈帧的创建 4.进入函数内部 5.形参与实参 6.call/jump add函数 7.函数栈帧的销毁 7.1保存…

使用python查看官网是否发布新的内容

目录 前言 第一章、python介绍和使用pip install下载包 1.python介绍 2.使用vscode编写python 3.pip install的使用 第二章、查看官网是否发布新的内容 第三章、代码实现 目录结构 代码实现 check_new_news.py files.py news.py main.py file.txt 运行演示 前言 也…

【已解决】@tableid can‘t more than one

实体里面不能有两个TableId&#xff0c;只留一个就好了

SpringBoot对于SpringMVC的支持

创建项目 版本说明这里使用的 SpringBoot 2.0.0.Release SpringBoot对于SpringMVC的支持 在之前的开发中很多场景下使用的是基于xml配置文件或者是Java配置类的方式来进行SpringMVC的配置。一般来讲&#xff0c;初始的步骤如下所示 1、初始化SpringMVC的DispatcherServlet2、…

[OpenAI]继ChatGPT后发布的Sora模型原理与体验通道

前言 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家&#xff1a;https://www.captainbed.cn/z ChatGPT体验地址 文章目录 前言OpenAI体验通道Spacetime Latent Patches 潜变量时空碎片, 建构视觉语言系统…

kettle计算增长率

kettle计算增长率 问题描述处理方法 问题描述 读取一段时间内的数据记录&#xff0c;计算相邻记录的比率 iddatevalue12024-01-0110012024-01-0211012024-01-0312012024-01-0490 处理方法 1.使用统计中的分析查询节点能在每一行中添加前后行的数据 2.使用计算器节点计算比…
最新文章