Google MobileDiffusion: 移动端设备上的快速文字到图片生成技术

     每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/ 。 

在今天这个喜欢拍照比喜欢呼吸还勤快的时代,大家都想在手机上玩出点新花样。别急,有个新鲜玩意儿叫“MobileDiffusion”,可能会让你的朋友圈瞬间高大上起来。

首先,不得不说,那些能把文字变成图片的大脑洞模型,真是太神奇了。不过,它们像是那种需要喝特制能量饮料才能启动的怪兽电脑或者服务器才能跑起来。比如“稳定扩散”(Stable Diffusion)、DALL·E和Imagen这些大佬,它们的模型参数多到可以装满好几个图书馆,想要轻松运行?门都没有。

然而,随着科技的进步,Android的MediaPipe和iOS的Core ML这对好基友在过去一年里已经在手机上做了不少魔法。但想要实现那种秒生成图片的梦想?还差得远呢。

于是乎,有人站了出来,提出了一个让手机也能快速从文本生成图片的方案,名字叫做“MobileDiffusion”。这不是你平常用的那种APP,它是一个专为手机设计的轻量级扩散模型。用了一种叫DiffusionGAN的黑科技,在推理过程中实现一步采样,相当于给预训练的模型加了个GAN来模拟去噪步骤。测试结果如何?在iOS和Android的高端设备上跑起来,半秒钟就能生成一个512x512的高质量图片,而且模型只有520M参数,小巧得很。

好,接下来让我们深入一点。原来那些文字到图片的模型之所以慢,主要是因为两个原因:一是它们需要多次迭代去噪来生成图片,二是复杂的网络架构让模型参数爆炸。尽管在手机上部署这种模型能极大提升用户体验,解决隐私问题,但现实是残酷的,这方面的研究还很少。

为了解决这个问题,人们研究如何优化模型的推理效率,尤其是减少函数评估次数(NFE)。通过使用先进的数值求解器或蒸馏技术,已经能把采样步骤大大减少,甚至减到只需要一步。

但在手机上,由于模型架构的复杂性,即使评估步骤减少了,运行速度仍然很慢。目前,针对文字到图片扩散模型的架构效率的研究还不够。只有少数研究涉及到这个问题,比如移除神经网络中冗余的模块,但这些努力还不足以提供一个全面的设计高效架构的指南。

“MobileDiffusion”的设计基于潜在扩散模型,包括文本编码器、扩散UNet和图像解码器三个部分。其中文本编码器使用了体积小巧的CLIP-ViT/L14模型,适合手机使用。而在扩散UNet和图像解码器方面也做了优化。

总之,“MobileDiffusion”通过精简模型结构和采用DiffusionGAN一步采样技术,实现了在手机上快速从文本生成图片的目标,开启了一扇新的大门,让手机用户也能享受到即时生成高质量图片的乐趣。而且,这技术还是遵循谷歌的负责任AI实践的,所以用起来也挺放心。

具体请去看 https://blog.research.google/2024/01/mobilediffusion-rapid-text-to-image.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/373577.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

腌腊食品污废水处理需要哪些工艺设备

腌腊食品行业在加工过程中产生的污废水处理是一个关键的环境保护问题。为了确保生产过程中的环境友好和可持续性发展,腌腊食品污废水处理需要采用一系列的工艺设备。下面将介绍一些常用的工艺设备,以供参考。 首先,腌腊食品污废水处理中常用的…

缩略图保持加密(TPE)论文

文献: R.Zhao,Y.Zhang,Y.Nan,W.Wen,X.Chai,andR. Lan, “Primitively visually meaningful image encryption: A new paradigm,” Inf. Sci. (Ny), Vol. 613, pp. 628–48, 2022. DOI: 10.1016/j.ins.2022.08.027. (1) 第1行:原始图像 第2行:加密图像 加密的目标: 原始…

如何使用 Bard 中的画图功能

Bard 是 Google AI 推出的大型语言模型,它不仅可以生成文本、翻译语言,还可以根据您的描述生成图像。这篇文章将介绍如何使用 Bard 中的画图功能。 步骤 1:打开 Bard 首先,您需要打开 Bard。您可以访问 bard.google.com: https:…

【保姆级教程|YOLOv8改进】【5】精度与速度双提升,使用FasterNet替换主干网络

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

jquery生成多个滑块,并对每个滑块做处理

基础滑块可以参考上一篇 eval(newThree).map((item, index) > { <div id"${uniqueId}" data-value"${item.text}" class"slider2"></div>$(document).ready(function () {for (let i 0; i < sliders.length; i)…

服务器和CDN推荐

简介 陆云Roovps是一家成立于2021年的主机服务商&#xff0c;主要业务是销售美国服务器、香港服务器及国外湖北十堰高防服务器&#xff0c;还有相关CDN产品。&#xff08; 地址&#xff1a;roovps&#xff09; 一、相关产品

C++多线程:this_thread 命名空间

std::this_thread 是 C 标准库中提供的一个命名空间&#xff0c;它包含了与当前线程相关的功能。这个命名空间提供了许多与线程操作相关的工具&#xff0c;使得在多线程环境中更容易进行编程。 源码类似于如下&#xff1a; namespace std{namespace this_thread{//...........…

详解Redis哨兵模式下,主节点掉线而重新选取主节点的流程

⭐最核心的结论&#xff1a;所谓选举的过程不是直接选出新的主节点&#xff0c;而是先在哨兵节点中选出 leader &#xff0c;再由 leader 负责后续主节点的指定。 假定当前环境&#xff1a; 三个哨兵(sentenal1, sentenal2, sentenal3)一个主节点(redis-master)两个从节点(red…

GPT-1, GPT-2, GPT-3, GPT-3.5, GPT-4论文内容解读

目录 1 ChatGPT概述1.1 what is chatGPT1.2 How does ChatGPT work1.3 The applications of ChatGPT1.3 The limitations of ChatGPT 2 算法原理2.1 GPT-12.1.1 Unsupervised pre-training2.1.2 Supervised fine-tuning2.1.3 语料2.1.4 分析 2.2 GPT-22.3 GPT-32.4 InstructGPT…

【Kotlin】Kotlin环境搭建

1 前言 Kotlin 是一种现代但已经成熟的编程语言&#xff0c;由 JetBrains 公司于 2011 年设计和开发&#xff0c;并在 2012 年开源&#xff0c;在 2016 年发布 v1.0 版本。在 2017 年&#xff0c;Google 宣布 Kotlin 正式成为 Android 开发语言&#xff0c;这进一步推动了 Kotl…

Google Chrome Close AutoUpdate

DOMException: play() failed because the user didn‘t interact with the document first.-CSDN博客 html5 audio video-CSDN博客 Google Chrome Close AutoUpdate 关闭google浏览器自动更新 1&#xff1a;检查是否已安装google浏览器&#xff0c;并卸载&#xff1a; 2&…

二叉搜索树题目:二叉搜索树的最近公共祖先

文章目录 题目标题和出处难度题目描述要求示例数据范围 解法一思路和算法代码复杂度分析 解法二思路和算法代码复杂度分析 题目 标题和出处 标题&#xff1a;二叉搜索树的最近公共祖先 出处&#xff1a;235. 二叉搜索树的最近公共祖先 难度 3 级 题目描述 要求 给定一个…

openstack(T版)公有云--Dashboard服务

公有云上OpenStack Train最小化安装_openstack最小化部署-CSDN博客 我的opensatck(T)是参考上面链接去部署完成的&#xff0c;在部署完Dashboard服务后&#xff0c;将要用浏览器访问的时候出现了404 500 Internal Server Error 等各种各样的问题&#xff0c;以下是我排查问题…

【Linux驱动】块设备驱动(二)—— 块设备读写(使用请求队列)

块设备的操作函数并没有类似于字符驱动中的read 和write函数&#xff0c;要实现读写操作&#xff0c;只能在请求处理函数中实现。这就分为两种&#xff0c;是否要使用请求队列&#xff0c;请求队列的主要作用是管理和调度IO请求。在以下情况中&#xff0c;一般需要用到请求队队…

基于SSM的便民自行车管理系统的开发与实现(有报告)。Javaee项目。ssm项目。

演示视频&#xff1a; 基于SSM的便民自行车管理系统的开发与实现&#xff08;有报告&#xff09;。Javaee项目。ssm项目。 项目介绍&#xff1a; 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三层体系结构&#xff0…

基于单片机的智能寻光小车设计

摘 要&#xff1a;随着物联网技术的飞速发展和逐渐成熟&#xff0c;以单片机为主的智能小车在巡查、仓储、探险及国防等领域得到广泛应用。本文设计了一种基于单片机的智能寻光小车&#xff0c;该小车以STC89C52RC 芯片为设计核心&#xff0c;结合光敏传感器和超声波传感器等多…

FCIS 2023:洞悉网络安全新态势,引领创新防护未来

随着网络技术的飞速发展&#xff0c;网络安全问题日益凸显&#xff0c;成为全球共同关注的焦点。在这样的背景下&#xff0c;FCIS 2023网络安全创新大会应运而生&#xff0c;旨在汇聚业界精英&#xff0c;共同探讨网络安全领域的最新动态、创新技术和解决方案。 本文将从大会的…

【Java 数据结构】反射

反射 1 定义2 用途(了解)3 反射基本信息4 反射相关的类&#xff08;重要&#xff09;4.1 Class类(反射机制的起源 )4.1.1 Class类中的相关方法(方法的使用方法在后边的示例当中) 4.2 反射示例4.2.1 获得Class对象的三种方式4.2.2 反射的使用 5、反射优点和缺点 1 定义 Java的反…

python统计分析——卡方检验

参考资料&#xff1a;用python动手学统计学 1、导入库 # 导入库 # 用于数值计算的库 import numpy as np import pandas as pd import scipy as sp from scipy import stats # 用于绘图的库 from matplotlib import pyplot as plt import seaborn as sns sns.set() 2、数据准…

转融通业务是什么?好处和弊端是什么?

转融通业务是指证券金融公司借入证券、筹得资金后&#xff0c;再转借给证券公司&#xff0c;为证券公司开展融资融券业务提供资金和证券来源&#xff0c;包括转融券业务和转融资业务两部分。从证券金融公司角度看&#xff0c;向证券公司提供资金和证券供其开展融资融券业务&…