苹果展示 AI 新模型 MGIE,可一句话精修图片

苹果公司近日发布了名为“MGIE”的新型开源人工智能模型,它可以根据自然语言指令编辑图像。

2 月 8 日消息,相比较微软的风生水起,苹果公司在 AI 领域的布局显得低调很多,但这并不意味着苹果在该领域就没有丝毫建树。苹果公司近日发布了名为“MGIE”的新型开源人工智能模型,它可以根据自然语言指令编辑图像。

图源:VentureBeat 与 Midjourney 合作制作

MGIE 的全称是 MLLM-Guided Image Editing,利用多模态大型语言模型(MLLM)解释用户指令并执行像素级操作。MGIE 可以理解用户下达的自然语言命令,进行 Photoshop 风格的修改、全局照片优化和局部编辑等操作。

苹果公司和加州大学圣巴巴拉分校研究人员合作,在 2024 年国际学习表征会议(ICLR)上发表 MGIE 相关研究成果,而 ICLR 是人工智能研究的顶级会议之一。

介绍 MGIE 之前,IT之家先来介绍下 MLLM。MLLM 是一种强大的人工智能模型,可以同时处理文本和图像,从而增强基于指令的图像编辑能力。MLLMs 在跨模态理解和视觉感知响应生成方面表现出卓越的能力,但尚未广泛应用于图像编辑任务。

MGIE 通过两种方式将 MLLMs 集成到图像编辑过程中:首先,它使用 MLLMs 从用户输入中推导出富有表现力的指令。这些指令简洁明了,为编辑过程提供了明确的指导。

例如,当输入“让天空更蓝”时,MGIE 可以生成“将天空区域的饱和度提高 20%”的指令。

其次,它使用 MLLM 生成视觉想象力,即所需编辑的潜在表征。这一表征捕捉了编辑的本质,可用于指导像素级操作。MGIE 采用了一种新颖的端到端训练方案,可联合优化指令推导、视觉想象和图像编辑模块。

MGIE 可以处理各种编辑情况,从简单的颜色调整到复杂的对象操作。该模型还可以根据用户的偏好执行全局和局部编辑。MGIE 的部分特性和功能包括:

  • 基于指令的表达式编辑:MGIE 可以生成简洁明了的说明,有效指导编辑过程。这不仅能提高编辑质量,还能增强用户的整体体验。
  • Photoshop 风格修改:MGIE 可以执行常见的 Photoshop 风格编辑,如裁剪、调整大小、旋转、翻转和添加滤镜。该模型还可以应用更高级的编辑,如更改背景、添加或删除对象以及混合图像。
  • 全局照片优化:MGIE 可以优化照片的整体质量,如亮度、对比度、清晰度和色彩平衡。该模型还能应用素描、绘画和漫画等艺术效果。
  • 局部编辑:MGIE 可以编辑图像中的特定区域或对象,如脸部、眼睛、头发、衣服和配饰。模型还可以修改这些区域或对象的属性,如形状、大小、颜色、纹理和风格。

MGIE 是 GitHub 上的一个开源项目,用户可以点击这里找到代码、数据和预训练模型。该项目还提供了一个演示笔记本,展示如何使用 MGIE 完成各种编辑任务。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/389181.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Unresolved reference: kotlinx 和 Unresolved reference:xxx

Unresolved reference: kotlinx 这个报错是因为build.gradle中忘记apply plugin了 apply plugin: kotlin-android-extensions如下 同步以后再次编译发现报错 Unresolved reference:xxx 是因为用于使用 Gradle 构建的 Kotlin 版本与 IDE 插件中的版本不一样的原因 解决方法 …

Lag-Llama:第一个时间序列预测的开源基础模型介绍和性能测试

2023年10月,我们发表了一篇关于TimeGPT的文章,TimeGPT是时间序列预测的第一个基础模型之一,具有零样本推理、异常检测和共形预测能力。 虽然TimeGPT是一个专有模型,只能通过API访问。但是它还是引发了对时间序列基础模型的更多研…

算法刷题:有效三角形个数

有效三角形个数 .题目链接题目详情算法原理补充知识点双指针:对撞指针 我的答案 . 题目链接 有效三角形个数 题目详情 算法原理 补充知识点 有效三角形需要满足的条件: ab>cac>bbc>a 其实在满足1的时候,c是最大的,那么2和3是显然成立的,因此我们可以这样解题: 对…

C# winfrom中NPOI操作EXCEL

前言 1.整个Excel表格叫做工作表:WorkBook(工作薄),包含的叫页(工作表):Sheet;行:Row;单元格Cell。 2.忘了告诉大家npoi是做什么的了,npoi 能够读…

react 【七】各种hooks的使用/SPA的缺点

文章目录 1、Hook1.1 为什么会出现hook1.2 useState1.3 useEffect1.4 useContext1.5 useReducer1.6 useCallback1.7 useMemo1.8 useRef1.8.1 ref绑定dom1.8.2 ref解决闭包缺陷 1.9 useImperativeHandle1.10 useLayoutEffect1.11 自定义Hook1.11.1 什么是自定义Hook1.11.2 Conte…

Python 字符串格式化输出

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站零基础入门的AI学习网站~。 前言 字符串格式化是编程中一个常见的需求,它可以们将不同类型的数据(如数字、文本、日…

Django问题报错:TypeError: as_view() takes 1 positional argument but 2 were given

一、错误位置 from django.urls import pathfrom users_app.views import RegisterView, LoginView, LogoutViewapp_name users urlpatterns [path("register/", RegisterView.as_view, name"register"),path("login/", LoginView.as_view, n…

基于四叉树的图像分割算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ........................................................... Imgs(dx 1 : dx R1, dy 1 …

阿里云幻兽帕鲁Linux 服务器下载游戏存档的方法

阿里云幻兽帕鲁Linux 服务器下载游戏存档的方法也非常简单。 远程连接到阿里云的 linux服务器后,可以在 ECS 远程连接命令行界面,点击左上角的文件,打开文件树。通过一行命令打包。 在打包后的 Saved.tar 文件上右键,选择 下载文…

【Go语言】Go项目工程管理

GO 项目工程管理(Go Modules) Go 1.11 版本开始,官方提供了 Go Modules 进行项目管理,Go 1.13开始,Go项目默认使用 Go Modules 进行项目管理。 使用 Go Modules的好处是不再需要依赖 GOPATH,可以在任意位…

《剑指offer》

本专题是分享剑指offer的一些题目,开始刷题计划。 二维数组的中的查找【https://www.nowcoder.com/practice/abc3fe2ce8e146608e868a70efebf62e?tpId13&tqId11154&ru/exam/oj】 描述 在一个二维数组array中(每个一维数组的长度相同&#xff0…

Python4Delphi: Delphi 程序使用 Python 抓取网页

想用程序去抓取一个网页的内容,Delphi 有自己的 HTTP 库。比如 Indy 的 TIdHTTP,或者 TNetHTTPClient。 这里测试一下使用 Python 的 HTTP 库抓取网页,然后把抓取的内容给 Delphi 的程序。 Delphi 程序,界面上拖控件如下&#x…

jenkins-maven环境的安装

jenkins-maven环境的安装

Codeforces Round 924 (Div. 2) B - D

B. Equalize 题目: 思路:首先排序然后去重(可以用set来去重),我们可以肯定的是,如果连续k个数最大值最小值的差小于等于n的话,那么这个长度为k的区间就符合答案要求,那么k就和答案…

【web | CTF】BUUCTF [护网杯 2018] easy_tornado

天命:这题是框架性的漏洞,Python的web服务器框架,应该已经比较古老了 开局先看一下三个文件 简单阅读后会发现,这里存在文件包含漏洞,可以直接读取文件,但是有一个哈希值校验 一开始我以为是扫描文件后得到…

每日一练:LeeCode-98、 验证二叉搜索树【二叉搜索树+DFS】

本文是力扣LeeCode-98、 验证二叉搜索树【二叉搜索树DFS】】 学习与理解过程,本文仅做学习之用,对本题感兴趣的小伙伴可以出门左拐LeeCode。 给你一个二叉树的根节点 root ,判断其是否是一个有效的二叉搜索树。 有效 二叉搜索树定义如下&am…

【mysql】数据约束

一、数据约束: 什么是约束? 为了确保表中的数据的完整性(准确性、正确性),为表添加一些限制。是数据库中表设计的一个最基本规则。使用约束可以使数据更加准确,从而减少冗余数据(脏数据)。 数据库完整性约…

OpenCV Mat 实例详解 二

构造函数 OpenCV Mat实例详解一中已介绍了部分OpenCV Mat构造函数&#xff0c;下面继续介绍剩余部分构造函数。 Mat (const std::vector< _Tp > &vec, bool copyDatafalse)&#xff1b; vec 包含数据的vec对象 copyData 是否拷贝数据&#xff0c;true— 拷贝数据&…

CSS之BFC

BFC概念 BFC&#xff08;Block Formatting Context&#xff09;即块级格式化上下文&#xff0c;是Web页面的可视CSS渲染的一部分。它是一个独立的渲染区域&#xff0c;让其中的元素在布局上与外部的元素互不影响。简单来说&#xff0c;BFC提供了一个环境&#xff0c;允许内部的…

LeetCode 0103.二叉树的锯齿形层序遍历:层序遍历 + 适时翻转

【LetMeFly】103.二叉树的锯齿形层序遍历&#xff1a;层序遍历 适时翻转 力扣题目链接&#xff1a;https://leetcode.cn/problems/binary-tree-zigzag-level-order-traversal/ 给你二叉树的根节点 root &#xff0c;返回其节点值的 锯齿形层序遍历 。&#xff08;即先从左往…
最新文章