开放Gemma而非“开源”,谷歌为何转变大模型竞争策略?

开放Gemma而非“开源”,谷歌为何转变大模型竞争策略

        • 开放而非开源!!
        • 一、Gemma开源模型
        • 二、Gemma从今天开始在全球范围内提供。以下是关键的详细信息:
        • 三、为什么这样做?
        • 四、谷歌这一竞争策略如何?

2月21日晚,谷歌宣布新一代免费可商用大语言模型Gemma在全球开放使用。该模型被谷歌视为自身“最先进的开放模型”。

在这里插入图片描述

开放而非开源!!

         值得注意的是,谷歌强调Gemma为开放模型,而非“开源”,这意味着谷歌并不会分享Gemma的多项技术细节,包括Gemma的源代码、训练数据等。在应用上,谷歌称其使用条款允许所有组织负责任地进行商用和分发

一、Gemma开源模型

         Gemma是一系列轻量级、最先进的开放模型,采用了与创建Gemini模型相同的研究和技术。由Google DeepMind和Google的其他团队开发,Gemma受到Gemini的启发,其名称反映了拉丁文中的"gemma",意为“宝石”。除了发布模型权重之外,我们还提供工具,支持开发者创新、促进协作,并引导对Gemma模型的负责任使用。

         Gemma仅用于处理文本信息,其基础技术架构与谷歌最强AI模型Gemini一致,但参数规模较小,仅有20亿参数和70亿参数两个规模版本,且两种参数规模的Gemma模型都会有预训练和指令微调版本。

         Gemm较小的参数规模有助于Gemma实现更广泛部署。谷歌介绍称,Gemma支持主流AI框架,还可在笔记本电脑、台式机、物联网、移动设备和云端等环境上运行。

在这里插入图片描述

二、Gemma从今天开始在全球范围内提供。以下是关键的详细信息:
  • 1.我们发布了两种规模的模型权重:Gemma 2B和Gemma 7B。每个规模都有经过预训练和指导微调的变体。

  • 2.新的负责任生成式人工智能工具包提供了使用Gemma创建更安全人工智能应用程序的指导和必要工具。

  • 3.我们提供了适用于所有主要框架(JAX、PyTorch和TensorFlow通过本机Keras 3.0)的推理和监督微调(SFT)的工具链。

  • 3.与Ready-to-use Colab和Kaggle笔记本以及与Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM等流行工具的集成相结合,使得使用Gemma变得非常容易入门。

  • 4.经过预训练和指导微调的Gemma模型可以在您的笔记本电脑、工作站或Google Cloud上运行,并可以轻松部署在Vertex AI和Google Kubernetes Engine(GKE)上。

  • 5.跨多个人工智能硬件平台的优化确保了行业领先的性能,包括NVIDIA GPU和Google Cloud TPU。

  • 6.使用条款允许各种规模的组织进行负责任的商业使用和分发。

三、为什么这样做?

         Gemm开放Gemma或是针对开源大模型领域所受批评的部分回应。此前谷歌和OpenAI因坚持技术封闭而遭到外界抨击,两者在最新、最先进的模型上都选择了闭源,被认为不利于技术进步。

         去年Google貌似已经下定决心要闭源了,这可能源于低估了追赶OpenAI的技术难度,Bard推出令人大失所望使得谷歌不得不面对现实,去年下半年进入很尴尬的局面,闭源要追上OpenAI估计还要不少时间,而开源方面Meta已下决心,还有Mistral这种新秀冒头,逐渐主导了开源市场,这导致无论开源闭源,谷歌都处于被两面夹击,进退为难的境地。很明显,Gemma代表谷歌大模型策略的转变:兼顾开源和闭源,开源主打性能最强大的小规模模型,希望脚踢Meta和Mistral;闭源主打规模大的效果最好的大模型,希望尽快追上OpenAI。目前大模型开源形成三巨头局面:Google Gemma、Meta LLama和欧洲的Mistral。

         目前大模型巨头混战,形成了打压链局面:OpenAI处于链条顶端,主要打压对手是有潜力追上它的竞争对手:谷歌和Anthropic,Mistral估计也正在被列入OpenAI的打压列表中。这个打压链条是这样的:OpenAI→Google &Anthropic & Mistral→ Meta→其它大模型公司

四、谷歌这一竞争策略如何?

         谷歌开源Gemma不是针对OpenAI 宣发策略的反击,Gemimi 系列的定位才是对标GPT 4的。Gemma是针对开源届的,也就是针对Meta和Mistral的,这侧面说明Meta的LLama 3很快就要发布了,或者Mistral最近会有新品发布。

         通过Gemma再次证明:

  • 只要数据量足够多(Gemma 7B用到了6万亿Token,效果和Mistral 7B 差不多,这也侧面说明了之前大家猜测Mistral 7B使用了大约7万亿Token的大概率属实)
  • 数据质量足够好(增加数学、代码、科学论文等增强模型推理能力的数据),小模型的能力仍然能够得到持续提升。

         关于大模型的开源和闭源,我认为如果想发展大模型还是得比模型规模,这方面开源模型相对闭源模型出于明显劣势,短期内难以追上GPT 4或GPT 4v,且这种类型的大模型,即使是开源也只能仰仗谷歌或者Meta这种财大气粗的大公司,主要是太消耗资源了,一般人玩不起,国内这方面阿里千问系列做得比较好,肯把比较大规模的模型开源出来,更提供了modelscope这样的平台促进技术交流,属实难得。

         另外,开源模型应该把主要精力放在开发并开源出性能足够强的小规模大模型上(SLLM,Small Large Language Model)。
         我觉得谷歌的开源策略是非常合理的。目前看,作出强大的SLLM并没有太多技巧,主要是把模型压小的基础上,大量增加训练数据的规模,数据质量方面则是增加数学、代码等数据来提升模型的推理能力,比如Gemma 7B用6万亿Token数据,Mistral 7B的7万亿Token数据,两者也应该大量采用了增强推理能力的训练数据,只要持续增加训练数据的规模和质量,模型效果会持续提升,所以SLLM模型的性能天花板目前也没有到头,只要有更多更高质量的数据,就能持续提升SLLM模型的效果,仍然有很大空间
         SLLM相对GPT 4这种追求最强效果的模型比,训练成本低得多,而因为模型规模小,推理成本也极低,只要持续优化效果,从应用层面,大家肯定会比较积极地部署SLLM用来实战的,市场潜力巨大。也就是说,SLLM应该是没有太多资源,但是还是有一些资源的大模型公司必争之地。

         因此,谷歌这一策略可能也预示着2024年在SLLM这方面关注度也比较高,我也相信2024年开源SLLM会有更惊艳黑马出场!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/402108.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

饮用水除氟树脂吸附设备

项目名称 某水务集团地下水除氟项目 工艺选择 石英砂过滤器除氟树脂系统 工艺原理 选择性去除氟化物,降低氯离子、硫酸根的干扰 项目背景 为了保障居民饮水安全与健康,对于含氟量高的地下水必须经过除氟处理,使其符合国家规定的饮用…

【力扣hot100】刷题笔记Day10

前言 一鼓作气把链表给刷完!!中等题困难题冲冲冲啊啊啊! 25. K 个一组翻转链表 - 力扣(LeetCode) 模拟 class Solution:def reverseKGroup(self, head: Optional[ListNode], k: int) -> Optional[ListNode]:# 翻转…

having子句

目录 having子句 having和where的区别 Oracle从入门到总裁:https://blog.csdn.net/weixin_67859959/article/details/135209645 现在要求查询出每个职位的名称,职位的平均工资,但是要求显示平均工资高于 200 的职位 按照职位先进行分组,同…

四问带你搞懂 I3C

大家都知道 I2C ,它的全称是 Inter Integrated Circuit ,那 I3C 又是什么? I3C 是 MIPI (Mobile Industry Processor Interface)移动产业处理器接口联盟推出的,全称是 Improved Inter Integrated Circuit &…

玩转网络抓包利器:Wireshark常用协议分析讲解

Wireshark是一个开源的网络协议分析工具,它能够捕获和分析网络数据包,并以用户友好的方式呈现这些数据包的内容。Wireshark 被广泛应用于网络故障排查、安全审计、教育及软件开发等领域。关于该工具的安装请参考之前的文章:地址 ,…

【动态规划专栏】专题四:子数组问题--------最大子数组和环形子数组的最大和

本专栏内容为:算法学习专栏,分为优选算法专栏,贪心算法专栏,动态规划专栏以及递归,搜索与回溯算法专栏四部分。 通过本专栏的深入学习,你可以了解并掌握算法。 💓博主csdn个人主页:小…

openEuler2203 LTS安装VMware WorkStation Pro 17并远程桌面连接Linux服务器

openEuler 2203 LTS默认只有命令行,没有GUI图形界面,在其中安装VMware WorkStation需要有图形界面的支持。这里以安装深度的DDE桌面环境,最后通过VNC远程桌面连接Linux服务器操作VMware WorkStation。 以下操作请保持网络能正常连接 1、安装…

【网站项目】679学生学籍管理系统

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

gitlab的使用

前一篇文章我们已经知道Git人人都是中心,那他们怎么交互数据呢? • 使用GitHub或者码云等公共代码仓库 • 使用GitLab私有仓库 目录 一、安装配置gitlab 安装 初始化 这里初始化完成以后需要记住一个初始密码 查看状态 二、使用浏览器访问&#xf…

瑞_VMware虚拟机安装Linux纯净版(含卸载,图文超详细)

文章目录 1 资源准备1.1 官方资源1.2 帮助资源 2 安装 VMware3 安装 CentOS 73.1 镜像 附:VMware删除已安装的操作系统 🙊 前言:VMware虚拟机安装Linux纯净版 VMware版本:VMware Workstation 16.2.4Linux版本:CentOS 7…

Stable Diffusion 模型分享:A-Zovya RPG Artist Tools(RPG 大师工具箱)

本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里。 文章目录 模型介绍生成案例案例一案例二案例三案例四案例五案例六案例七案例八 下载地址 模型介绍 A-Zovya RPG Artist Tools 模型是一个针对 RPG 训练的一个模型,可以生成一些 R…

如何使用eXtplorer部署个人云存储空间并实现公网访问内网数据

文章目录 1. 前言2. eXtplorer网站搭建2.1 eXtplorer下载和安装2.2 eXtplorer网页测试2.3 cpolar的安装和注册 3.本地网页发布3.1.Cpolar云端设置3.2.Cpolar本地设置 4.公网访问测试5.结语 1. 前言 通过互联网传输文件,是互联网最重要的应用之一,无论是…

内衣洗衣机哪个好用?顶流爆款内衣洗衣机推荐

大家都知道,内衣裤一天不洗,就会滋生很多细菌,很多女生既要忙工作又要忙家务,衣服总会积攒到一堆再去清洗,在潮湿的天气,这样甚至会有发霉的情况出现,而传统的用手洗贴身衣物,看起来…

冷链物流追踪:Java与MySQL的协同实践

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 |…

Unity NavMesh 清除不可行走区域

通常场景中物体设置为static或Navigation Static后,打开Navigation使用默认设置烘焙NavMesh,模型顶部和底部会出现蓝色网格,但其中有部分属于不可能到达区域,如下图 本文介绍两种可去掉NavMesh中不需要网格的方法: 方…

无痛法门,助力学习

**注:**本文摘自一位网友“我就是贺生啊”,博主觉得很有道理,便想记录下来分享给大家。仅个人想法,谨慎参考,也欢迎大家说出自己的想法。 引言 在我们学习新知识的时候,会觉得很痛苦,制定学习…

软件设计不是CRUD(12):低耦合模块设计理论——业务抽象:模块分层操作

接上文《软件设计不是CRUD(11):低耦合模块设计理论——业务抽象:规划模块分层》 3、模块的边界 上篇文章的内容基本上说清楚了模块为什么要进行分层设计,以及模块分层设计所遵循的基本原则。本节内容我们就来讨论一下如何实际进行模块的分层规划。前文已经提到,在完成从…

机器人内部传感器阅读笔记及心得-位置传感器-电位器式位置传感器

位置传感器 位置感觉是机器人最基本的感觉要求,可以通过多种传感器来实现。位置传感器包括位置和角度检测传感器。常用的机器人位置传感器有电位器式、光电式、电感式、电容式、霍尔元件式、磁栅式及机械式位置传感器等。机器人各关节和连杆的运动定位精度要求、重…

数字之美:探索人工智能绘画的奇妙世界

目录 引言AI绘画的定义与发展历程定义与发展历程AI绘画产品有哪些? AI绘画的应用领域设计与创意产业影视与游戏制作数字艺术与展览 AI绘画的基本原理与技术深度学习与神经网络生成对抗网络(GAN)风格迁移算法 AI绘画效果展示一只带着墨镜的小猫在高楼林立…

尾矿库排洪系统结构仿真软件WKStruc(可试用)

1、背景介绍 尾矿库作为重大危险源之一,在国际灾害事故排名中位列第18位,根据中国钼业2019年8月刊《中国尾矿库溃坝与泄漏事故统计及成因分析》的统计,在46起尾矿库泄漏事故中,由于排洪设施导致的尾矿泄漏事故占比高达1/3&#x…
最新文章