llama3 史上最强开源大模型,赶超GTP-4,逼宫OpenAI

2024年4月18日,Meta公司推出了开源大语言模型Llama系列的最新产品—Llama 3,包含了80亿参数的Llama 3 8B和700亿参数的Llama 3 70B两个版本。Meta称其为“迄今为止最强的开源大模型”。

怪兽级性能

LLaMA3 提供了不同参数规模的版本,以适应不同的计算资源和应用需求:

  • Llama3 8B:适用于消费级 GPU 上的高效部署和开发,适合对计算资源有约束但需要良好语言处理能力的场景。
  • Llama3 70B:专为大规模 AI 应用设计,具备更强的处理复杂语言任务的能力,适用于需要顶级性能的研究和工业级项目。

8B模型在多项指标中超越了Gemma 7B和Mistral 7B Instruct,而70B模型则超越了闭源的Claude 3 Sonnet,和Gemini Pro 1.5。

没想到,70B都这么能打,此外Meta还有一个still training的400B+参数版本,它和GPT-4以及Claude 3的超大杯版本Opus性能差不多,最重要的是,它即将开源!

之所以说Llama3是“最强开源”,是因为它在模型架构,预训练数据,扩大预训练规模以及指令微调方面都做出了重要的调教。

**在模型架构方面,Llama 3 选择了经典的Decoder-only的Transformer架构。**与Llama 2相比,Llama 3做了几个关键的改进,包括:

  1. 使用具有128K token词汇表的tokenizer,可以更有效地对语言进行编码。
  2. 在 8B 和 70B 大小的模型上采用了分组查询注意力 (GQA),提高了Llama 3的推理效率。
  3. 在8192个token的序列上训练模型,使用掩码确保自注意力不会跨越文档边界。这也是美中不足的一点,8k的上下文窗口依然有点过时,不过随着开源社区的努力,这个问题可能很快就会被解决。

**训练数据方面,Meta 表示,要训练出最佳的语言模型,最重要的是策划一个大型且高质量的训练数据集。**根据数据现实,Llama 3 在超过 15T 的 token 上进行了预训练,训练数据集是 Llama 2 的7倍,包含的代码数量达到了Llama 2 的4倍。**为了应对多语言使用情况,Llama 3 的预训练数据集中有超过5%的部分是高质量的非英语数据,涵盖 30 多种语言。**而为了确保Llama 3始终在最高质量的数据上进行训练,Meta还开发了一系列数据过滤管道,诸如启发式过滤器,NSFW 过滤器,语义重复数据删除方法,文本分类器等,以便更好的预测数据质量。与此同时,Meta还进行了大量实验,确保 Llama 3 在各种使用情况下都能表现出色,包括琐事问题,STEM,编码,历史知识等。

**在扩大预训练规模方面,为了让Llama 3 模型有效利用预训练数据,Meta 为下游基准评估制定了一系列详细的 scaling laws。**这些 scaling laws 使他们能够选择最佳的数据组合,并就如何更好地使用训练计算做出最佳决定。更重要的是,在实际训练模型之前,scaling laws允许他们预测最大模型在关键任务上的性能,这有助于 Llama 3 在各种用例和功能中都能发挥强大的性能。

在指令微调方面,为了在聊天用例中充分释放预训练模型的潜力,Meta 对指令微调方法进行了创新,在后期训练方法中结合了监督微调(SFT),拒绝采样,近似策略优化(PPO)以及直接策略优化(DPO)。

令人期待的400B+参数版本

此次Llama3的发布,还有一点惹人瞩目,那就是Meta官方表示,即将在不久的未来推出400B+版本。

Meta 官方表示,Llama 3 8B 和 70B 模型只是 Llama 3 系列模型的一部分,他们后续还将推出更多版本,其中就包括模型参数超过 400B 的 Llama 3 版本,这一版本目前仍在训练中。

在接下来的几个月中,Meta会持续推出新功能:届时会有更多的模态;更长的上下文窗口;更多不同大小版本的模型;更强的性能等。关于Llama 3研究论文也一应推出。

另外,Llama 3 模型将很快会在AWS,Databricks,Google Cloud,Hugging Face,Kaggle,IBM WatsonX,Microsoft Azure,NVIDIA NIM 以及Snowflake 上提供,并得到 AMD,AWS,Dell,Intel,NVIDIA 以及Qualcomm 硬件平台的支持。

当然,大家最期待的,还是即将推出的,参数超过400B+的版本。目前Llama3模型的最强参数是70B。这个数据已经十分优秀了,完全有能力和GPT-4-Turbo,Mistral-Large,Claude3-Opus相媲美。不过,相较于巨头的最强模型,仍旧存在不小的差距。这也是大家如此期待400B+版本的重要原因。

400B+的版本仍在训练中,单就目前释放出的评测结果来看已经非常强了,堪称Llama开源size中的“超大杯选手”。据悉,该模型的训练成本会达到1亿美元。 目前我们还不清楚Meta是否会开源“超大杯”。一旦开源,对于国内的大模型公司来说无疑是个重大利好。相信在此之后,也会有很多公司争先跟上,推出后续的应用。但凡事都有两面,对于OpenAI,Anthropic,Mistral,Google这些巨头而言,这未必是个好消息。


欢迎关注微信公众号:大数据AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/594728.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【ARM Cortex-M3指南】6:异常

文章目录 六、异常6.1 异常类型6.2 优先级定义6.3 向量表6.4 中断输入和挂起行为6.5 错误异常6.5.1 总线错误6.5.2 存储器管理错误6.5.3 使用错误6.5.4 硬件错误6.5.5 处理错误 6.6 请求管理调用和可挂起的服务调用 六、异常 6.1 异常类型 Cortex-M3内置的异常架构支持多个系…

vue快速入门(五十六)具名插槽

注释很详细&#xff0c;直接上代码 上一篇 新增内容 具名插槽基本用法 源码 App.vue <template><div id"app"><h1>被淡化的背景内容</h1><my-dialog><!-- 插槽内容 --><!-- 使用插槽的名字进行对应v-slot:可以简写为# 未命名…

nginx--rewrite

功能 Nginx服务器利用ngx_http_rewrite_module 模块解析和处理理rewrite请求&#xff0c;此功能依靠PCRE(Perl Compatible Regular Expressions)&#xff0c;因此编译之前要安装PCRE库&#xff0c;rewrite是nginx服务器的重要功能之一&#xff0c;用于实现URL的重写&#xff0…

微搭低代码入门04数据模型

目录 1 创建数据模型2 一对多3 通用选项集4 API总结 上一篇我们介绍了页面管理&#xff0c;页面是盛放组件的容器&#xff0c;组件在配置属性的时候需要进行数据绑定。数据是通过创建数据模型来进行存储&#xff0c;本篇我们介绍一下数据模型的相关操作。 1 创建数据模型 微搭…

AnaTraf网络流量分析仪:网络性能监测与诊断的利器

背景 在当今数字化时代&#xff0c;网络性能监测与诊断(Network Performance Monitoring and Diagnosis, NPMD)成为了企业和组织管理网络的重要一环。为了帮助企业更好地实现网络性能的监控和故障排除&#xff0c;AnaTraf的网络流量分析仪应运而生。 AnaTraf网络流量分析仪是…

数据存储-SQLite

一般使用到数据库存储&#xff0c;涉及到的数据量都较大&#xff0c;采用文件存储也能完成&#xff0c;但是文件操作复杂&#xff0c;效率低&#xff0c;大量结构化数据通常采用关系型数据库存储较为合适。Android中已经嵌入了轻量级的关系型数据库SQLite&#xff0c;直接按照数…

数据库复习2

试述SQL的特点 有两个关系 S(A,B,C, D)和 T(C,D,E,F)&#xff0c;写出与下列查询等价的 SQL 表达式: 用SQL语句建立第2章习题6中的4个表&#xff1b;针对建立的4个表用SQL完成第2章习题6中的查询 针对习题4中的4个表试用SQL完成以下各项操作 (1)找出所有供应商的姓名和所在城市…

【高阶数据结构(一)】并查集详解

&#x1f493;博主CSDN主页:杭电码农-NEO&#x1f493;   ⏩专栏分类:高阶数据结构专栏⏪   &#x1f69a;代码仓库:NEO的学习日记&#x1f69a;   &#x1f339;关注我&#x1faf5;带你学习更多Go语言知识   &#x1f51d;&#x1f51d; 高阶数据结构 1. 前言2. 并查集…

上传文件到 linux

一、mac 法一&#xff1a;scp 先进入mac的 Node_exporter文件&#xff08;要上传的文件&#xff09;目录下 输入scp -P 端口号 文件名 rootIP:/存放路径 scp -P 22 node_exporter-1.8.0.linux-amd64.tar.gz root192.***.2:/root 法二、 rz mac 安装 lrzsz&#xff0c;然后…

社交媒体数据恢复:batchat

蝙蝠聊天数据恢复方法 1. 数据恢复的基本原理 蝙蝠聊天的聊天记录一旦删除是不能够恢复的。这是因为蝙蝠聊天的聊天记录是保存于本地的&#xff0c;一旦删除&#xff0c;就如同在电脑或手机上删除文件一样&#xff0c;数据不会存储在服务器端。这意味着&#xff0c;如果你删除…

如何远程连接办公室电脑?

远程办公成为了现代工作生活的一部分&#xff0c;特别是在面对突如其来的疫情时&#xff0c;远程连接办公室电脑成为了一种常见的解决方案。通过远程连接&#xff0c;员工可以在不在办公室的情况下&#xff0c;直接访问办公室电脑上的文件和应用程序&#xff0c;实现远程协作和…

UE5(射线检测)学习笔记

这一篇会讲解射线检测点击事件、离开悬停、进入悬停事件的检测&#xff0c;以及关闭射线检测的事件&#xff0c;和射线检测蓝图的基础讲解。 创建一个简单的第三人称模板 创建一个射线检测的文件夹RadiationInspection&#xff0c;并且右键蓝图-场景组件-命名为BPC_Radiation…

阅读欣赏推荐之(六)——纪录片《阿基米德的秘密》

阿基米德是古希腊物理学家、数学家&#xff0c;静力学和流体静力学的奠基人。有人评价说除了伟大的牛顿和伟大的爱因斯坦&#xff0c;再没有一个人像阿基米德那样为人类的进步做出过这样大的贡献。即使是牛顿和爱因斯坦&#xff0c;也都曾从他身上汲取过智慧和灵感。他是“理论…

[暂未实现]APP签名不同保留数据覆盖安装记录

APP签名不同无法直接覆盖安装 使用adb可以卸载应用同时保留数据&#xff0c;但签名不同也无法覆盖安装&#xff08;安装原来签名的应用打开和卸载前一样&#xff09; 使用adb导出应用数据&#xff08;QQ&#xff09;db文件只有1kb&#xff0c;显然此方法也行不通

FreeBSD下安装Linux兼容系统Ubuntu

FreeBSD有个很神奇的功能&#xff0c;就是跟Linux二进制兼容&#xff0c;也就是可以直接运行linux的bin文件。还有个更神奇的功能&#xff0c;就是能运行出一套Linux系统&#xff0c;完全是linux的用户&#xff0c;linux的目录系统&#xff0c;而且还可以选是Centos系统还是Ubu…

在离线环境中将运行 Oracle DB 12c 的 CentOS 7.5 原地升级并迁移至 RHEL 7.9

《OpenShift / RHEL / DevSecOps 汇总目录》 说明 本文只是说明如何在 CentOS 7.5 上准备 Oracle DB 12c 验证环境&#xff0c;而将该环境升级并迁移至 RHEL 7.9 的操作过程请参见&#xff1a;《在离线环境中将 CentOS 7.5 原地升级并迁移至 RHEL 7.9》一文。 另外&#xff…

DEM(高程)数据下载及计算可见性

数据下载 下载链接: 地理空间数据云 (gscloud.cn) 数据部分介绍 ASTER是美国宇航局Terra航天器(1999年发射)上的五台仪器之一,在日本为经济产业省(METI)建造。美国/日本联合科学团队负责仪器设计、校准和数据验证。 高级星载热发射和反射辐射计(ASTER)全球数字高程…

Android BINDER是干嘛的?

1.系统架构 2.binder 源码位置&#xff1a; 与LINUX传统IPC对比

【c++设计模式15】结构型7:代理模式(Proxy Pattern)

【c设计模式15】结构型7&#xff1a;代理模式&#xff08;Proxy Pattern&#xff09; 一、定义二、适用场景三、过程四、代理模式类图五、C示例代码六、使用注意事项七、结论 类型序号设计模式描述结构型1适配器模式&#xff08;Adapter Pattern&#xff09;它用于在不修改已有…

一次完整的 http 请求是怎样的?

一次完整的 http 请求是怎样的&#xff1f; &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 域名解析 --> 发起 TCP 的 3 次握手 --> 建立 TCP 连接后发起 http 请求 --> 服务器响应 http 请求&#xff0c;浏览器得到 html 代码 --…
最新文章