全方位了解 Meta Llama 3

本文将为您提供 Llama 3 的全面概览,从其架构、性能到未来的发展方向,让您一文了解这一革命性大语言模型的所有要点。

Meta Llama 发展历程

Llama 1

Llama 是由 Meta(FaceBook) AI 发布的一个开源项目,允许商用,影响力巨大。Llama 1 是 Meta 在 2021 年进入人工智能语言模型世界的第一步。它非常聪明,能够理解和创造语言,这要归功于它拥有的 70 亿参数。但它并不完美,有时在理解复杂的观念时会有困难,或者并不总是知道基本事实。

Llama 2

从 Llama 1 中学到的经验后,Meta 在 2022 年推出了 Llama 2。这个版本更大,拥有 210 亿参数,通过阅读了更多的书籍、维基百科和公共领域的内容而变得更加智能。Llama 2 在弄清事情、理解人们的意思和了解更多事实方面变得更加优秀。Llama 2 支持 4096 上下文,性能卓越,被认为是 GPT 系列最大的竞争对手(之一)。

Llama 2 的核心改进:Llama 2 经过人类对齐微调后,更善于理解人们表达的意思,能够更准确地将言语转化为行动。它在逻辑方面更智能,通过阅读不同来源的信息学到了更多的事实,知道更多的常识。它在检测 AI 在语言任务上表现优秀的测试中表现得出色。

但是即使进行了这些升级,Llama 2 仍有很大的增长空间,尤其是在处理复杂的语言挑战方面距离GPT 3.5 和 GPT 4还有不小的差距,这也引出了 Llama 3 的出现。

Llama 3

4 月 19 日 0 点 0 分,Meta 发布了 Meta Llama 3 系列语言模型(LLM),具体包括一个 8B 模型和一个 70 B 模型。在测试基准中,Llama 3 模型的表现相当出色,在实用性和安全性评估中,与那些市面上流行的闭源模型不相上下。 模型以开源形式提供,包含 8B 和 70B 两种参数规模,涵盖预训练和指令调优的变体。Llama 3 支持多种商业和研究用途,并已在多个行业标准测试中展示了其卓越的性能。

Llama 3 性能

基准表现

与其他大参数量的大模型相比,Llama 3 在同类中处于领先地位。它特别擅长思考问题、理解故事、总结事物并进行聊天。在测试中,Llama 3 比许多其他模型表现更好,在衡量这些 AI 在语言方面智力水平的方面得分更高。

Meta官方数据显示,Llama 3 8B 模型在 MMLU、GPQA、HumanEval 等多项基准上均胜过同参数量级模型 Gemma 7B 和 Mistral 7B Instruct,而 70B 模型则超越了闭源的当红模型 Claude 3 Sonnet,并且效果上完全能与 Google 的 Gemini Pro 1.5 一较高低。

image.png

指令遵循

Llama 3 在理解和遵循各种任务步骤方面表现得非常出色。它通过示例学习,并且可以更好地理解你想让它做什么,无论是烹饪、编码还是组装东西。想象一下告诉它做一个蛋糕,它会列出所有的配料和烘焙步骤。

它在准确执行指令方面的成功率超过 90%,这比早期版本有了很大的改进。这意味着它正在逐渐接近理解复杂指令,就像人类一样。

这可能会导致智能助手通过我们的话语来执行我们要求的操作,从而使日常任务变得更轻松。

知识推理

Llama 3 擅长于将不同想法联系起来,并给出聪明的答案。就像与一个对许多事物都很了解的人进行对话一样。它能够做到从不同的地方汇集信息,回答关于科学或历史的棘手问题;弄清楚事情为什么会这样发生;对问题进行理性的猜测;通过将问题与已知的事实进行对比来发现问题所在。

它在解决需要逻辑和知识的谜题方面表现得和一些最好的人工智能一样出色,并且在理解复杂概念方面表现得越来越好。Llama 3 知识渊博,因为它已经阅读了各种主题的大量信息,这有助于它思考类似经济学或语言模式等领域的问题。将来,由于 AI 学习和理解世界的方式,我们可能会看到 AI 知道与不同领域专家一样多。

Llama 3 架构

预训练数据

在前期准备中,Llama 3 获得了来自 30 多种语言的大量混合信息,包括书籍、维基百科、新闻和网站,总共约 15000 亿比特的信息。它通过尝试填补缺失的词语或文本部分来学习,这使得它非常擅长理解语言。

总体上讲,Llama 3 的训练数据集是 Llama 2 使用的数据集的七倍多,并且包含四倍多的代码。为了为即将到来的多语言用例做好准备,超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成。

训练优化

训练 Llama 3 模型结合了三种并行化方式:数据并行化、模型并行化和流水线并行化。其中最有效的实现在同时使用 16K 个 GPU 进行训练时,每个 GPU 的计算利用率达到了 400 TFLOPS 以上,在两个自定制的 24K GPU 集群上进行了训练运行。为了最大化 GPU 的正常运行时间,开发了一种先进的新训练平台,可自动化错误检测、处理和维护。我们还大大改进了硬件可靠性和静默数据损坏的检测机制,并开发了新的可扩展存储系统,减少了检查点和回滚的开销。这些改进使得整体有效训练时间超过了 95%。综合来看,这些改进使 Llama 3 训练效率相较于 Llama 2 提高了约三倍。

模型框架

Meta Llama 3 依旧采用优化的自回归 Transformer 架构,这种架构专为处理复杂的文本生成任务设计,能够有效提升生成文本的连贯性和相关性。模型结合了监督式微调(SFT)和带人类反馈的强化学习(RLHF),这种混合方法不仅增强了模型的帮助性,也提高了安全性,使得模型在实际应用中更加可靠和符合用户预期。

与 Llama 2 相比,Llama 3 做了几个关键的改进,包括:Llama 3 使用具有 128K token 词汇表的 tokenizer,可以更有效地对语言进行编码,从而显著提高模型性能;为了提高 Llama 3 模型的推理效率,研究团队在 8B 和 70B 大小的模型上采用了分组查询注意力 (GQA);在 8192 个 token 的序列上训练模型,使用掩码确保自注意力不会跨越文档边界。

11714293963_.pic.jpg

应用部署

Ollama

  • 从官方网站 ollama.com/ 下载 Ollama。

    • curl -fsSL https://ollama.com/install.sh | sh
  • 修改 ollama 服务启动脚本

    • vim /etc/systemd/system/ollama.service
    • ini
      复制代码
      [Service]  
      # 增加
      Environment="OLLAMA_HOST=0.0.0.0:11434"  
      
  • 启动ollama服务:

    • systemctl daemon-reload
    • systemctl restart ollama
  • 测试端口:

    • 直接浏览器访问 http://服务器ip:11434 ,如返回 ollama in runninng,表示正常
  • 下载 Llama 3:

    • arduino
      复制代码
      # 默认下载 8B 指令模型
      ollama run llama3
      # 70B
      ollama run llama3:70b-text
      ollama run llama3:70b-instruct
      
  • 使用 docker 部署 open-webui:

    • python
      复制代码
      docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main`
      
      # 如果镜像拉取速度慢,可以使用下面的镜像  
      docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always registry.cn-hangzhou.aliyuncs.com/pzl_images/open-webui:main
      
    • 完成后访问:http://ip:8080
    • 注册相关账号
  • 开始使用

image.png

开源之论

尽管 Llama 系列模型以开源而闻名,但是 Meta 在 Llama 的开源中可谓是费尽 “心机”。

开源友好型风险投资公司 RedPoint 的董事总经理 Erica Brescia 曾提到:“谁能向我解释一下,如果Llama 2实际上没有使用OSI(开放源码计划)批准的许可证,也不符合OSD(开放源码定义),Meta公司和微软公司又如何称Llama 2为开放源码?他们是在故意挑战OSS(开放源码软件)的定义吗?” Llama 并没有遵循上述协议,而是自定义了一套“开源规则”,包括禁止使用Llama 去训练其它语言模型,如果该模型用于每月用户超过7亿的应用程序和服务,则需要获得 Meta 的特殊许可证。

Llama 虽然自称为开源模型,但仅仅开放了模型权重——也就是训练之后的参数,但训练数据、训练代码等关键信息都未开放。

但由于大模型的算法黑盒,仅仅开放模型权重的“半开源”,导致了一个结果:用 Llama 2 的开发者再多,也不会帮助 Meta 提升任何 Llama 3 的能力和 Know-how,Meta 也无法靠 Llama 2 获取任何的数据飞轮。Meta 想要训练更强的 Llama 3,还是只能靠自己团队内部的人才、数据、GPU资源来做,还是需要做实验(比如Scailing Law)、收集更多的优质数据、建立更大的计算集群。这本质上与 OpenAI 训练闭源的 GPT-4 无异。

未来工作

多模态能力

Meta 计划在未来几年中为使 Llama 3 变得更加出色制定了宏伟计划。目前,Llama 3 可以在某些任务中处理文字和图片。但是,Meta 希望通过图像使其变得更加智能。到 2024 年底,他们计划推出 Llama 4,该版本将擅长理解并根据文本描述创建详细的图像。

这意味着它将能够做一些很酷的事情,比如平滑地改变图片的部分,调整场景的外观,并且以不同风格使图像看起来更加逼真。这就像将理解语言和看到图像的力量结合起来,以做更令人惊叹的事情。

多语言支持

目前,Llama 模型主要能够理解英语。但是,Meta 正在努力让它们理解和说更多的语言。他们计划在 2025 年底之前增加 30 多种语言,首先是流行的语言例如西班牙语、印地语和阿拉伯语。这将帮助 Llama 模型通过创建内容、翻译和理解多种语言的东西,成为一个非常有帮助的全球助手。

长程推理

Llama 3 可以思考和理解长达 8k 的文本。但是,Meta 想要进一步推动这一能力,因此未来的版本可以处理更长的文本,比如完整的研究论文。

这将使模型能够理解复杂的思想,辩论观点,并深入思考重大主题。这就是让人工智能在阅读和理解大量信息时变得更智能的方式。

领域模型

尽管 Llama 模型在许多方面表现出色,但是 Meta 希望推出专门版本,这些版本在医学、法律、金融和工程等特定领域有专业水平。通过处理这些领域,Meta 希望使 Llama 3 及其未来版本变得非常有用,不仅适用于一般任务,而且适用于特定的、复杂的和全球性的需求。

结语

Meta 的 Llama 3 模型不仅提升了 AI 技术的前沿,更通过免费开放,推动了全球范围内对高级语言模型的创新和伦理发展。随着 Llama 3 的不断优化,我们期待它在多模态能力、多语言支持以及特定领域知识方面的进一步发展。Meta 通过提供易于使用的模型、云选项、设置工具和丰富的学习资源,鼓励开发者和研究人员以一种安全和负责任的方式,将 Llama 3 的强大功能融入到他们的工作中。这不仅是 Meta 在 AI 领域的一次飞跃,也预示着一个更加智能和互联的未来。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/596956.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于springboot+vue+Mysql的在线动漫信息平台

开发语言:Java框架:springbootJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:…

Qt | QLCDNumber 类(LCD 数字),LCD 表示液晶显示屏

01、上节回顾 Qt 基础教程合集02、QLCDNumber 1、QLCDNumber 类用于显示类似于 LCD 显示屏上的字符(见右图) ​ 2、QLCDNumber 类是 QFrame 类的直接子类,因此 QLCDNumber 以使用从 QFrame 类继承而来的边框效果 3、QLCDNumber 可显示的符号有:0,1,2,3,4,5,6,7,8,…

ue引擎游戏开发笔记(33)——武器与角色的匹配,将新武器装备到角色身上

1.需求分析: 武器能出现在世界中,完成了第一步,下一步需要角色和武器适配,即不论角色跑动,射击等,武器和角色都相匹配,将武器装备到角色身上。 2.操作实现: 1.首先先把角色原有的武…

【数据结构】--- 深入剖析二叉树(中篇)--- 认识堆堆排序Topk

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏: 数据结构之旅 文章目录 🏠 初识堆 📒 堆的概念 📒 堆的性质 🏠 向上调整算法 && 向下调整算…

vector的oj题

1.只出现1次的数字 给你一个 非空 整数数组 nums ,除了某个元素只出现一次以外,其余每个元素均出现两次。找出那个只出现了一次的元素。 你必须设计并实现线性时间复杂度的算法来解决此问题,且该算法只使用常量额外空间。 方法:…

【Stable Diffusion】三句话,让Ai帮你画18万张图

本文介绍Stable Diffusion的快速上手,本地部署,以及更多有趣的玩法展示。 在 DALL-E 2 和 Imagen 之后,AI绘图领域又一个热乎的深度学习模型出炉——Stable Diffusion 。8月份发布的 Stable Diffusion 更加高效且轻量,可以在消费…

第六节课《Lagent AgentLego 智能体应用搭建》

PDF链接:https://pan.baidu.com/s/1JFtvBWgEGFWJq8pHafvIUg?pwd6666 提取码:6666 Lagent & AgentLego 智能体应用搭建_哔哩哔哩_bilibili https://github.com/InternLM/Tutorial/blob/camp2/agent/README.md InternStudio 一、为什么需要agent…

网页html版面分析-- BeauifulSoup(python 文档解析提取)

介绍 BeauifulSoup 是一个可以从HTML或XML 文件中提取数据的python库;它能通过转换器实现惯用的文档导航、查找、修改文档的方式。 BeauifulSoup是一个基于re开发的解析库,可以提供一些强大的解析功能;使用BeauifulSoup 能够提高提取数据的效…

R语言Rstudio突然无法启动?如何解决

🏆本文收录于「Bug调优」专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&…

由于找不到msvcp120.dll,无法继续执行代码的5种解决方法

在操作计算机的过程中,您或许会遇到这样一种情形:当试图启动某个软件应用程序时,系统突然弹出一个错误提示框,明确指出“找不到msvcp120.dll”,它会导致程序无法正常启动或运行。为了解决这个问题,我总结了…

作为全栈工程师,如何知道package.json中需要的依赖分别需要什么版本去哪里查询?

作为前端工程师,当你需要确定package.json中依赖的具体版本时,可以通过以下方法来查询: NPM 官网查询: 访问 npm 官网,在搜索框中输入你想查询的包名。在包的页面上,你可以看到所有发布过的版本号&#xff…

为什么很多人不推荐你用JWT?

为什么很多人不推荐你用JWT? 如果你经常看一些网上的带你做项目的教程,你就会发现 有很多的项目都用到了JWT。那么他到底安全吗?为什么那么多人不推荐你去使用。这个文章将会从全方面的带你了解JWT 以及他的优缺点。 什么是JWT? 这个是他的官网JSON…

解密Kol发文推广10个提升转化率的实用技巧-华媒舍

Key Opinion Leader(Kol,关键意见领袖)的发文推广成为了提升产品和服务转化率的重要手段。如何有效地利用Kol进行发文推广,并将潜在的观众转化为忠实的消费者,成为了营销从业者普遍关注的话题。本文将为您介绍10个实用…

Fluent 区域交界面的热边界条件

多个实体域公共交界面的壁面,Fluent 会分拆为 wall 和 wall-shadow 的两个壁面,两者为配对关系,分别从属于一个实体域。 配对面可使用热通量、温度、耦合三类热边界条件,前两者统称为非耦合热边界条件。 耦合为配对面默认的热边界…

谷歌搜索引擎seo套餐是怎样的?

在谷歌搜索引擎优化(SEO)套餐方面,你会发现服务提供商通常提供多样化的定制服务,旨在满足不同业务的独特需求,下面一些关键点,帮助理解一个典型的SEO服务套餐可能包括哪些内容: 具体目标&#x…

vue初始化项目

打开终端输入vue create project-name 选择Manually select features回车,继续选择如下: 如果要使用pina就可以不选vuex,回车,选择如下: 按下图选即可

状压dp 理论例题 详解

状压dp 四川2005年省选题:互不侵犯 首先我们可以分析一下,按照我们普通的思路,就是用搜索,枚举每一行的每一列,尝试放下一个国王,然后标记,继续枚举下一行 那么,我们的时间复杂度…

Vue 介绍

【1】前端发展史 前端的发展史可简述为: 从最初的静态页面编写,依赖后端模板渲染逐步演化为通过JavaScript(特别是Ajax技术)实现前后端分离,使得前端能够独立地加载数据和渲染页面随后,Angular、React、Vu…

Ubuntu20.04右键打不开终端

今天用virtualbox安装了ubuntu20.04 问题:右键打开终端,怎么也打开不了! 点了也没反应,或者鼠标转小圈圈,然后也没有反应… 解决方法: 1、Ctrl Alt F6 先切换到终端访问界面 mac电脑 Ctrl Alt F6 …

ADS基础教程9-理想模型和厂商模型实现及对比

目录 一、概要二、厂商库使用1.新建cell2.调用厂商库中元器件3.元器件替换及参数选择4.完成参数选择5.导入子图 三、仿真实现注意事项 一、概要 本文将介绍在ADS中调用厂商提供的库,来进行原理图仿真,并实现与ADS系统提供的理想元器件之间的比较。 二、…