技术速览|Meta Llama 2 下一代开源大型语言模型

AI 使用大型语言模型(LLM)来理解和生成自然语言。LLM 可以从大量文本中学习并创建有关各种主题的文本,并可以完成比如编写代码、生成歌词、总结文章等任务。但有些 LLM 相关课程成本高昂且封闭,而现有的开放课程数量十分有限。这就是 Meta 推出新的开源 LLM Llama 2 的原因。
 

Meta Llama 2 旨在与 OpenAI 的 ChatGPT 和 Google Bard 等其他著名语言模型对标,但又具有独特优势。在本文中,我们将聊聊 Llama 2 是什么、它的优势是什么、是如何开发的、以及如何开始上手使用。
 

什么是大型语言模型(LLM)?

大型语言模型(LLM)是一种人工神经网络,可以从大量文本数据中学习并生成各种主题的自然语言文本。LLM 接受的语料库包含来自不同来源的数十亿或数万亿单词,例如书籍、网站、社交媒体帖子、新闻文章等。LLM 可以执行各种自然语言处理(NLP)任务,例如文本分类、情感分析、问答、机器翻译、文本摘要、文本生成等。流行的 LLM 的一些例子包括 OpenAI 的 ChatGPT、Google 的 Bard、微软的 Turing-NLG、IBM 的 Project CodeNet 等。
 

LLM 基于一种称为自我关注的技术,该技术使他们能够捕获文本中的远程依赖性和上下文信息。自注意力是使用名为 Transformer 的模块实现的,该模块由多层编码器-解码器对组成。每一层都对输入文本应用自注意力,并生成更精致和相关的输出文本。
 

LLM 的规模是通过其参数的数量来衡量的。参数是确定神经网络如何处理输入并产生输出的数值,LLM 的参数越多,它就越复杂和强大。而更多的参数也意味着更多的计算资源和能耗。
 

如何开始使用 Llama 2?

如果您有兴趣将 Llama 2 用于您自己的项目或实验,可以从 Meta 网站[1] 下载模型,您需要填写下载表格并同意 Meta 的隐私政策。您还需要在计算机或设备上安装 PyTorch。
 


 

阅读技术概述和研究论文。这些文档将为您提供有关 Llama 的架构、训练、性能和评估的更多信息。您还将了解 LLM 的挑战和局限性以及如何解决这些挑战和局限性。
 

遵循官方使用指南并加入开放创新社区。这些资源将帮助您以安全、合规、合法地方式使用 Llama 2,并将您和与您有共同兴趣和目标的其他用户和开发人员联系起来。
 

Llama 2 的优势

Llama 2 是 Meta 的下一代开源大语言模型。它是一系列经过预训练和微调的模型,参数范围从 70 亿到 700 亿个。Meta Llama 2 具有两大优势,使其从其他开源 LLM 中脱颖而出。
 

Llama 2 可免费用于研究和商业用途

Llama 2 的主要优点之一是它可以免费用于研究和商业用途。与其前身 Llama 拥有非商业许可证并被泄露到 torrent 网站不同,Meta Llama 2 拥有商业许可证,允许任何人将其集成到他们的产品和服务中。这也表示 Llama 2 可用于多种用途,例如构建聊天机器人、生成内容、创建语音助手等。Meta Llama 2 还可以针对特定领域和任务进行定制和微调,例如医疗保健、教育、金融等。
 

当然 Meta Llama 2 的使用也存在一些限制。例如,每月活跃用户超过 7 亿的潜在被许可人必须向 Meta 请求特别许可才能使用它。此外,Meta Llama 2 用户必须遵循 Meta 的负责任的使用指南并尊重他人的隐私和权利。
 

Llama 2 拥有一系列不同的模型

Llama 2 的另一个优势是它提供了一系列具有不同大小和功能的模型。根据用户的需求和资源,他们可以选择以下型号:
 


 

  • Llama-7B:最小的模型,拥有 70 亿个参数。适用于资源匮乏的设备和应用程序。

  • Llama-14B:具有 140 亿个参数的中型模型。适用于通用应用程序和任务。

  • Llama-28B:具有 280 亿个参数的大型模型。适用于高性能应用和任务。

  • Llama-56B:一个非常大的模型,拥有 560 亿个参数。适用于需要更多复杂性和多样性的高级应用程序和任务。

  • Llama-70B:最大的模型,拥有 700 亿个参数。适用于需要最高质量和性能的最先进的应用和任务。
     

所有这些模型都基于 2 万亿个 token 的在线数据进行了预训练,并且具有 4,096 个 token 的上下文窗口。此外,Meta 还提供了一个名为 Llama-2-chat 的微调模型,该模型针对会话应用程序进行优化。Llama-2-chat 经过超过 100 万条人工注释的训练,可以生成流畅且相对准确的响应。
 

Llama 2 是如何开发的?

Llama 2 由 Meta(前为Facebook)的研究部门 Meta AI 开发。Meta AI 致力于通过开放创新和协作推进人工智能领域的发展。Meta AI 拥有世界一流的研究人员和工程师团队,他们致力于人工智能的各个方面,如计算机视觉、自然语言处理、语音识别等。
 

Llama 2 建立在 Meta 之前的开源大型语言模型 Llama 之上,Llama 于今年 2 月发布。Llama 使用 Meta 的 PyTorch 框架在公开可用的在线数据源上进行了预训练。然而,Llama 拥有非商业许可证,仅适用于具有一定资格的学者。很快 Llama 就被泄露到网上并在人工智能社区广泛传播。许多爱好者和开发人员使用 Llama 为各种目的创建自己的微调模型,例如用于聊天机器人的 Alpaca、用于代码生成的 Camel、用于文本摘要的 Vicuna 等。
 

因此 Meta 决定采用这种开放式创新方法,并发布了带有商业许可证的 Llama 2,允许任何人将其用于研究和商业目的。Llama 2 使用 2 万亿个token在线数据进行预训练,是 Llama 的两倍。Meta Llama 2 还具有更丰富的上下文窗口,包含 4,096 个标记,是 Llama 上下文窗口大小的两倍。
 

Meta Llama 2 对超过 100 万条人工注释进行了微调,这些注释是从各种来源收集的,例如公开可用的指令数据集和 Meta 自己的众包平台。经过微调的模型 Llama-2-chat 针对对话应用程序进行了优化,可以生成流畅且更为准确的响应。
 

关于 Llama 2 的高频问题

Q:Llama 和 Llama 2 有什么区别?

A:Llama 是 Meta 开源大语言模型的第一个版本,于今年2月发布。Llama 使用 1 万亿个 token 的在线数据进行了预训练,并且有一个包含 2,048 个 token 的上下文窗口。Meta Llama 2 是 Meta 的下一代开源大语言模型,于今年 7 月发布。Meta Llama 2 使用 2 万亿个 token 在线数据进行了预训练,上下文窗口包含 4,096 个 token。
 

Q:如何针对我自己的领域或任务微调 Llama 2?

A:您可以使用 Meta 的 PyTorch 框架并遵循技术概述中的说明,针对您自己的领域或任务微调 Meta Llama 2。您将需要拥有与您的领域或任务相关的自己的文本数据集。
 

Q:Llama 2 面临哪些挑战和局限性?

A:Meta Llama 2 这样的 LLM 依旧面临一些挑战和限制。它们包括数据质量和偏见、计算成本和环境影响以及道德和社会影响。这些可能会影响LLM生成的文本及其在社会中使用的方式。
 

Q:如何以合法、合规的方式使用 Llama 2?

A:要以合法并合规的方式使用 Meta Llama 2(Meta 的开源大语言模型),您应该遵循 Meta 的官方使用指南。它提供了在您的产品中使用 LLM 的一些原则和最佳实践。其中包括尊重人的尊严和权利、透明和负责以及促进多样性和包容性。
 

结 论

Llama 2 是 Meta 的下一代开源大语言模型。它是一系列经过预训练和微调的模型,参数范围从 70 亿到 700 亿个。Meta Llama 2 可免费用于研究和商业用途,拥有一系列不同大小和功能的模型,并且在许多基准测试中优于其他开源 LLM。
 

Meta Llama 2 是一款功能强大且多功能的工具,可以帮助您创建令人惊叹的自然语言应用程序和体验。无论您是想构建聊天机器人、生成内容、创建语音助手还是其他任何东西,Llama 2 都可以帮助实现。感兴趣的伙伴不妨上手试试。
 

参考链接
原文:https://www.cloudbooklet.com/meta-llama-2-open-source-llm/
[1]. https://ai.meta.com/resources/models-and-libraries/llama-downloads/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/44165.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

机器学习深度学习——预备知识(上)

深大的夏令营已经结束,筛选入营的保研er就筛选了1/3,280多的入营总人数里面双非只有30左右。 最终虽然凭借机试拿到offer了,但是我感受到了自己的明显短板,比如夏令营的舍友就都有一篇核心论文,甚至还有SCI一区一作的。…

Docker数据管理和网络通信 dockerfile

Docker数据管理和网络通信 dockerfile 一:Docker 的数据管理1.数据卷2.数据卷容器 二:端口映射三:容器互联(使用centos镜像)四:Docker 镜像的创建1.基于现有镜像创建2&am…

证书文件无法生成.p12

做好的证书文件在生成.p12文件的过程中遇到了.p12选项置灰且无法选择并导出的情况 解决办法 起初认为生成的空白 CertificateSigningRequest 有问题,反反复复尝试几次制作后均无效; 而后发现问题出在了钥匙串访问的选项问题上 ... 将顶部菜单 tab 由"所有选项"切换至…

从不同的使用场景认识STag26

当你买下STag26时, 你买到的是什么? 如果你是商超生鲜区的经理, 你买到的是在促销旺季时的高效与安心。 你不用再担心价格没有及时更新, 导致水果蔬菜的滞销。 毕竟,STag26能够一键改价,实时更新&#x…

项目:点餐系统1

项目简介:实现一个http点餐系统服务器,能够支持用户在浏览器访问服务器获取餐馆首页,进行菜品以及订单管理。 具体模型如下: 用户分类: 管理员:进行订单以及菜品管理(菜品&订单的增删改查&a…

【C#】using

文章目录 global 修饰符using 别名结合“global 修饰符”和“using 别名”static 修饰符来源 global 修饰符 向 using 指令添加 global 修饰符意味着 using 将应用于编译中的所有文件(通常是一个项目)。 global using 指令被添加到 C# 10 中。 其语法为…

LiveGBS流媒体平台GB/T28181功能-视频直播流媒体平台分屏展示设备树分组树记录上次分屏播放记录

LiveGBS视频直播流媒体平台分屏展示设备树分组树记录上次分屏播放记录 1、分屏展示1.1、单屏1.2、四分屏1.3、九分屏1.4、十六分屏 2、分屏记录3、搭建GB28181视频直播平台 1、分屏展示 LiveGBS分屏页面支持,多画面播放,支持单屏、四分屏、九分屏、十六…

Java-API简析_java.net.Proxy类(基于 Latest JDK)(浅析源码)

【版权声明】未经博主同意,谢绝转载!(请尊重原创,博主保留追究权) https://blog.csdn.net/m0_69908381/article/details/131881661 出自【进步*于辰的博客】 因为我发现目前,我对Java-API的学习意识比较薄弱…

xcode15启动IOS远程调试

1.用数据线连接IPhone到macOS 2.打开xcode15,然后点击Window->Devices and Simulators 3.选中左边的Devices可看到已连接的IPhone,然后点击Connect via network使其选中. 选择后,左边的IPhone设备的右边出现一个地球图标,表示成功通过网络连接到IPhone 现在可断开数据线的…

GoogleLeNet Inception V1

文章目录 Inception V1Inception Modulenative versionInception module with dimensionality reduction1 * 1网络的降维说明 多个Softmax的输出整体结构 GoogleLeNet主要是把深度扩充到了22层,能增加网络深度而不用担心训练精度和梯度消失问题。 总共是提出了4个版…

Cilium系列-4-Cilium本地路由

系列文章 Cilium 系列文章 前言 在前文中我们提到, cilium install 默认安装后, Cilium 功能启用和禁用情况如下: datapath mode: tunnel: 因为兼容性原因,Cilium 会默认启用 tunnel(基于 vxlan) 的 datapatch 模式,也就是 overlay 网络结…

Python数据分析实战-datafram按某(些)列按值进行排序(附源码和实现效果)

实现功能 Python对datafram按某(些)列进行排序(附源码和实现效果) 实现代码 import pandas as pd# 读取数据 datapd.read_csv(E:\数据杂坛\\UCI Heart Disease Dataset.csv) dfpd.DataFrame(data) print(df.head())# # 按某列的…

【干货分享】如何恢复SOLIDWORKS 零件、装配体和工程图模板?

当我们卸载了SOLIDWORKS或者是购买了一台新笔记本电脑或是丢失了一直在使用的模板时,我们可以通过打开过去的零件、装配体和工程图文件来恢复 SOLIDWORKS 模板。 ▷ 零件模板 打开包含所需自定义属性的上一个部件。 保存零件的副本以避免对原始文件进行意外更改。…

React:从 npx开始

使用 npm 来创建第一个 recat 文件( react-demo 是文件名,可以自定义) npx create-react-app react-demo npx是 npm v5.2 版本新添加的命令,用来简化 npm 中工具包的使用 原始: 全局安装npm i -g create-react-app 2 …

​《爆肝整理》保姆级系列教程-玩转Charles抓包神器教程(16)-Charles其他骚操作之大结局​

1.简介 今天就说一些Charles的其他操作、以及抓包跨域的问题和常见的问题如何解决。到此Charles这一系列的文章也要和大家说再见了,其他什么小程序、Android7.0等等的问题可以查看宏哥的Fiddler系列文章,只不过是将Fiddler换成Charles而已。 2.模拟403…

Qt - macOS 安装配置

文章目录 一、关于 QT1.2 Qt的发展史1.3支持的平台1.4 Qt版本1.5 Qt 的优点1.6 成功案例 二、软件安装1、保证已 Xcode 和 Command Line Tools2、下载 QT3、下载 [qtcreator](http://download.qt.io/official_releases/qtcreator/)查看qt版本 三、创建工程Qt 常见用法 四、基础…

83%的企业曾遭受固件攻击,仅29%分配了固件防护预算

近日,微软发布了名为[《Security Signals》的研究报告](https://www.microsoft.com/secured- corepc/assets/downloads/SecuritySignals_ThoughtPaper.pdf)。报告显示, 过去两年中,83%的组织至少遭受了一次固件攻击,而…

第五讲:MySQL中DDL表的修改与删除

1、alter:改变 2、table:表 3、truncate:截断,删节 学习渠道:黑马程序员

excel中的vlookup如何实现根据多个条件查找?

目录 简述问题公式思路通用公式三条件查找公式实例 简述 Excel 中根据一个条件查找非常方便,Excel 提供了内置函数 VLOOKUP。但是实际中往往有多种情形,需要根据多个条件进行查找操作,目前没有现成的内置函数。 本篇介绍 VLOOKPCHOOSE 组合…

利用RLHF优化大模型:提升性能与应用能力

在数据科学不断发展的过程中,大模型在自然语言处理、图像识别、金融预测等各个领域的应用越来越广泛。然而,大模型的训练和优化也面临着越来越多的挑战,例如数据量过大、计算资源不足、超参数调整困难等。传统的机器学习算法往往难以处理这些…
最新文章