【大语言模型LLM】- Meta开源推出的新一代大语言模型 Llama 3

在这里插入图片描述

🔥博客主页西瓜WiFi

🎥系列专栏《大语言模型》

很多非常有趣的模型,值得收藏,满足大家的收集癖! 如果觉得有用,请三连👍⭐❤️,谢谢!

长期不定时更新,欢迎watch和fork!❤️❤️❤️

❤️感谢大家点赞👍 收藏⭐ 评论⭐


🎥大语言模型LLM基础-系列文章

【大语言模型LLM】- AI工具收录集合,一篇就够了!
【大语言模型LLM】-大语言模型如何编写Prompt?
【大语言模型LLM】-如何使用大语言模型提高工作效率?
【大语言模型LLM】-使用大语言模型搭建点餐机器人

持续更新中…

一、热门大模型推荐

  • 国外

    • 🔥ChatGPT,OpenAI开发的一种基于GPT架构的对话生成模型。
    • 🔥Claude,美国人工智能初创公司Anthropic发布的大型语言模型。
    • 🔥Grok-1, Grok-1是由马斯克旗下的人工智能初创公司xAI发布的大语言模型。
  • 国内

    • 🔥文心一言,百度全新一代知识增强大语言模型。
    • 🔥豆包,字节跳动公司基于云雀模型开发的AI工具。
    • 🔥Kimi,月之暗面开发的国产人工智能大模型。
  • AI绘图

    • 🔥Midjourney,人工智能研究实验室Midjourney, Inc.开发的Al图像生成工具。
    • 🔥Stable Diffusion,Stable Diffusion是2022年发布的深度学习文本到图像生成模型。
    • 🔥Microsoft Designer,强烈推荐👍,免费绘图+设计,Microsoft Designer是一款基于生成式AI技术的设计工具,它搭载了由OpenAI开发的AI绘画工具DALL-E 2。
  • AI写作

    • 🔥火山写作,字节跳动旗下的火山引擎团队推出的AI中英文写作助手。
    • 🔥新华秒笔,新华通讯社与博特智能共同研发推出,集成了案例参考、材料查找、AI写作、修改润色色、审核校对、文件学习等功能,全方位地辅助公职人员提高创作效率,节省人工编写的时间和精力。
    • 🔥星火内容运营大师,星火内容运营大师是一款由科大讯飞推出的AI智能写作软件,旨在帮助内容运营者提高工作效率和质量。
    • 🔥Paperpal,Paperpal正是以此为发想而研发的学术专项AI工具,旨在提升研究者的英语写作体验。

二、新一代大语言模型 Llama 3

2.1 Llama 3是什么?

2024年4月18日,Meta在官网上宣布公布了旗下最新大模型Llama 3。Llama 3 包含8B和70B两种参数规模的模型,标志着开源人工智能领域的又一重大进步。作为LIama系列的第三代产品,Llama 3不仅继承了前代模型的强大功能,还通过一系列创新和改进,提供了更高效、更可靠的AI解决力方案,旨在通过先进的自然语言处理技术,支持广泛的应用场景,包括但不限于编程、问题解决、翻译和对话生成。

2.2 Llama 3的系列型号

Llama 3目前提供了两种型号,分别为8B(80亿参数)和70B(700亿参数)的版本,这两种型号旨在满足不同层次的应用需求,为用户提供了灵活性和选择的自由度。

  • Llama-3-8B:8B参数模型,这是一个相对较小但高效的模型,拥有有80亿个参数。专为需要快速推理和较少计算资源的应用景设计,同时保持了较高的性能标准。
  • Llama-3-70B:70B参数模型,这是一个更大规模的模型,拥有700亿个参数。它能够处理更复杂的任务,提供更深入的语言理解和生成能力,适合对性能要求更高的应用。
    后续,Llama 3还会推出400B参数规模的模型,目前还在训练中。Meta还表示等完成Llama 3的训练,还将发布一份详细的研究论文。

2.3 Llama 3的官网入口

  • 官方项目主页:https://llama.meta.com/llama3/
  • GitHub模型权重和代码:https://github.com/meta-llama/llama3/
  • Hugging Face模型:https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

2.4 Llama 3改进的地方

  • 参数规模:Llama3提供了8B和70B两种参数规模的模型,相比lama2,参数数量的增加使得模型能够捕捉和学习更复杂的语言模式。
  • 训练数据集:Llama3的训练数据集比LIama2大了7倍,包含了超过15)万亿个token,其中包括4倍的代码数据,这使得Llama3在理解和生成代码方面更加出色。
  • 模型架构:Llama3采用了更高效的分词器和分组查询注意力(Grouped Query Attention,GQA)技术,提高了模型的推理效率和处理长文本的能力。
  • 性能提升:通过改进的预训练和后训练过程,Llama3在减少错误拒绝率、提升响应对齐和增加模型响应多样性方面取得了进步。
  • 安全性:引入了Llama Guard2等新的信任和安全工具,以及Code Shield和CyberSec Eval2,增强了模型的安全性和可靠性。
  • 多语言支持:Llama3在预训练数据中加入了超过30种语言的高质量非英语数据,为未来的多语言能力打下了基础。
  • 推理和代码生成:Llama3在推理、代码生成和指令跟随等方面展现了大幅提升的能力,使其在复杂
    任务处理上更加精准和高效。

2.5 Llama 3的技术架构

  • 解码器架构:Llama3采用了解码器(decoder-only)架构,这是一种标准的Transformer模型架构,主要用于处理自然语言生成任务。
  • 分词器和词汇量:Llama3使用了具有128K个token的分词器,这使得摸型能够更高效地编码语言,从而显著提升性能。
  • 分组查询注意力(GroupedQueryAttention,GQA):为了提高推理效率,Llama3在8B和70B模型中都采用了GQA技术。这种技术通过将注意力机制中的查询分组,减少了计算量,同时保持了模型的性能。
  • 长序列处理:Llama3支持长达8,192个token的序列,使用掩码(maasking)技术确保自注意力(self-attention)不会跨越文档边界,这对于处理长文本尤其重要。
  • 预训练数据集:Llama3在超过15TB的token上进行了预训练,这这个数据集不仅规模巨大,而且质量高,为模型提供了丰富的语言信息。
  • 多语言数据:为了支持多语言能力,Llama3的预训练数据集包含了超过5%的非英语高质量数据,涵盖了超过30种语言。
  • 数据过滤和质量控制:Llama3的开发团队开发了一系列数据过虑管道,包括启发式过滤器、NSFW(不适合工作场所)过滤器、语义去重方法和文本分类器,以确保保训练数据的高质量。
  • 扩展性和并行化:Llama3的训练过程中采用了数据并行化、模型并行化和流水线并行化,这些技术的应用使得模型能够高效地在大量GPU上进行训练。
  • 指令微调(Instruction Fine-Tuning):Llama3在预训练模型的基础上,通过指令微调进一步提升了模型在特定任务上的表现,如对话和编程任务。

2.6 如何使用 Llama 3

开发人员
Meta已在GitHub、Hugging Face、Replicate上开源其Llama3模型,开发人员可使用torchtune等工具对Llama3进行定制和微调,以适应特定的用例和需求,感兴趣的开发者可以查看官方的入门指南并前往下载部署。

  • 官方模型下载:https://llama.meta.com/llama-downloads
  • GitHub地址:https://github.com/meta-llama/llama3/
  • Hugging Face地址:https://huggingface.co/meta-llama
  • Replicate地址:https://replicate.com/meta
    普通用户

不懂技术的普通用户想要体验Llama 3可以通过以下方式使用:

  • 访问Meta最新推出的Meta Al聊天助手进行体验(注:Meta.Al会员区,只有部分国家可使用)
  • 访问Replicate提供的Chat with Llama进行体验https://llama3.replicate.dev/
  • 使用Hugging Chat(https://huggingface.co/chat/),可手动将模型切换至Llama 3

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/569103.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在 Slurm 上运行 Jupyter

1. 背景介绍 现在的大模型训练越来越深入每个组了,大规模集群系统也应用的愈发广泛。一般的slurm系统提交作业分为2种,一种是srun,这种所见即所得的申请方式一般适用于短期的调试使用,大概一般允许的时间从几个小时到1天左右&…

使用 FFMPEG 实现录屏和录音

FFmpeg 是一个非常强大的开源工具,它可以用来处理音频和视频。 要使用 FFmpeg 进行录屏和录音,需要首先确保你的系统已经安装了 FFmpeg。在大多数 Linux 发行版中,可以通过包管理器(如 apt 或 yum)来安装。在 Windows …

Linux复习提纲2

Linux复习提纲 Linux概述 shell:交互式命令解释程序;用户和内核间交互的桥梁Shell不仅是交互式命令解释程序,还是一种程序设计语言shell是一种命令解释程序,批处理shell是linux的外壳,默认是bash2.1 Linux基础概念 log…

2024深圳杯(东三省)数学建模挑战赛D题:音板的振动模态分析与参数识别思路代码成品论文分析

​ 更新完整代码和成品完整论文 《2024深圳杯&东三省数学建模思路代码成品论文》↓↓↓ https://www.yuque.com/u42168770/qv6z0d/zx70edxvbv7rheu7?singleDoc# 问题重述 深圳杯(东三省)数学建模挑战赛2024D题:音板的振动模态分析与…

【iOS开发】(五)react Native路由和导航20240421-22

【iOS开发】(五)react Native 路由和导航Navigation 20240421 在(一)(二)中我们 Reactnative搭建了开发环境、学习了 基础语法、状态管理,JSX、组件、状态和生命周期以及样式布局等。 在(三)&a…

2024 OceanBase 开发者大会:OceanBase 4.3正式发布,打造PB级实时分析数据库

4月20日,2024 OceanBase开发者大会盛大召开,吸引了50余位业界知名的数据库专家和爱好者,以及来自全国各地的近600名开发者齐聚一堂。他们围绕一体化、多模、TP与AP融合等前沿技术趋势展开深入讨论,分享场景探索的经验和最佳实践&a…

STM32H750外设ADC之动态低功耗特性

目录 概述 1 模式实现(AUTDLY) 2 自动注入模式 (JAUTO1) 3 AUTDLY 模式 4 实现案例 概述 本文主要介绍STM32H750外设ADC之动态低功耗特性相关的内容。包括:模式实现(AUTDLY)、自动注入模式 (JAUTO1)、 AUTDLY 模…

【1646】医院人员管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 java 医院人员管理系统是一套完善的java web信息管理系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发,数据库为Mysql5.0&…

力扣经典150题(3)

文章目录 17.电话号码的字母组合77.组合46.全排列74.搜索二维矩阵215.数组中的第K个最大元素 17.电话号码的字母组合 给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。答案可以按 任意顺序 返回。 给出数字到字母的映射如下(与电话按键相…

金融风控信用评分卡建模(Kaggle give me credit数据集)

1 数据预处理数据 数据来源于Kaggle的Give Me Some Credit,包括25万条个人财务情况的样本数据 1.1 导包读数据 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.ensemble import RandomForestRegressor import seaborn as …

STM32 学习13 低功耗模式与唤醒

STM32 学习13 低功耗模式与唤醒 一、介绍1. STM32低功耗模式功能介绍2. 常见的低功耗模式(1)**睡眠模式 (Sleep Mode)**:(2)**停止模式 (Stop Mode)**:(3)**待机模式 (Standby Mode)**: 二、睡眠模式1. 进入…

Android视角看鸿蒙第十二课-鸿蒙的布局之相对布局RelativeContainer

Android视角看鸿蒙第十二课-鸿蒙的布局之相对布局RelativeContainer 导读 相对布局和线性、层叠布局一样都是类似于Android布局的,之前两篇文章已经了解线性、层叠布局的使用方法,这篇文章一起来学习下鸿蒙中的相对布局。 之前的文章中,我偶…

C#基础|对象属性Property基础使用,业务特性

哈喽,你好,我是雷工。 探究OOP中属性的奥秘 认识类的属性(Property) 01 属性的使用 作用:在面向对象(OOP)中主要用来封装数据。 要求:一般采用Pascal命名法(首字母要…

解决Linux CentOS 7安装了vim编辑器却vim编辑器不起作用、无任何反应

文章目录 前言一、解决vim不起作用(卸载重新安装)1.重新安装vim2.测试vim是否能正常使用 二、解决vim: error while loading shared libraries: /lib64/libgpm.so.2: file too short报错三、解决vim编辑器不能使用方向键和退格键问题 remove vim-common …

QT绘制。矩形A绕点B旋转。要求B点与矩形的角相连的直线,始终保持最短

矩形A绕点B旋转。要求B点与矩形的角相连的直线,始终保持最短 已知矩形4个角的坐标(H0,H1,H2,H3),B点的坐标. 思路: 判断矩形的位置,在B点的左上,左下,右上,右下 怎么判断…

ubuntu 使用conda 创建虚拟环境总是报HTTP错误,转换多个镜像源之后仍报错

最近在使用Ubuntu conda创建虚拟环境时,总是报Http错误,如下图所示: 开始,我以为是conda 镜像源的问题,但是尝试了好几个镜像源都不行,还是报各种各样的HTTP错误。后来查阅很多,总算解决了。解…

简化图卷积 笔记

1 Title Simplifying Graph Convolutional Networks(Felix Wu、Tianyi Zhang、Amauri Holanda de、 Souza Jr、Christopher Fifty、Tao Yu、Kilian Q. Weinberger)【ICML 2019】 2 Conclusion This paper proposes a simplified graph convolutional m…

栈和队列-介绍与实现(超级!!!详解-C语言)

目录 栈 栈的介绍 栈的概念 栈的结构 栈的实现 初始化栈 StackInit 销毁栈 StackDestroy 入栈 StackPush 出栈 StackPop 获取栈顶元素 StackTop 检查栈是否为空 StackEmpty 获取栈中有效元素个数 StackSize 队列 队列的介绍 队列的概念 队列的结构 队列的应用 队列的实现 …

上位机图像处理和嵌入式模块部署(树莓派4b用skynet实现进程通信)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 前面我们说过,在工业系统上面一般都是使用多进程来代替多线程。这后面,主要的原因还是基于安全的考虑。毕竟一个系统里面&a…

吴恩达机器学习笔记:第 8 周-13 聚类(Clustering)13.3-13.5

目录 第 8 周 13、 聚类(Clustering)13.3 优化目标13.4 随机初始化 第 8 周 13、 聚类(Clustering) 13.3 优化目标 K-均值最小化问题,是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和,因此 K-均值的代价函数(又称畸变函数 Dis…
最新文章