LLMs之Grok-1:Grok-1的简介、安装、使用方法之详细攻略

LLMs之Grok-1:Grok-1的简介、安装、使用方法之详细攻略

导读:马斯克旗下的xAI公司宣布开源名为Grok-1的混合专家模型,参数量达3140亿,为目前最大的开源大语言模型。xAI此举或将引领人工智能开源趋势,同时也将对不太Open的OpenAI等公司形成市场和技术竞争压力。
Grok-1的特点
>> 从头训练,未针对任何特定任务微调
>> 使用MoE模型,每个token上的平均激活权重为25%
>> 采用JAX库和Rust语言从零开始训练
>> 采用Apache许可证完全开源了模型权重和架构
评估结果:Grok-1在人工评估任务和标准机器学习基准上表现出色,超越其他同类模型。
下载方法:可以使用磁力链接或Torrent客户端下载权重文件,但需要6TB以上GPU内存运行示例代码。

目录

Grok-1的简介

1、模型详情

2、模型规格细节

Grok-1的安装

1、下载

(1)、下载仓库

(2)、下载模型权重

T1、可以使用种子客户端和以下磁铁链接下载权重:推荐

T2、直接使用HuggingFace:非常慢

2、运行测试代码

Grok-1的使用方法


Grok-1的简介

2024年3月17日(当地时间),马斯克的AI创企xAI重磅发布了Grok-1的基础模型权重和网络架构,这是一款大型语言模型。Grok-1是一个3140亿参数的专家混合模型,远超OpenAI GPT-3.5的1750亿。由xAI从头开始训练。这是Grok-1预训练阶段的原始基础模型检查点,该阶段于2023年10月结束。这意味着该模型没有针对任何特定应用进行微调,比如对话。

要开始使用该模型,请按照github.com/xai-org/grok上的说明操作。

官网:Open Release of Grok-1

GitHub地址:GitHub - xai-org/grok-1: Grok open release

1、模型详情

基于大量文本数据训练的基础模型,没有针对任何特定任务进行微调。
3140亿参数的专家混合模型,对于给定的标记,有25%的权重处于活动状态。
在2023年10月由xAI从头开始使用JAX和Rust的自定义训练堆栈进行训练。

封面图像是使用Midjourney生成的,基于Grok提出的以下提示:

A 3D illustration of a neural network, with transparent nodes and glowing connections, showcasing the varying weights as different thicknesses and colors of the connecting lines.

一个神经网络的3D插图,具有透明的节点和发光的连接,展示了连接线的不同粗细和颜色作为不同权重的变化。

2、模型规格细节

Grok-1当前设计具有以下规格:
参数:314B
架构:8个专家的混合(MoE)
专家利用率:每个标记使用2个专家
层:64
注意头:48个用于查询,8个用于键/值
嵌入大小:6,144
标记化:带有131,072个标记的SentencePiece分词器
附加功能:
旋转嵌入(RoPE)
支持激活分片和8位量化
最大序列长度(上下文):8,192个标记

Grok-1的安装

1、下载

(1)、下载仓库

这个存储库包含了加载和运行Grok-1开放权重模型的JAX示例代码。

确保下载检查点并将ckpt-0目录放置在checkpoints中 - 请参阅下载权重

地址:GitHub - xai-org/grok-1: Grok open release

(2)、下载模型权重

T1、可以使用种子客户端和以下磁铁链接下载权重:推荐
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

T2、直接使用HuggingFace:非常慢
git clone https://github.com/xai-org/grok-1.git && cd grok-1
pip install huggingface_hub[hf_transfer]
huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False

2、运行测试代码

安装依赖,并测试代码

pip install -r requirements.txt
python run.py

来测试代码。该脚本会加载检查点并从模型中对测试输入进行采样。

由于模型的体积很大(314B参数),测试模型需要具有足够GPU内存的计算机以运行示例代码。此存储库中MoE层的实现不高效。选择了这种实现以避免需要自定义内核来验证模型的正确性。

Grok-1的使用方法

更新中……

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/468209.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

协议分类笔记

1.3 协议分类 通信的协议还是比较复杂的,java.net 包中包含的类和接口,它们提供低层次的通信细节。我们可以直接使用这些类和接口,来专注于网络程序开发,而不用考虑通信的细节。 java.net 包中提供了两种常见的网络协议的支持&a…

DevExpress WinForms crack,DevExpress WinForms组件套件和库

DevExpress WinForms crack,DevExpress WinForms组件套件和库 Reporting & Analytics - Reports, Pivot Tables, PDF Viewer. The DevExpress WinForms Subscription includes royalty-free user interface components for next-gen decision support systems. Whether you…

Java基础经典10道题

目录 for循环的嵌套 题目一: 求101到200之间的素数的个数,并打印 代码分析: 注意点: 题目二:开发验证码 代码分析: 题目三:数组元素的复制 代码分析: 题目四:评委打分 健壮版代码: 代码分析:看源码 注意点: 题目五:数字加密 优化版代码: 代码分析: 题目六:数字…

MeterSphere和Jmeter使用总结

一、MeterSphere 介绍 MeterSphere 是⼀站式开源持续测试平台,涵盖测试跟踪、接⼝测试、UI 测试和性能测试等,全 ⾯兼容 JMeter、Selenium 等主流开源标准,能够有效助⼒开发和测试团队在线共享协作,实现端到 端的测试管理跟踪…

2、RabbitMQ_安装

RabbitMQ安装文档 RabbitMQ官网下载地址:https://www.rabbitmq.com/download.html 1.安装依赖 在线安装依赖环境: yum install build-essential openssl openssl-devel unixODBC unixODBC-devel make gcc gcc-c kernel-devel m4 ncurses-devel tk tc x…

Java语言: 多线程

1. 线程调度 1.1 线程状态 线程是cpu任务调度的最小执行单位,每个线程拥有自己独立的程序计数器、虚拟机栈、本地方法栈。 线程状态:创建、就绪、运行、阻塞、死亡 1.2 线程状态切换 1.3 阻塞唤醒过程 阻塞: 这三个方法的调用都会使当前…

视频私有云,HDMI/AV多硬件设备终端接入,SFU/MCU视频会议交互方案。

在视频业务深入的过程中越来越多的硬件设备接入视频交互的视频会议中远程交互,有的是视频采集,有的是医疗影像等资料,都需要在终端承显,这就需要我们的设备终端能多设备,多协议接入,设备接入如下。 1&#…

2024年敏捷产品负责人CSPO认证培训

课程名称:Scrum Product Owner CSPO产品负责人认证 课程类型:经理级 课程简介: Scrum Product Owner产品负责人在Scrum产品开发当中扮演“舵手”的角色,他决定产品的愿景、路线图以及投资回报,他需要回答为什么做&am…

数据收集与分析

数据收集与分析是任何组织决策过程中的核心环节,特别是在确定关键性能指标(KPIs)、使用先进的数据分析工具和方法方面。以下是一个概述,旨在解释如何进行数据收集与分析,并确定KPIs。 1. 确定关键性能指标&#xff08…

windows DCMTK编译使用(qt) 医学图像

由于项目需要生成DICOM格式的图片,需要使用到第三方开源库DCMTK,于是研究了一番,该库是C编写的,DICOM主要用于医疗体系中,除了可以保存图片信息外,还可以储存患者信息,病例信息,医疗…

蓝桥杯刷题(十一)

1.卡片 反向思考&#xff0c;看k种卡片可以分给几位同学 代码 n int(input()) k 1 while k*(k1)<2*n:k1 print(k)2.美丽的2 代码 def f(x)->bool:while x:if x%102:return Truex//10return False cnt 0 for i in range(1,2021):if f(i):cnt1 print(cnt)3.单词分析 …

会话绑定实验

准备三台虚拟机 1. 安装epel镜像 2. 安装nginx 3. 配置nginx文件&#xff0c;启动服务 4. 管理剩余两台服务器 同时在剩余两台服务器里操作 5. 操作虚拟机二&#xff08;一&#xff09; 创建data文件夹&#xff0c;解压jdk到user/local下并进入&#xff0c;给jdk做个软链接 6. …

【详细解读】HTTP协议性能特征及性能测试方法

&#x1f604;作者简介&#xff1a; 小曾同学.com,一个致力于测试开发的博主⛽️&#xff0c;主要职责&#xff1a;测试开发、CI/CD 如果文章知识点有错误的地方&#xff0c;还请大家指正&#xff0c;让我们一起学习&#xff0c;一起进步。 &#x1f60a; 座右铭&#xff1a;不…

小程序云开发(十六):JavaScript基础

&#x1f517; 运行环境&#xff1a;小程序云开发 &#x1f6a9; 撰写作者&#xff1a;左手の明天 &#x1f947; 精选专栏&#xff1a;《python》 &#x1f525; 推荐专栏&#xff1a;《算法研究》 &#x1f510;#### 防伪水印——左手の明天 ####&#x1f510; &#x1f497…

Auto-DataProcessing:一组让制作数据集变轻松的脚本

前言 最近跟同学参加了个比赛&#xff0c;我负责Object-Detection的技术实现&#xff0c;需要从网上扒大量的数据(主办方每种识别物就给了一张demo&#x1f923;)&#xff0c;发现数据准备是一个真的是一个非常重要但又耗时耗力的过程。对我来说&#xff0c;给我一类待识别的标…

蓝桥杯-Sticks-DFS搜索

题目 样例输出是 6 5 题目中给错了&#xff0c;不知道什么时候会改。 思路 --剪枝&#xff0c;否则时间复杂度和空间复杂度过大&#xff0c;会超时。 --注意有多组测试样例时&#xff0c;需要将bool数组重新赋值为false。 --函数类型不是void&#xff0c;return语句不能省…

Selenium 自动化 —— Selenium IDE录制、回放、导出Java源码

Hello Selenium 示例 之前我们在专栏的第一篇文章中演示了使用使用Selenium进行百度搜索的Hello world示例。 代码不复杂非常简单&#xff1a; public static void main(String[] args) {WebDriver driver null;try {// 设置Chrome驱动的路径 // System.setPro…

UnityShader(十八) 透明度测试

上代码&#xff1a; Shader "Shader入门/透明度效果/AlphaTestShader" {Properties{_MainTex ("Texture", 2D) "white" {}_CutOff("CutOff",Range(0,1))1}SubShader{Tags { "Queue""AlphaTest" "IgnorePro…

SpringBoot中使用MybatisX插件的详细过程

MybatisX 是一款针对 MyBatis 框架的 IntelliJ IDEA 的快速开发插件&#xff0c;旨在提高 MyBatis 开发效率的工具。它提供了一系列功能来简化 MyBatis 的配置和使用&#xff0c;包括 XML 文件的智能补全、快速跳转、代码生成等功能。 实现细节 &#xff08;1&#xff09;在I…

Milvus向量数据库检索

官方文档&#xff1a;https://milvus.io/docs/search.md   本节介绍如何使用 Milvus 搜索实体。   Milvus 中的向量相似度搜索会计算查询向量与具有指定相似度度量的集合中的向量之间的距离&#xff0c;并返回最相似的结果。您可以通过指定过滤标量字段或主键字段的布尔表达…