微软发布了Orca 2,一对小型语言模型,它们的性能超越了体积更大的同类产品

尽管全球目睹了OpenAI的权力斗争和大规模辞职,但作为AI领域的长期支持者,微软并没有放慢自己的人工智能努力。今天,由萨提亚·纳德拉领导的公司研究部门发布了Orca 2,这是一对小型语言模型,它们在零样本设置下对复杂推理任务的测试中,要么匹敌要么超越了体积是它们五到十倍的大型语言模型,包括Meta的Llama-2 Chat-70B。

这些模型分别具有70亿和130亿参数,是在几个月前展示了通过模仿更大、更有能力模型的逐步推理轨迹而展现出强大推理能力的原始13B Orca模型工作的基础上构建的。

微软的研究人员在一篇联合博客文章中写道:“通过Orca 2,我们继续展示改进的训练信号和方法可以让小型语言模型实现更强的推理能力,这通常只在更大的语言模型中找到。”

公司已经开源了这两个新模型,以进一步研究小型模型的开发和评估,这些模型可以像更大的模型一样表现出色。这项工作可以为企业(特别是资源有限的企业)提供更好的选择,以应对其目标用例,而无需在计算能力上投入过多。

了解更多 教小型模型如何推理 虽然像GPT-4这样的大型语言模型长期以来一直以其推理能力和解释复杂问题的能力给企业和个人留下深刻印象,但它们的小型对应物大多缺乏这种能力。微软研究院决定通过对Llama 2基础模型进行微调来解决这一差距,使用高度定制的合成数据集。然而,研究人员训练小型模型采用不同的解决策略来应对不同的任务,而不是训练模型去复制更有能力模型的行为——这是一种常用的模仿学习技术。这个想法是,更大模型的策略可能并不总是适用于小型模型。例如,GPT-4可能能够直接回答复杂的问题,但一个小型模型在没有那种能力的情况下,可能会受益于将同一任务分解成几个步骤。

研究人员在今天发表的一篇论文中写道:“在Orca 2中,我们教授模型各种推理技术(逐步、回忆然后生成、回忆-推理-生成、直接回答等)。更重要的是,我们旨在帮助模型学会确定每项任务最有效的解决策略。”该项目的培训数据是从一款更有能力的教师模型中获取的,以这样的方式教导学生模型处理两个方面:如何使用推理策略以及何时准确地使用它来处理手头的任务。

Orca 2在较大模型中的表现更佳 在零样本设置下的15项多样化基准测试(包括语言理解、常识推理、多步骤推理、数学问题解决、阅读理解、总结和真实性等方面)中,Orca 2模型取得了惊人的结果,其表现大多与体积是它们五到十倍的模型相匹敌或超越。所有基准测试结果的平均值显示,Orca 2的7B和13B在Llama-2-Chat-13B和70B以及WizardLM-13B和70B上表现更好。只有在GSM8K基准测试中,它包含了8.5K高质量的小学数学问题,WizardLM-70B比Orca模型和Llama模型做得更好。

Orca 2基准测试结果 Orca 2基准测试结果 虽然这种表现对于可能希望使用小型、高性能模型进行经济高效的商业应用的企业团队来说是个好消息,但重要的是要注意,这些模型也可能继承其他语言模型以及它们所基于的基础模型的普遍限制。

微软补充说,创建Orca模型的技术甚至可以用于其他基础模型。

“尽管它有几个限制……,Orca 2在未来发展的潜力是显而易见的,尤其是在提高小型模型的推理能力、专业化、控制和安全性方面。使用精心筛选的合成数据进行后期培训被证明是这些改进的关键策略。随着更大的模型继续表现出色,我们与Orca 2的合作标志着在语言模型的应用和部署选项多样化方面迈出了重要的一步。”研究团队写道。

更多小型高性能模型即将涌现 随着开源Orca 2模型的发布和该领域的持续研究,可以肯定地说,更多高性能的小型语言模型可能会在不久的将来出现。

就在几周前,中国最近成为独角兽的01.AI,由资深人工智能专家李开复创立,也在这一领域迈出了重要的一步,发布了一款支持中英文的340亿参数模型,其性能超过了70亿的Llama 2和180亿的Falcon对手。该初创公司还提供了一个经过6亿参数训练的较小选项,在广泛使用的AI/ML模型基准测试中表现尚可。

Mistral AI,这家成立六个月的巴黎初创公司,因其独特的Word Art标识和创纪录的1.18亿美元种子轮融资而成为头条新闻,也提供了一款70亿参数的模型,其性能超过了更大的产品,包括Meta的Llama 2 13B(Meta较小的新型号之一)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/191360.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STK Components 二次开发-地面站传感器

上一篇我们说了创建地面站,那么这次我们在地面站添加一些特效。 1. 创建地面站 var locationPoint1 new PointCartographic(m_earth, new Cartographic(Trig.DegreesToRadians(117.17066), Trig.DegreesToRadians(31.84056), 240.359)); m_facility new Platfor…

计算机视觉面试题-01

计算机视觉面试通常涉及广泛的主题,包括图像处理、深度学习、目标检测、特征提取、图像分类等。以下是一些可能在计算机视觉面试中遇到的常见问题: 图像处理和计算机视觉基础 图像是如何表示的? 图像在计算机中可以通过不同的表示方法&…

以非常规思维去做一个嵌入式音视频开发项目!

前言: 大家好,在上周的文章里面,给大家介绍了一个音视频项目,本周继续来分享音视频项目,之前说过,如果你不知道做什么功能开发嘛,因为接触的少;我突然想到,可以去参考市面…

JVM的小知识总结

加载时jvm做了这三件事: 1)通过一个类的全限定名来获取该类的二进制字节流 什么是全限定类名? 就是类名全称,带包路径的用点隔开,例如: java.lang.String。 即全限定名 包名类型 非限定类名也叫短名,就…

利用STM32和MFRC522 IC实现智能卡的读取和数据存储

利用STM32微控制器和MFRC522 RFID读写器芯片,可以实现智能卡的读取和数据存储功能。智能卡是一种集成了RFID技术和存储芯片的卡片,它可以用于身份验证、门禁控制、支付系统等应用场景。下面将介绍如何使用STM32和MFRC522芯片进行智能卡的读取和数据存储&…

【计算机视觉】【图像处理综合应用】路沿检测

实验内容:针对给定的视频,利用图像处理基本方法实现道路路沿的检测; 提示:可利用Hough变换进行线检测,融合路沿的结构信息实现路沿边界定位(图中红色的点位置)。 处理视频文件 处理视频文件的主…

Nginx(资源压缩)

建立在动静分离的基础之上,如果一个静态资源的Size越小,那么自然传输速度会更快,同时也会更节省带宽,因此我们在部署项目时,也可以通过Nginx对于静态资源实现压缩传输,一方面可以节省带宽资源,第…

GPT4测试 — 答题能力及文档处理能力

创建gdp.txt文件(使用word 2013创建的文档测试了也可以,WPS建的不行) 上传文件,输入prompt: 请帮我答题,把那个正确答案的选项的字母序号填在()中,并返回文件blabla… 给我一个文件…

第二十三章 解析PR曲线、ROC曲线、AUC、AP(工具)

混淆矩阵Confusion Matrix 混淆矩阵定义 混淆矩阵是机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总。其中矩阵的行表示真实值,矩阵的列表示预测值,下面我…

可燃气体监测仪助力燃气管网安全监测,效果一览

城市地下管线是指城市范围内供应水、排放水、燃气等各类管线及其附属设施,它们是保障城市正常运转的重要基础设施且影响着城市生命线。其中燃气引发的事故近些年不断增加,由于燃气管线深埋地下环境复杂,所以仅仅依赖人工巡查难以全面有效地防…

PCIE链路训练-状态机描述3

Configuration.Idle 1.当使用8b/10b编码时,non-flit模式下,在所用配置的lane上发送s Idle data Symbols,在flit mode下发送IDLE flit。 2.linkup 0 link两端的component均支持64.0GT/s的速率,根据进入此状态之前发送的8个TS2或…

2023/11/26总结

一些学习记录: 在对数据库进行一系列操作的时候,遇到一个问题,在插入数据的时候,我数据库对应的是自增id,但是插入后想获取到这个id去使用。我以为是不可以马上获取的,然后看到 项目进度 购物车&#xff…

springboot核心原理之@SpringbootApplication

1.SpringbootApplication Configuration标志的类 在spring ioc启动的时候就会加载创建这个类对象 EnableAutoConfiguration 中有两个注解 (1)AutoConfigurationPackage 扫描主程序包(主程序main所在包及其子包) 可以看到这个类 : static c…

Ubuntu:安装VSCode

参考博客Ubuntu下安装VSCODE_ubuntu安装vscode-CSDN博客中的第二种方式【安装包方式安装】,即可,安装非常easy~~~ 安装包方式安装: 1. 从VSCode官网下载最新版的deb安装包: https://code.visualstudio.com/Download,…

【论文解读】Real-ESRGAN:使用纯合成数据训练真实世界的超分辨率图像

图一是4种超分方法的对比效果 。 0 摘要 尽管在盲超分辨率方面已经进行了许多尝试,以恢复具有未知和复杂退化的低分辨率图像,但它们仍然远远不能解决一般的真实世界退化图像。在这项工作中,我们将强大的 ESRGAN 扩展到一个实际的恢复应用程序…

85基于Matlab的交通设施识别

基于Matlab的交通设施识别。 GUI设计图像处理, 基于数字图像处理,设计实现一个自然场景下公路交通限速标志分割和识别的程序。要求系统具有界面,并实现以下功能: 1)读入自然场景下包含交通标志的图像; 2)对…

Java多线程并发中部分不并发的问题

写Java实验发现个有意思的问题 三个线程,一个线程打印字符a,一个线程打印字符b,另一个线程打印数字,多次运行结果都是先打印混合输出的ab,完了再打印数字 有图有真相,我运行了10次 完整的代码是这个 clas…

win10下载Remix IDE桌面版以及空白页面的解决

文章目录 Remix IDE 的下载Remix IDE 空白页面的解决 Remix IDE 的下载 到 github 地址 https://github.com/ethereum/remix-desktop/releases 选择exe文件或根据自己电脑版本选择对应的zip文件进行下载,然后正常安装即可。 Remix IDE 空白页面的解决 有时打开Remix…

7 通用数字量输入输出GPIO

文章目录 7.0 GPIO概念7.1 GPIO工作原理7.2 GPIO寄存器以及编程7.2.5 GPIO寄存器编程设置与应用 7.3 GPIO跑马灯7.3.1 LED 输出初始化7.3.2 跑马灯输出实验7.3.3 按键输入实验 7.0 GPIO概念 GPIO(general purpose intput output)是通用输入输出端口的简…

记一次Kotlin Visibility Modifiers引发的问题

概述 测试环境爆出ERROR告警日志java.lang.IllegalStateException: Didnt find report for specified language,登录测试环境ELK查到如下具体的报错堆栈日志: java.lang.IllegalStateException: Didnt find report for specified language at com.aba.…
最新文章