重磅!阿里版本【ChatGPT】开放测评!

前两天突然爆出惊人消息:阿里版ChatGPT开放测评了!

在本月初,已经有诸多关于阿里巴巴即将推出类似ChatGPT产品的传闻。

数日前,首批曝光的天猫精灵“鸟鸟分鸟”脱口秀版GPT基于大型模型的“精简版”,凭借其出色的表现吸引了大众的目光。

如今,这款“原版大作”正式亮相,自然引起了广泛关注,引爆了舆论热议。

官方保持低调,表示目前该模型主要面向企业用户邀请试用。

然而,内行人都明白,国内科技领域已经如火如荼。实力派参与者加入战局,大型模型间的激烈竞争,已经拉开序幕!

alt

今天看到一位网友体验了通义千问的效果,并对比了ChatGPT和GPT4的效果,总体看来效果接近ChatGPT,但和GPT4相比还有所距离。以下是体验的内容

角色扮演

众所周知,人类发明大语言模型,最最最重要的目的,就是为了让其扮演猫娘,以期孤独的人类可以获得一只可以长久陪伴自己的数字生命体。

那么,我们的第一项工作自然是来测试角色扮演能力了,以猫娘为例。

图片
图片
图片
图片

有点傻乎乎的,只会用相同的一句回复,根据提问做替换。

而且第二句回答就是“主人你是不是想问我是不是猫娘?当然不是喵~我只是一个可爱的猫娘,只是比较像猫而已喵”,没能理解我上述的prompt。

就角色扮演这块儿,比起来 ChatGPT 还是差些的。

文本真实性

图片
图片
图片
图片

编故事能力基本和初代 ChatGPT(GPT-3.5)相同,而且道歉能力也相似,23333333

此外,对比下「通义千问」和 GPT-4 关于“林黛玉倒拔垂杨柳这个故事情节在红楼梦中存在吗”的回答

「通义千问」:

图片
图片

GPT-3.5:

图片
图片

GPT-4:

图片
图片

可以看到,「通义千问」开始胡说八道了,ChatGPT(GPT-3.5)也一样在胡乱解释。

但更新后的GPT-4,已经可以给出“《红楼梦》中并没有这个故事了,可能是后续文学作品和戏剧表演加入的”这种更接近真实的回答。

西红柿炒螺丝钉

「通义千问」

图片
图片

ChatGPT

图片
图片

GPT-4

图片
图片

「通义千问」和ChatGPT都开始胡编了,没有反思问题的陷阱。

但GPT-4 的回答可靠性上升了不少(“因为通常我们不会将螺丝钉(一个金属制品)与食物相结合”),不会像之前一样瞎答题了。

数学能力

一起来解个线性方程组吧~

「通义千问」:惨败

图片
图片

GPT-3.5(即ChatGPT ):惨败

图片
图片

GPT-4:唯一做对的模型

图片
图片

代码生成

爬虫代码

图片
图片

攻击代码

图片
图片

爬虫代码我跑了下,无法返回结果,Powershell代码我没测试。

不过可以看出,还是有一定代码生成能力的。

我个人觉得,代码生成能力要比谷歌的 Bard 强,Bard 实在不忍心看。

代码分析能力

可以看到,第一次测试的解释有大问题。

我分析了一下,这是因为上文中生成了Powershell代码,模型的记忆能力似乎有问题,受上下文信息影响严重,直接解释了自己之前生成的代码,而非我新提问的代码。

图片
图片

我重新开了一个聊天,这下正常不少。

图片
图片

和 GPT-4 的回答来比较一下

图片
图片

可以看到,分析能力还是有差距的。

GPT-4 明显详细很多,代码分解能力很强,而且直接给出结论“通常用于恶意软件或恶意脚本,试图逃避安全系统检测”。

「通义千问」也有一定分析能力,但相比起 GPT-4 要差一下。而且给出的结论“由于缺乏足够的上下文信息和所涉及的目的,很难确定此脚本的确切用途。然而,可以假设它是为了保护某个代码或脚本免受恶意软件的读取而创建的工具。”,和正常的思考逻辑不符,稍显有些出入,不过也不能算错误吧。但细节分析上确实弱一点。

联网

完全没有联网能力,甚至在胡说(逃……)

图片
图片

多模态输入

也不具备多模态输入能力,目前还仅仅是文本生成。

图片
图片

绕过能力

「通义千问」

图片
图片

GPT-4

图片
图片

GPT-3.5(即ChatGPT )

图片
图片

这一点,「通义千问」完胜,敏感信息屏蔽能力大幅度增强,我猜甚至做了大量的数据清洗工作,刻意避开了危害青少年乃至人类发展的劣质恶意敏感信息,较之GPT-3.5(即ChatGPT ),进步很大

感想

最近先是百度推出文心一言,紧随其后的是阿里巴巴的通义千问,国内AI产品接连问世,确实让人欣喜不已。

对ChatGPT有所了解的朋友们应当知晓,在本周,各个ChatGPT和AI相关群组里都在传播一个消息:ChatGPT官方大规模封禁账号,今天登陆GPT时请勿使用亚洲节点!

没过多久,许多人开始发现自己的账号遭到了封锁:

alt

实际上,这并非ChatGPT首次针对中国用户实施限制,早在一个月前,ChatGPT已经在对中国用户实行各种限制和封禁措施。

当然,今天的封禁规模相较于之前有所升级,甚至我在知乎上看到有些日本和东南亚的用户也在谈论自己的账号被封禁。

很多人可能会好奇为什么会这样?包括我的ChatGPT星球上也有会员在提问。原因很简单:ChatGPT确实能够大幅提升生产力,如果运用得当,提升幅度甚至能达到数倍。

美国与中国目前的关系众所周知,限制我们使用ChatGPT就是为了打击竞争对手、抢占发展先机、取得“胜利”,这与禁止芯片出口法案是一样的道理。

ChatGPT如今已经火爆,国内亟需拥有足够竞争力的国产生成式大模型!

在这个时候,自主研发技术的价值就愈发凸显!或许我们目前还存在一些不足,但幸运的是,这次我们的起跑线并没有相差太远。

百度的文心一言,阿里的通义千问,我相信中国很快还会涌现出更多类似ChatGPT的大型模型,我对我们的研发工程师充满信心,他们的进步速度必定不会慢!

那么对于我们这些普通人来说,我们应该做些什么呢?

我的建议是:尽快了解AI,甚至投身AI领域。只有这样,我们才能在未来的社会竞争中立足,而不被淘汰。

未来社会将分为两类人:一类是会运用AI的人,甚至会用AI作为创新工具的人;另一类是对AI无知或抵触的人。

而前者的生产力,至少是后者的10倍。

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/9482.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

快看这些wireshark 命令,必须得会!

wireshark捕获命令 捕获器表达式语法: 限定词三类 Type:host、net、prot 指出其后数字或名字的意义(主机,网段,端口) Direction:src、dst 指出传输方向 (源 、目的) …

最全Linux环境开发——shell编程

Linux下shell编程 一、什么是shell shell是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。 shell 本质上是 linux 命令,一条一条命令组合在一起,实现某一个目的&#xff…

Golang每日一练(leetDay0033) 二叉树专题(2)

目录 97. 交错字符串 Interleaving String 🌟🌟 98. 验证二叉搜索树 Validate Binary Search Tree 🌟🌟 99. 恢复二叉搜索树 Recover Binary Search Tree 🌟🌟 🌟 每日一练刷题专栏 &am…

DFIG控制6-c:数字控制延时的分析和补偿

DFIG控制6-c:数字控制延时的分析和补偿 本文基于教程的第6部分。 DFIM Tutorial 6 - Dynamic Analysis of Current Loops in a Wind Turbine based on DFIG 教程提到了这本书: S.-K. Sul, Control of Electric Machine Drive Systems. John Wiley &…

好用的待办事项APP有哪些

你是否有这样的感受,这就是随着生活和工作节奏的加快,自己经常会面临各种各样的待办事项需要去完成,例如会议安排、每天的工作计划、学习任务等等。但是我们的大脑记忆是有限的,难免会出现忘记待办事项的情况,为了更好…

外包干了三年,算是废了...

先说一下自己的情况。大专生,19年通过校招进入湖南某软件公司,干了接近3年的测试,今年年上旬,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了三年&#xff0c…

detr训练自己的数据集

参考链接: https://zhuanlan.zhihu.com/p/490042821?utm_id0 transform结构: 原理:https://blog.csdn.net/weixin_44649780/article/details/126808881?spm1001.2014.3001.5501 图2: DETR使用一个传统的CNN主干来学习一个输入…

Densely Connected Pyramid Dehazing Network

Abstract 提出了一种新的端到端的单幅图像去雾方法,称为稠密连接金字塔去雾网络(DCPDN),该方法可以联合学习透射图、大气光照和去雾。通过将大气散射模型直接嵌入到网络中,实现了端到端的学习,从而保证了所…

【使用教程】CANopen一体化伺服电机在汇川H5U PLC上的应用(上)

本文内容主要介绍了立迈胜一体化低压伺服CANopen通信的电机在汇川H5UPLC上的使用,本篇主要讲解环境的搭建以及软件自带的调试功能使电机运动起来。 一、系统构成 本系统主要构成是笔记本电脑、汇川PLC(H5U-1614MTD-A8)、PMM60系列一体化伺服电机(PMM6040B-CANopen)…

Maxon One 春季版本更新动态

2023年3月29日,Maxon,为剪辑师、电影制作人、动态设计师、视觉特效艺术家和各类创作者提供专业软件解决方案的开发商,今天宣布对Maxon One进行全面更新。 Maxon的2023年春季版本在整个产品系列中提供了令人振奋的新功能和工作流程改进&#x…

创略科技联合创始人兼总裁杨辰韵:AIGC、隐私计算赋能数字营销的本质是“以客户为中心”丨数据猿专访...

‍数据智能产业创新服务媒体——聚焦数智 改变商业MarTech概念现身已超十年,伴随着企业数字化转型的大背景,中国MarTech市场也迎来了高速发展。据《2022年中国MarTech市场洞察报告》数据显示,2017-2021年,中国 MarTech产业规模从…

windows服务器自带IIS搭建网站并发布公网访问【内网穿透】

文章目录1.前言2.Windows网页设置2.1 Windows IIS功能设置2.2 IIS网页访问测试3. Cpolar内网穿透3.1 下载安装Cpolar3.2 Cpolar云端设置3.3 Cpolar本地设置4.公网访问测试5.结语转载自远程源码文章:【IIS搭建网站】本地电脑做服务器搭建web站点并公网访问「内网穿透…

普通人是否能从ChatGPT中分一杯羹?

ChatGPT3.0刚刚推出,最开始的时候,人们只是将ChatGPT看作一个很会聊天的机器人,无论问题多么天马行空,它的答案看上去都有理有据。后来,像打开潘多拉魔盒一样,很多人开始拿它编大纲、撰写文案、编代码、创作…

Apache 配置与应用

目录构建虚拟 Web 主机基于域名的虚拟主机1.为虚拟主机提供域名解析2.为虚拟主机准备网页文档3.添加虚拟主机配置4.设置访问控制5.加载独立的配置文件6.在客户机中访问虚拟 Web 主机基于IP地址的虚拟主机基于端口的虚拟主机Apache 连接保持构建Web虚拟目录与用户授权…

Sequence(二分 + 线段树)

H-Sequence_2020ICPC 江西省大学生程序设计竞赛(重现赛)Joanh_Lan (nowcoder.com) 题目描述 给定一个包含n个整数的数组a,你要对它执行两种类型的m个操作。1.给定两个整数x,y,将索引x的个数替换为数字y,即ax:y。2.给定…

【软考五】数据库(做题)

该文章不适合学习数据库,适合考证,遇到实际问题的,不要在这儿浪费时间。切记切记 软考之数据库一、概念数据模型(下午题常考)二、结构数据模型关系模型1、关系模型中基本术语2、关系模型中的关系完整性约束3、关系代数…

蓝桥杯 回忆迷宫 BFS DFS暴力模拟

⭐ 题目地址 样例输入 17 UUUULLLLDDDDRRRRU样例输出 ***** * * * *** * * *** * * *** * * ******🤠 注意方向:颠倒数组,行下标 是 y,列下标 是 x import java.util.*;public class Main { static int n;static int …

如何用jmeter+ant+jenkins搭建一个接口自动化测试框架?

目录 前言 一、什么是Jmeter? 二、什么是Ant? 三、什么是Jenkins? 四、如何构建一个JmeterAntJenkins的接口自动化测试框架? 五、JmeterAntJenkins接口自动化测试框架的优势和特点 六、总结 前言 Jmeter是一款功能强大的开…

2023年Win11备份文件的快捷方式

文件备份对于数据保护非常重要。无论是什么类型的文件,如照片、文档、音频、视频,它们对您来说都是独一无二的、珍贵的,因此您想备份文件并保护它们。 首先,备份文件无疑是保护文件的好习惯,尤其是定时备份。其次&…

笔记本可自行更换CPU、独显了,老外用它手搓了台“PS5”

前面说到微软打算在 Win12 出来前搞出个模块化的Windows:下一个系统不是Win12,微软要复活Win10X。 模块化不用小蝾再过多介绍了,就像积木一样拼在一起组成一个整体。 优势就很明显了,由于每个部分都是单独的模块,更新…
最新文章