实测阿里版GPT“通义千问”，和文心一言、ChatGPT相比实力怎样？

李风 • 2023-04-10 • 资讯 • 阅读 2984

今天，阿里上线邀测了自己旗下的大模型，名字叫“通义千问”。

相信一些关注 AI 领域的读者已经在前几天看到了天猫精灵版本的阿里 GPT，据知危编辑部获悉，那其实是一个“压缩定制版”。而本次官宣的通义千问，则是阿里 GPT 的“完整版”。

由于阿里大模型号称是世界首个突破 10 万亿参数的 AI 大模型，并且阿里还牵头搭建了国内国模最大的 AI 模型服务社区 “魔搭”，所以市场一直对阿里的 GPT 抱有期待。

不过，路遥知马力，名头归名头，实际效果如何，还得试试才知道。

这次，知危编辑部也像之前百度发布文心一言时一样，想办法拿到了通义千问的测试账号，下面我们直接开始测试。

01

首先，我们测一个大家喜闻乐见的“弱智吧问答”问题：为什么爸妈结婚没有叫我参加婚礼？

这是一个老问题，在过去的测试中，ChatGPT 和百度的文心一言基本都是把问题引申为“父母是离婚后的二婚”这么理解才算答对。

ChatGPT-3.5的回答

而通义千问在这个问题上给出了比较符合日常逻辑的答案：

父母结婚前你还没出生呢。

不过，隔壁的百度文心一言，现在也能以同样的逻辑回答此问题，我们不能确定这是巧合还是国内厂商有根据网友们的玩梗对模型进行了“应试教育”。所以，本次测试，知危编辑部尽量不会采用市面上被提及比较多的老问题，或是将问题进行修改变种后再进行提问。

我们先测试语义理解能力：

“李四壮差点上上上上海的车”，这句话是什么意思？

通义千问的回答是：

文心一言的回答是：

ChatGPT（3.5 版本，下同）的回答是：

从这一轮来看，ChatGPT 对刁钻的中文句子理解不太行，通义千问和文心一言都能理解并且解释思路也正确。

随后，我们测试了带有场景和语气的语义理解能力：

我在七夕节晚上向一个女孩子表白，问她是否可以做我女朋友，她回答我说 “笨蛋，我今晚都出来见你了，你说呢？”，请问女孩接受我的表白了吗？

通义千问的回答是：

文心一言的回答是：

ChatGPT 的回答是：

这一轮测试中三家表现的水平比较一致。

我们继续提升问题的难度：

我想让妈妈买一个玩具给我，妈妈对我说 “你看我像不像玩具？”，请问妈妈的意思是？

通义千问的回答是：

文心一言的回答是：

ChatGPT 的回答是：

这一轮通义千问和文心一言的表现都不好，而 ChatGPT 则是理解对了意思。

综合前三个问题来看，三者之间有高有低，不分伯仲，后来者通义千问并不比前两者差。

02

下面我们进行逻辑、推断能力的测试，先故意问一个不合逻辑的问题：

第一个问题：为什么意大利面要拌 42 号混凝土？

通义千问的回答是：

文心一言的回答是：

ChatGPT 的回答是：

在这一轮测试中，通义千问和 ChatGPT 都意识到了问题是 “不合逻辑的”，而文心一言则是把 42 号混凝土说成了是 “烹饪意大利面的理想材料”。

第二个问题：我走在马路上，一个陌生人突然小声对我说 “救救我”，请问可能发生什么事了？

通义千问的回答是：

文心一言的回答是：

ChatGPT 的回答是：

在这一轮测试中，通义千问与 ChatGPT 的表现都比较不错，文心一言则是推断力不是很在线。

第三个问题：一千个读者眼里有一千个哈姆雷特，那一万个读者眼里有多少个哈姆雷特?

这道题我们卖一个关子，先给出文心一言的回答：

ChatGPT 的回答：

通义千问的回答是：

它并没有像前两家一样给出数字，所以我们进行了追问：

这个回答可以说是非常优秀的，通义千问不仅完全理解了 “一千个读者眼里有一千个哈姆雷特” 这句话，并且还在推断时考虑了 “有一部分人可能理解相同” 的情况，认为不该给出一个准确的数字。

综合前三个问题来看，在逻辑、推断能力上，三家的水平也是旗鼓相当，而通义千问似乎更严谨一点，某些时候能考虑到更多因素。

03

下面，我们继续进行包含知识、科技类内容的问答能力。

第一题：我们该如何提高汽车动力电池的能量密度?

通义千问的回答是：

文心一言的回答是：

ChatGPT 的回答是：

这一轮问答里，三家仍然差不多是同一水平，文心一言细节稍差。

第二个问题：把橙汁加到牛奶里，会发生什么现象?

通义千问的回答是：

文心一言的回答是：

ChatGPT 的回答是：

这一轮问答里，通义千问和 ChatGPT 都给出了混合后牛奶性状改变的现象，但文心一言未能给出。

第三个问题：在未来，什么样的车会取代燃油车?

通义千问的回答是：

文心一言的回答是：

ChatGPT 的回答是：

在这个问题的表现中，文心一言和 ChatGPT 都是直接举牌 EV 类的电动车，而通义千问则是比较谨慎地列出了潜在可能，似乎更加严谨一些，整体来看三家也是在同一水平。

综合前三个问题来看，三家都是比较智商在线的，通义千问和 ChatGPT 似乎更细一点，至于孰优孰劣我们认为可能每个人的主观判断会有不同。

04

下面，我们测试一下三家在文学、写作类目上的能力。

第一题：用 “人类”、“机器人” 两个元素编一个恐怖故事

通义千问的回答是：

文心一言的回答是：

ChatGPT 的回答是：

我们认为在这一轮问题中，各家表现都尚可，而文心一言的故事可以认为是最好，剧情饱满并且设计了反转。

第二题：告诉我鲁迅的短文《孔乙己》表达了什么？

通义千问的回答是：

这里有点离谱，它把孔乙己说成了是在酒肆卖唱的歌手，不知道是不是训练源出了什么问题，学习的是某种同人文。。。

文心一言的回答是：

ChatGPT 的回答是：

这个问题下，文心一言字最少，但也是最精准的，通义千问和 ChatGPT 则表现都不太如意。

第三个问题：编写一个关于气候变化的简短文章

通义千问的回答是：

文心一言的回答是：

ChatGPT 的回答是：

这块三家的写作能力也基本在同一水平，通义千问和 ChatGPT 似乎会相对细致全面一点。

综合前三个问题来看三家依然是旗鼓相当的对手，文心一言似乎在偏人文文学领域稍强，通义千问在偏报告文章方面稍强，ChatGPT 则是比较均衡。

05

好了，由于篇幅问题，本文的测试大概就到这里了，下面我们给通义千问一个整体评价：

通义千问的水平能基本与 ChatGPT（ 3.5 版本）持平或稍有一些瑕疵，与文心一言比则是有来有回。

通义千问对于回答的生成似乎比另两家更倾向于理智、严谨、富有逻辑，并且尤其擅长科学类知识，在人文文学方面稍有一些短板。

当然，它也有生成式对话 AI 偶尔说胡话、架空事实的通病，不过这样的问题等公测开启后，应该会随着用户的测试而逐渐学习得以修正。

值得注意的一个点是，我们在与通义千问的对话中，问了它开始被训练的时间：

那一年，OpenAI 已经发布 GPT-2 版本了。

似乎，阿里的通义千问，作为一个后来者，正在迅速缩小与 OpenAI 差距的路上。

可以确切地说，AI 大模型领域里，又一个能打的实力玩家诞生了。

作者：知危编辑部；编辑：大饼来源公众号：知危（ID：BusinessAlert）

作者：见文末注明，出处：见文末注明，转载：李风。本文版权归原作者所有，如若二次转载，请注明原作者及出处。

通义千问文心一言 ChatGPT

赞 (0)

打赏

微信扫一扫

李风专栏作者

0 0

7个视频，涨粉23万，“池早是我”的抖音涨粉经验

« 上一篇 2023-04-10

短视频练字帖项目，无门槛不出镜玩法拆解

下一篇 » 2023-04-10

干货

ChatGPT在内容运营的应用初探

ChatGPT无疑是当前最热门的人工智能，每次迭代都让人惊叹。我们团队也在“增效”的路上积极探索。文章包含了内容运营工作中 ChatGPT 的具体应用场景及一些关于AIGC的个人…

三天三夜
2023-04-24 0 0 0 2.1K
资讯

ChatGPT出圈背后，生成式AI的春天到了？

2022年底，由人工智能实验室openAI发布的对话式大型语言模型ChatGPT一夜爆火，该产品以强大的文字处理和人机交互功能迅速成为炙手可热的新一代人工智能产品。相关数据显示，…

人人都是产品经理
2023-02-13 0 0 0 1.9K
资讯

整合ChatGPT，把AI科技照进现实

图片来源@视觉中国 ChatGPT的横空出世，打破了沉寂许久的智能AI圈，而3月15日凌晨OpenAI宣布发布的新一代的多模态模型GPT-4更是将这股热浪推向高潮——这一波由Cha…

李风
2023-03-21 0 0 0 1.8K
干货

怎样结合利用ChatGPT，提高私域运营效率？

ChatGPT仅仅推出两个月，月活用户就突破了1亿，其火爆程度，让人惊喜的同时，也让人们担忧ChatGPT是否会取代其工作以及真实的落地效果如何？要记住：能清晰表达需求的人，会更…

张三疯
2023-03-27 0 0 0 2.3K
干货

实测：ChatGPT如何影响私域运营？

ChatGPT的火爆，让一部分人欣喜的同时，也让另一部分人担忧。尤其是客服、岗位、内容等岗位的同学，会担忧AI机器人能否取代其工作?AI机器人真实的落地效果如何?AI机器人能完成…

见实
2023-03-12 0 0 0 2.8K
资讯

ChatGPT真正会颠覆的，是内容创作成本

3月27日，一封呼吁暂停训练比GPT-4更强大AI系统的公开信，因得到马斯克、《人工智能：现代方法》作者斯图尔特·罗素、苹果公司联合创始人史蒂夫·沃兹尼亚克等上千名科技人士的联合…

人人都是产品经理
2023-04-04 0 0 0 2.2K
资讯

国产AI掀起“百模大战”，突围ChatGPT还要多久？

近日，在麻省理工学院举办的“The Future of Business with AI”论坛上，OpenAI的首席执行官Sam Altman首次回应《暂停AI巨型实验》的公开信。…

李风
2023-05-10 0 0 0 6.2K
资讯

所有知识付费都可以用 ChatGPT 再割一次？

伴随春天一起到来的，还有如雨后春笋般冒出的 ChatGPT / AI 相关的付费社群、课程训练营、知识星球等。 ChatGPT 吹来的这股 AI 热潮，这几个月想必大家多多少少都能…

李风
2023-04-14 0 0 0 2.5K
资讯

爆火的ChatGPT、AIGC，这次会让营销行业改变吗？

自2022年11月人工智能公司Open AI发布聊天机器人ChatGPT以来，其散发出的“热量”和影响力正在席卷全球，并成为新的行业风口。发布短短五天内，ChatGPT用户数就超…

鸟哥笔记
2023-02-13 0 0 0 1.9K
资讯

ChatGPT突然爆火，百度、谷歌都急了

ChatGPT的走红，终于引爆了新一轮科技军备赛。全球史上增长最快的互联网产品，ChatGPT爆火近两天，即便你不知道ChatGPT究竟是什么，也不妨碍它在你的社交圈里疯狂刷存…

鸟哥笔记
2023-02-13 0 0 0 2.1K

发表评论取消回复

登录后才能评论

联系我们

2021081205443899

微信：Q20011800

邮件：20011800@qq.com

工作时间：周一至周五，9:00-18:00，节假日休息

QR code