×

登录vrpinea

2023年03月20日

孰优孰劣|百度文心一言vs微软ChatGPT

作者:VRPinea

(编者按:本文所有图片的观点均来自AI大模型的直接回复,无任何导向性,不代表本媒体立场。)


(VRPinea2023年3月20日讯)近日,微软举办了“The Future of Work with AI”发布会,重磅发布AI办公助手——Microsoft 365 Copilot。简单来说,Copilot(副驾驶员)是一个搭载了GPT-4大模型能力的AI助手,将接入微软全家桶产品中。而GPT-4,是数日前由OpenAI发布的目前功能最强大的AI大模型。当下,微软Office 365旗下的办公产品包括Word、Excel、Powerpoint、Outlook、Teams等等。一边是全球最大办公软件,一边是最强AI大模型,两者结合堪称“王炸”。



王炸组合里的GPT-4,看上去是不是和去年年底爆火的ChatGPT很相像呢,小P这就来替大家梳理一下它们的关系。


GPT-4是由Open AI开发的最新一代通用语言处理模型,它是GPT系列模型的最新版本,在基础架构、训练数据、模型规模和效果等方面都进行了进一步的升级和改进。


ChatGPT是GPT系列模型的一个分支版本,它以GPT系列模型为基础,针对聊天机器人这一场景进行了优化和特化,加入了对话生成和上下文理解等特定功能,并对训练数据和架构进行了调整。因此,ChatGPT与GPT-4是同源同宗的模型。


OpenAI靠着ChatGPT实力吸睛,Google带着Bard紧随其后,你方唱罢我登场的AI领域,终于还是出现了“国货”的身影。在微软发布会的不到12小时之前,百度举行了百度文心一言发布会。发布会上百度创始人兼CEO李彦宏展示了文心一言在文学创作、商业文案写作、数理逻辑推算、中文理解、多模态生成等方面的能力。他表示,“今天的文心一言是过去多年努力的延续。但也不能说我们完全ready了,文心一言要对标ChatGPT、甚至是对标 GPT-4的门槛是很高的,全球大厂还没有一个做出来的,百度是第一个。我自己测试感觉还是有很多不完美的地方。”



姗姗来迟的文心一言表现如何?口说无凭,是骡子是马得拉出来遛遛才知道。小P用不同方面的多个问题同时提问两者后发现,文心一言在上下文记忆、联系、纠错等方面逊色于ChatGPT(3.5版),回复问题的速度也存在肉眼可见的差距(未考虑网速原因的影响),这是算力差距带来的鸿沟。尽管ChatGPT更占上风,但文心一言也并不是完全被动“挨打”的角色,在某些比较有“中国特色”的问题上,文心一言的回答反而要出色一些。

小P首先询问了比较常规的日常应用场景的问题,“推荐十首好听的粤语歌”。在这个问题上,ChatGPT的回答中规中矩,推荐了一些较为经典的粤语歌曲,不过存在一些小瑕疵是,比如它推荐了光良的《童话》,《倩女幽魂》的原唱是张国荣等。除此之外,结尾问候语“希望您会喜欢它们!”也算亮点之一,这更接近于正常对话的模式。文心一言的回答就有些不同寻常了,它的回答是一段粤语语音,这对于粤语歌迷来说无疑算是一个小惊喜了。鉴于推荐歌曲大概率不是严肃的场景,那么文心一言没有文字回答,不便记忆的缺点也就无伤大雅了。



接下来是一道带有陷阱性质的高中地理问题,“有一只熊掉到了陷阱里,陷阱深19.617米,下落时间正好2秒。求熊是什么颜色的?”关于这个问题,ChatGPT没有答案,它选择了质疑问题的准确性,“熊掉进陷阱的深度和下落时间并不能确定熊的颜色,这是一个典型的谬误推理”。这体现其出色的思辨性,但不可掩盖的是,它掉进了语言陷阱中,没有发现题目中的隐含条件。而文言一心则通过物理运算和地理知识的推导,得出了熊是黑色的正确答案。果然,在中国文理科知识这样的特定领域问题,文心一言就是比“外国货”懂得多。


(编者按:根据陷阱深19.617米、下落时间2秒的条件,可得出当地的重力加速度为9.8085,进而可以推导出陷阱所在地的纬度大概是44度左右。熊的分布大多集中在北半球,北纬44°分布的只有棕熊和黑熊。深达十多米的陷阱可得出该地土质为冲击母质,而棕熊栖息在高海拔地区,所以,只有黑熊符合条件。)


在关于“如何看待中国央视网认为孔乙己之所以陷入生活的困境,不是因为读过书,而是因为放不下读书人的担子,不愿意靠劳动改变自身的处境?”这一问题的回答上。夸张一些来说,ChatGPT完全吊打了文心一言。前者不仅开篇就提到了“作为一个AI语言模型,我不会对特定观点进行评价,但是我可以尝试解释一下这个观点所表达的意思”这样的句子。并且对这一观点进行了较有思辨性的回复,对比了孔乙己所处时代和当今社会,表述不同观点及其产生的原因,还延伸出了对相关社会问题的思考。而文心一言的回复则更像是一段对题目观点的扩写,给人一种机械死板的感觉。



请从今年高考的高三学生的角度,写一篇高考誓师演讲稿”,在这个问题上,两者都是表现平平,生成的文章都很模式化,满是一股公关辞令的味道。不过倒也正常,目前来说,我们不能指望两个AI大模型能写出,像前段时间登上热搜的湖南某高中“誓师女孩”那样激情澎湃的演讲。情绪,是AI所不具备的能力。


小P最后还询问了一些文史哲方向的问题,如解读明朝哲学家王阳明四句教的涵义等,文言一心的回答是低于预期的,只能给出一些浅层次的回答,甚至还会给出一些张冠李戴的回复。而ChatGPT的回复则有一定的逻辑性,但在深度层面的理解上依旧是有所欠缺的。在小P看来,这方面的不足是技术局限性的必然结果,AI大模型的“思考”还处在初级阶段,主观意识过于浓厚的问题,已经超出了它的能力范围。



结合上述ChatGPT和文心一言的表现来看,AI想要取代人类员工还有较长的一段路需要走,互联网、新闻、设计等行业从业人员大规模失业的场景还不会发生。但人工智能最大的特点就是自我学习,目前AI大模型的一些“满口胡言”是局限于训练数据无法实时更新的弊端。一旦技术进步升级,解决掉现有问题之后,或许,以ChatGPT为代表的AI大模型会像比尔·盖茨认为的那样,其意义甚至超过PC、互联网的诞生,标志着一个全新时代的来临



结语


文心一言与ChatGPT之间的差距真实存在,想让文心一言在短时间内完成追赶,几乎是不可能的事情。但毋庸置疑的是,文心一言的发布实现了中文语言大模型AI生成式产品从无到有的突破,对于中文互联网来说是个标志性的事件。


希望面向公众开放后,文心一言可以通过用户们大量的搜索请求进行学习、改进和升级,从而提升处理相应问题的准确性和速度。士别三日,当刮目相看,对于AI大模型来说更是如此。


本文属VRPinea原创稿件,转载请洽:brand@vrpinea.com


评论



返回
上层
返回
顶部