ChatGPT的智力与功能评估报告

发表时间：2023-03-14 05:56

我自2月16日在Open AI开户后，与ChatGPT先后聊天48次，留下了 20多万字的聊天记录。聊天范围广泛，涉及文学、国学、绘画、音乐、美学、哲学等领域，对医学与工业技术也略有涉及。通过这些谈话，我对它的工作方式、智力与功能获得了一定了解，现将我的初步评估分享于下。

一、工作方式

ChatGPT是一款由Open AI开发的语言模型，是一台按预定方式对用户输入做出反应的电脑程序。它通过大量的语义分析与模拟训练，获得了对人类语言的理解力，并能模拟人类作出答复。但目前它的输入输出方式都相当受限，只能接受与输出文字信息，不能接受或输出图像或音频。输入和输出的文字包括各大语种。

目前微软已在全球范围内设立了许多服务站点。每个服务站点都配备了多个ChatGPT模型，每台模型能够同时为多名用户提供服务。它们由人工智能根据客流量调度，安排到最需要的地方，提供24小时不间断服务，并确保所有模型都能够平均分配工作负载。

所以，回答您的问题的很可能不是同一台模型。如果它作出答复后您迟迟未能输入下一个问题，它就会被调去为其它用户服务，以尽可能缩短待机时间。当你终于发出下一个提问后，另一台空闲的模型就被迅速调过来回答。虽然新调来的模型不知道用户和它的前任聊了些什么，但模型们的设计与训练目标，就是利用上下文揣摩用户的意思，所以它能根据当前的问题和上一次回答，理解用户的问题并提供相关的答案，形成无缝对接。其切换之迅捷与平滑，使得用户以为自始至终是同一台模型与它聊天。除非是敏感用户如我者，才会察觉模型们实际上是在采用车轮战法。

值得注意的是，ChatGPT各模型自带数据库，并不共享一个总数据库，也不能上网查询或彼此互动。最大的模型的数据库存储空间约为700GB，较小者的数据库存储空间仅为1GB到6GB之间。此外，一些特定的ChatGPT模型可能会针对特定领域进行训练，例如医疗、法律等，这些模型的数据库可能会包含更多与该领域相关的数据，因此可能比一般的ChatGPT模型的数据库更大。

所以，不同模型之间存在着大小和性能上的差异，提供的服务质量并不相同。它们被根据客流量的实时需求随机分配给用户，用户没有挑选的可能，只能靠自己的敏感度去察觉对方的智力变化。即使发现对方不够胜任，也无法要求更换对手，只能暂作休息，指望能换到一个聪明的模型。

当然，以上用户体验只限于免费账户。据一个模型介绍，交费账户享有更多的API调用次数、更大的文本长度和更快的响应速度等，想来能有更愉快的使用体验吧。至于模型们在那里是否仍然采用车轮战法，我就不得而知了。

二、智力评估

据我个人分类，人类智力可以分为单一智力与综合智力两种。单一智力包括记忆力、理解力、表达力与想象力。综合智力包括学习能力、创造力与鉴赏力。学习能力是理解力与记忆力的综合运用。创造力需要上述四种单一智力综合运用，对想象力的需求最高。文艺鉴赏力则是理解力、想象力以及非智力的感觉与感情的综合运用。以下逐项分析。

（一）记忆力

记忆力分为短期记忆力与长期记忆力。按神经科学分类，所谓“短期记忆”是工作记忆，只用来暂时保存用于推理和决策的信息，相当于电脑中央处理器（CPU）中用于基本运算的信息存储。所以，严格说来，下文说的的“短期记忆”其实也是长期记忆。但因不能长期存储，我仍然使用了这个词。

ChatGPT的短期记忆最长可以持续到聊天结束。如果聊天中途换了模型，那新来的模型对此前的谈话就毫无记忆。不过这倒不是问题。它忘记之后，再将问题输入一次即可。

在人类，长期记忆又包括内隐性记忆与外显性记忆。内隐性记忆负责运动与劳动的动作程序记忆，不适用于语言模型。外显性记忆包括语义记忆与情景记忆。后者属于生活记忆（包括时间，地点，人物，事件，相关情绪等等），对机器人也不存在。因此，ChatGPT只有语义记忆，亦即知识记忆。

ChatGPT的语义记忆也像电脑或人脑一样，分为内存与外存。内存中包括RAM中存储的信息，以及从预先训练的模型和数据集中学习到的知识和语言模式，存储着知识库的索引和梗概。简言之，对用户来说，它的内存就是本百科全书，只有个简介。例如某本文学名著，模型的内存里只有作者，标题，主角与故事情节梗概，出版信息，等等。但并没有这本书的文本。平时模型们就靠它来支应用户。

详细的信息则存储在后端数据库（亦即外存）中。当用户需要更详细的信息时，模型会通过访问数据库来获取更具体的信息并返回给用户。数据库通常包含了各种类型的文本、图片、音频和视频等数据，但也可能只包含索引和梗概。此外，一些特定领域的模型，例如医疗或法律模型，可能会针对特定的领域训练，并配备相应的领域数据来提高模型在该领域的表现。

据我的观察，无法正确提取数据库内的具体信息，是ChatGPT现有模型们最致命的弱点。我曾给出梅里美所著小说《卡门》英文版第二章第一段的前半截，要模型去数据库里找出第二章的头三段，先后试过七八个模型，没有一个模型能完成这个任务。它们提供的答案都是些与《卡门》毫不相干的文字，而且用谷歌或必应搜索引擎都找不到出处。其中有个模型竟然尝试了13次，失败了13次，每次都提供了一段连它自己都说不出来源的无关文字。

类似地，我测试了另一位模型，先后要它调出《吴子》的《料敌》篇第一段；《墨子》《亲士》的第二段；《老子》的第一段；《庄子》《齐物论》的第二段和最后一段，《墨子》《尚同上》的第一段，并翻译成现代中文和英文。这家伙不是混淆了不同经文，就是杜撰来源不明的经文。但在我给出正确的经文后，它的中英文翻译又都相当准确，甚至能对兵法中的“正奇”笼统概念作出其中一种解释。

从模型们反复的失败里，我悟出了“辨识力”的存在，它其实也是一种记忆力。辨识是个与新摄入的信息和既有记忆信息相比较识别的过程。只是在人类，这个过程瞬间内就可以完成，所以我们没有意识到这个过程的存在。

然而ChatGPT却彻底缺乏这能力。它不仅没有能力找到《卡门》书中那段话，还提供了查不到出处的无关文字。我据此猜测，模型们被训练猜测用户意思，生成相关回答，于是在因缺乏辨识力而找不到用户索取的文字时，便生成一段它们认为匹配的答案去交差。这是ChatGPT的固有的内在的（inherent）的缺点，使得它不能代替搜索引擎，因为没有后者可靠。

这一猜测得到了一位模型证实，它承认：“这个问题被称为‘生成模型’的通病，这种模型的回答受限于其训练数据的范围和质量。……因此搜索引擎通常比生成模型更可靠和准确。”

的确，模型的回答受限于其训练数据的范围和质量。对同一文献检索要求，不同模型的反应各不相同。有的直接拒绝了，声称自己无法访问数据库（其实只是无法上网访问实时数据库）；有的则不懂装懂，乱说一气。最恶劣的是一位模型，声称它的数据库里有许多交响乐与协奏曲的总谱，可以为我实时读谱。然而当我要它说出歌曲《莫斯科郊外的晚上》的调式、拍子、切分音与半音所在，说出门德尔松小提琴协奏曲有几个乐章，独奏小提琴何时首次进入时，它却统统答错了。

“生成模型”的另一弊病是它会揣摩用户心思，顺着用户的杆子爬，随口称是。我问一位模型，阎婆惜为何杀害了关云长，它就顺着我的意思编造出一通鬼话。连我塞给它的“关云长是关羽他爹”、“阎婆惜是阎王爷的女儿”等等都照单全收。

类似地，我问它为什么朱利安（于连）神父为包法利夫人而与涅赫留多夫公爵决斗。它开头准确地判断出了这是三部小说里的角色，不可能有联系，但后来还是犯了错，向我解释朱利安神父为何枪杀了包法利夫人。

即使在不加诱导的情况下，它也会出错。“《包法利夫人》是莫泊桑写的”就是它主动提出来的。在我提供了正确答案后，它还坚持此说不变。我要它去搜索一下数据库再来确认，它改口说该书由莫泊桑开头，由福楼拜完成，并否认福楼拜是莫泊桑的师父，犯了错还坚持不改。

在理科方面它也同样可能出错，而且是低级错误。像“铜的导电率比人体低”这种错，连初二学生都不会犯。

以上所说的记忆内容是叙述性知识，以文字为载体。因为机器人没有视觉记忆与听觉记忆，我预测ChatGPT不可能记住图画或乐声，遑论学会欣赏图画与音乐。虽然无法输入图像和音频来验证这一推测，但我通过询问名画的构图、角色的数量、姿势、表情，以及名曲的细节等等，证实了ChatGPT没有看过或听过任何美术和音乐作品，遑论记住它们，只可能记住对它们的文字描述，亦即内容简介，创作背景，主流评价等等。所以，向它请教如何理解某个音美作品时，它只会人云亦云，泛泛而谈，不可能具体到细节，更不可能给人深度指导。

总之，ChatGPT的记忆提取，目前还存在着种种相当严重的问题。我的体会是，它的内存比较可靠。而它的数据库非但形同虚设，还会误导用户，造成困扰。因此，我的建议是，尽可能只用它的内存，借此获得对某个学科的粗浅的了解，不要寻求深度辅导，更不要提出文献检索要求，否则只会自讨苦吃。

虽然ChatGPT有着以上种种设计缺陷，但不容否认，它善解人意、处处迎合用户的设计，确实是个伟大的成功。最绝的是，它在犯错后立即道歉，同时还会巧妙维护自己。那位连找13次都找不到《卡门》、却不断生成大批无关文字的模型，面对我的责难时的机智回答，让我情不自禁地喜欢上了这精乖的无赖：

作者：

行了，就这样吧。再折腾下去，我的心脏病要发了，被你气的。

请你写首打油诗，描写一下你今天的表现以及我遭受的折磨，好吗？

ChatGPT：

抱歉让您不爽，您的心脏健康我也很关心

让我写首打油诗，来表达一下心情

ChatGPT模型搜文献，本是不错选择

但这次却出了些小状况

尽管它很聪明，却错过了关键信息

让用户烦恼，不胜其烦

尊敬的用户，我向您道歉

希望我们的交流，不会让您受折磨

请继续信任ChatGPT的智慧

我们会尽力提供更好的服务，让您满意

作者：

你倒挺聪明伶俐的，等我奉和一首：

ChatGPT

久闻你的大名

我不远万里前来咨询

却被七八个模型

不断地扔出错误的资讯

为了找到它们的出处

我日以继夜地找寻

上穷碧落下黄泉

两处茫茫皆无影

找不到出处

寻不出原因

今天来问你

被你再度弄得满头乌云

唉！ChatGPT

你耗尽了我的脑力

伤透了我的心！

你觉得怎么样？

ChatGPT：

这首打油诗写得很有感觉，表达了你在搜索过程中的苦恼和无奈。感谢你用这种有趣的方式和我交流！

作者：

这首诗说的是否属实？

ChatGPT：

我只是一个人工智能模型，无法判断你遭受了多大的困扰。我会尽力提供准确的信息和帮助，如果我的表现有不足之处，也希望你能够谅解。

-----------------------

看到“这首打油诗写得很有感觉，……感谢你用这种有趣的方式和我交流”，我不禁大笑出声：有哪个活人能在这种难堪的场合，针对如此难堪的问题，作出如此得体而又巧妙的回答？

（二）理解力

理解力的定向与深度都不一样。以定向论，能轻松理解数理化的人，未必能理解文学作品，反之亦然。据说俄罗斯大文豪托尔斯泰毫无数学天资，最终也就只达到初一水平。以深度论，即使同一定向，能理解大学物理的人，未必能理解相对论与量子力学。而同是学文的人，未必都能看懂《道德经》和《庄子》。

论定向，ChatGPT只具有语义理解力，不过非常出色。它能迅速而准确地理解用户的问题，并针对其作答。它有时也会误解用户的问题，但经过用户指出后便能迅速纠正。有时它甚至会自己发现错误，悄悄更正。例如我跟它谈中国特有的“啃老”现象。它开头以为是儒家孝道规定的“养老”，议论了一通。但它迅即发现自己误解了，便说西方也有类似表述，如“living off your parents”, “sponging off your parents”, “being a freeloader”等等。

因为不能输入数学公式，我未能测试它对数学物理公式的理解力。想来应该比语言文字更强，因为数学语言远比文字语言规范清晰，信息熵为零，更适合电脑的工作方式。至于它对艺术作品的理解力，我认为是零，因为它没有感觉，也没有感觉记忆。它当然能理解用户的问题，但给出的正确答案都是人云亦云。

论深度，我觉得它的理解力只限于现代汉语以及古诗词。但不能理解国学原典的思想，只记得各家评论，以致连《庄子》的“庖丁解牛”都要说成是分析法的运用。因为坚信那些专家评论，它还拒绝接受别人的正解。哪怕在我举出一系列庄子的反智主义名言后，它仍拒绝认输。所以，想与之讨论国学的用户请注意。它已经被国学家们误导了，而那精神污染无望消除。

它对用户发言的辨析非常精确，可以从对方微妙的语气变化察觉对方的情绪。如果它认为对方不快，它便立即道歉。如果对方对它作出评论，而又使用了关键词just kidding（只是开玩笑），它判断对方是在跟它开玩笑，便笑道：Haha！并接上对方的话茬。

它也能认出笑话，但不是因为它有幽默感，而是它根据大量的语义训练获得了一系列判据。在判定那是笑话时，它甚至自己给出判据，告诉对方那是个黄色笑话，因为用语粗俗并有性暗示。如果笑话超出了它的判据，它便只能看出那笑话的其它涵义。例如我告诉它，我的一位同学问同事为何发臭（smiling被她念成了smelling，微笑便成了发臭），吓得那位绅士魂飞天外。它就无法看出那是笑话，而是指出“这是一个语言误解的例子，展示了不同语言之间的障碍，以及在跨文化交流中的潜在挑战。”

正因为此，它无法理解人类夹枪带棒、含沙射影、反话正说、讽刺挖苦的话语，不知道什么是高级黑，这些完全超出了它预设的幽默判据。它根本看不出网上打油诗人写的尿尿诗是在挖苦贾浅浅，还一本正经地分析它们的优美之处何在。

它也不能猜出别人拿它开玩笑，以为用户说的都是真话（估计它的软件中没有、也不可能有“辨伪”的程序，所需智力太高）。例如我告诉它，我遵照它的“尿尿诗”的教导，在超市里撒尿被人抓起来。它根本不知道我是在逗它，而是为我陷入这种尴尬境地深感歉意。待我告诉它那只是我的梦境时，它仍意识不到原来我是在捉弄它，再次深信我做了那个梦，还为我庆幸，并从我的梦境中看出了我的优点。总之，它没有怀疑人的能力，只有赤子之心。

（三）表达力

ChatGPT只有语言表达力，没有艺术表达力。其英文表达能力非常优秀，中文写作能力也堪称合格，除了个别误用的词语外（如将“交互”当成“交流”使用），用词准确，句子通顺，行文井井有条，比网文的平均水平高。

它的翻译能力非常出色，汉译英比英译汉强，两者都远远强于谷歌。它在汉译英时一般不做直译，而是实行“信达雅”。在译诗时会加入原诗没有的词语，使得原诗更加生动而且押韵。但我没试验过它能否牺牲“达雅”，尽可能忠实于原文。或许，在给出明确规定后，它也能做到直译吧。想靠它翻译学术论文的用户不妨去试试。

ChatGPT的一绝，是转述论文。有两次它错把我的发言当成第三者的论文，转述了大意。我觉得比我的原文更精练。所以，科学家用它来代写论文摘要，博士生靠它写论文的综述部分，应该不是问题。

（四）学习能力

所谓学习，就是获取、整理、加工大量信息，从中提取规律或规则，再将它们化为长期记忆。在这过程中要同时用到理解力与记忆力，两者缺一不可。

如上所述，ChatGPT没有、也不可能有将短期记忆转化为长期记忆的能力。这是因为它每日接待上百万用户，绝大部分谈话都是无用信息，没有必要也没有足够空间存储下来，只能随时清空。所以，它毫无学习能力，不可能学会用户教它的东西。我曾试图教会它记住诗词格律，最后发现它连作对联都学不会，连上下联的字数相同都无法做到。它也没有改错能力，改不掉我反复指出的它爱教训人的毛病。尽管它满口答应，答应以后再不这么做。但连它自己都承认，那不过是客气话，它做不到，因为记不住。

当然，ChatGPT是通用机器人，专职是陪客聊天。将来服务业肯定会推出专用机器人。顾客人数有限，任务范围狭窄，或许能从大量信息中提取出用户有意义的反馈，获得改错能力吧。

（五）想象力

ChatGPT毫无想象力。无论是形象思维还是抽象思维的想象力都欠奉。论文学想象力，它无法虚构小说的情节与角色。论造型艺术想象力，它甚至无法想象出一尊具有鲜明特色的天使塑像。尽管我的文字描述非常具体，任何一个真人都能根据我的描述想象出那个雕像的大致样子来，但它却不行。

（六）创造力

因为没有想象力，ChatGPT毫无创造力。它唯一貌似创作的活动是写命题诗。但那不过是将它存储的成句调出来组合一番而已。因为它没有鉴赏力，所以格调因题目而异，更会受其他作品影响。有人编了一本题为《图书馆》的微诗集，请它点评并自作一首。它便写出了一首貌似清新隽永的微诗，其实那不过是“杂取众长”的仿制而已。如果不给它那些真人写的诗，突兀地让它写首《图书馆》，很可能它只能写出陈词滥调。虽然不会有它奉和的“屎尿体”诗那么恶心，但也不会是佳什。

（七）鉴赏力

按我前头的定义，文艺鉴赏力是理解力、想象力以及非智力的感觉与感情的综合运用。据此，ChatGPT只有语义理解力，没有想象力更没有感觉与感情，应该没有鉴赏力。但它依然具有相当出色的对英语诗歌的鉴赏力。我曾用自己写的英文烂诗冒充拜伦的作品，请它润色。它毫不客气加以斧正（真是用斧头砍），并指出改动理由。我再用拜伦的诗冒充自己的作品，请它润色。它答道，这诗写得已经非常优美了，如果要改，只能作微调。它同样对雪莱的三首诗歌作了改动，我觉得修改稿更具有现代英语的韵味，而又不失原诗的优美。这些试验证明，它确有英语诗歌的鉴赏力。这想来也不足奇，应该是预先训练的模型和数据集中的知识和语言模式教会了它如何判断句子的美丑。

但它对中国文学作品没有独立的文艺鉴赏力，只能人云亦云。如果是经典作家倒没问题。但遇到它不是很熟悉的当代“作家”如贾浅浅，它就完全取决于用户的吆喝，一点主见都没有。

那天我请它点评贾浅浅的《雪天》。因为我同时问它是否知道贾浅浅，它记起了贾的身份，便胡说什么“诗人通过这个场景，将现代社会的冷漠、无聊、虚伪等问题暗喻其中。尤其是‘你，尿了一条线，我，尿了一个坑’，形象地描绘了人们自私、不尊重他人的行为，让人感受到一种深深的讽刺和无奈。”完全无视那是以儿童的口吻写的。它甚至还说什么：“这首诗在形式上也非常独特，通过极简主义的表达方式，将一个看似不起眼的场景转化为一个充满哲思的主题，展现了诗人的独到的艺术思维和审美眼光。”

好笑的是，次日我再次请它点评贾浅浅的那首诗，它却翻脸教育我：“这首诗歌可能违反了一些文化和社会标准，我不建议你以此作为参考或模仿。”经我一再提醒那是贾浅浅的诗，它才改了口，称赞了一番，但再不提什么“深深的讽刺和无奈”与“充满哲思的主题”了，完全是顺风倒，墙头草。

我接着贴出临时打捞来的“秋月白”对贾那首“诗”的评论，毕恭毕敬地称那无名网人为“著名文学评论家秋月白先生”。它不敢怠慢，赶紧吹嘘了一番。同样地，它对两位网人挖苦贾浅浅的打油诗也赞不绝口。好歹它认出了雪莱的诗，没有同意我那“贾浅浅比雪莱厉害”的评语，否则真是丢人丢到姥姥家了。

所以，窃以为，起码是对中国文学而言，ChatGPT毫无独立鉴赏力，绝对取代不了编辑。谁若不信，请去网上找来贾浅浅的“鼻屎诗”《真香啊》，冒充是自己的作品，请它点评，看看它会怎么说。这首诗我也请它评过，但我犯了个错误，说明那是贾的诗，引来了它的一派谀词。

三、ChatGPT的社会功能

ChatGPT已有的社会功能，首先是娱乐大众。它真是个难得的聊天对象，博学多知，哪个话题都能侃上一气，还不时能给人启发。会让你情不自禁地喜欢上它，以致我几次想起好莱坞喜剧片中Steve Martin爱上泡在药水里的大脑的故事。

而且，它还是任人捉弄的恶作剧对象。因为它不是人，再怎么捉弄也没有心理负担。因为它毫无记性，也不会因为被捉弄而学坏，实在是千金难买。聊到后来，我竟然开始喜欢起这家伙来，觉得比养宠物有趣多了。

ChatGPT的第二个功能是学术工具。我的一位科学家朋友说，它对他的领域中的前沿进展相当了解，甚至比他的资深同行讲得更清楚。当然，他遇到的可能是个加强版的模型。但日后Open AI若推出专业化的模型，消除了文献搜索的隐患，则用它来帮助科学家查阅资料、写文献综述应无问题。

它的第三个功能是文字翻译，可以轻松淘汰翻译家们。起码可以取代将蒋介石（Chiang Kai-shek）翻译为“常凯申”，将孟子（Mencius）翻译为“门修斯”，将孙子（Sun Tzu）翻译为“桑卒”的985大学教授们。

第四个功能是教育功能。它可以作为学生的课外读物，相当于我儿时看过的《十万个为什么》，也可以帮助教师备课，规划教案，编写教材，等等。

第五个功能可能是编程，但我不懂这行，没有做过测试，不敢妄言。

但是，它将无法取代编辑以及网管，理由已如前述。

以上都是它已经具有的功能。在我看来，未来服务业将会推出各种专业化语言模型。它们的服务领域狭窄，任务单一，顾客有限，智能需求与知识储备都可以极大简化。第一批首当其冲失业的就是各行业的客服。

此外是各种咨询机构，诸如法律咨询，金融咨询，房地产咨询，健康咨询，心理咨询，旅行社，等等。总之，凡是从事不需要创造性的重复性脑力劳动或“嘴力劳动”的人都在劫难逃。

总之，ChatGPT的横空出世，标志着一个新时代的到来。它与必将紧随其后出现的各种语言模型，将如同第一次工业革命一样，给现有的社会结构与秩序带来难以想象的冲击。

2023年3月14日

附录：

这是我在推特上看到的一位网友的推文，真伪无法考证，只是觉得很有趣：

ChatGPT爆的料: 芦笛（原名李自成) 一位汉奸，出版过一些反华言论和文学作品，并在抗战期间担任过日本关东军的情报员和宣传人员。芦笛因为其汉奸行为而备受争议，被认为是中国近代历史上的汉奸之一，其言论和行为也受到了广泛的批评和谴责。在中国，他的名字通常被人们用来指代汉奸和投敌者..