GPT-4 离成为「天网」有多远?微软最新论文大胆预测:初具雏形
很多科幻电影都有会思考、自动执行任务的 AI 系统或智慧机器人角色,如〈2001:太空漫游〉有超级电脑 HAL 9000 管理太空任务、〈魔鬼终结者〉的自我学习人工智慧系统天网,能控制美国核武和国防系统。
这些像人类思考和推理,还有海量知识能力的 AI 系统称为通用人工智慧(Artificial General Intelligence,AGI)。AGI 不限特定领域,有推理、规划、解决问题、抽象思考、理解复杂想法、快速学习和经验学习能力等。 虽然 AlphaGo 围棋独步天下,但不算 AGI,〈瓦力〉的主角瓦力更符合 AGI 定义。
AGI 概念在人工智慧领域已存在几十年,许多研究人员一直尝试开发新演算法、模型和方法做出 AGI,而我们距离 AGI 还有多远?微软研究院最近论文指出,OpenAI 最新大型语言模型 GPT-4 已有 AGI 雏形。
人工智慧的火花
微软研究院论文共 154 页,满满是研究人员给 GPT-4 的考题。论文篇幅很长,YouTuber AI Explained 有拍影片摘要供有兴趣者参考。微软研究人员於 GPT-4 早期开发阶段就有接触模型,并做了约 6 个月实验。他们使用未限制开发版,而不是现在有安全限制的最终版,因此论文结论是针对 GPT-4 原始模型。
论文指 GPT-4 的重要新能力是很少指示或无示范时也能正确使用工具,如使用计算机,这是 GPT-3.5 版 ChatGPT(简称旧 ChatGPT)做不到的。
▲ 提示:有条河流从左到右流,河旁是沙漠和金字塔、萤幕底部有 4 个按钮,颜色分别为绿色、蓝色、棕色和红色。
研究人员发现,GPT-4 可与 Stable Diffusion 结合,根据文字提示输出细节丰富的图片,并会根据文字提示排列物件,提高效率。人类和动物的差异就在人类会发现并使用工具,如今 AI 也朝这方向慢慢进化。
研究人员还让 GPT-4 参加 LeetCode 软体工程师模拟考。以五次考试最佳结果为样本,GPT-4 於简单、中等和困难三级考试分别取得 86.4%、60%、14.3% 成绩。论文谦虚说 GPT-4 写程式能力接近人类,那人类表现又如何?
LeetCode 资料库显示人类简单、中等和困难考试平均成绩为 72.2%、38.7%、7%,这还是排除一题都没回答者的数据。可说程式设计能力而言,GPT-4 已比很多软体工程师优秀了。
GPT-4 不仅可写简单程式,还能胜任复杂的 3D 游戏开发。GPT-4 零样本下用 JavaScript 在 HTML 产生躲避障碍物的游戏 Demo,只要在此基础上稍为修改,Demo 就能变成正式产品。当研究人员用同样提示测试旧 ChatGPT,它却说做不到。
为了测试 GPT-4 推理程度,研究人员拿 2022 年国际数学奥林匹克竞赛题目给它做,但 GPT-4 资料库只更新到 2021 年(虽然是开发版,但没有连网),这题目答案不在它的资料库里,因此 GPT-4 要全靠自己数学逻辑推理能力完成。而 GPT-4 解题逻辑正确,但计算错误所以答案错了,研究人员表示这是基础计算错误(如考试时把乘法写成除法的人);ChatGPT 只能产生逻辑不通的答案,还差得远。
▲ 读者也可挑战看看解题。
问到「一座游泳池可塞进多少高尔夫球」等很难回答的问题时,GPT-4 也能合乎逻辑回答。研究人员发现 GPT-4 可调用其他应用 API,完成检索使用者信件、日历、座标等,帮忙订餐、订机票、回信等助理工作。这点 OpenAI 最近公布的 ChatGPT 外挂程式集功能已能看到,GPT-4 模型能做的事绝对不只文字产生这麽简单,与其他应用 API 结合,可成为近似 AI 系统的真‧AI 助理。
研究人员还发现用户难发现的功能,就是 GPT-4 可建立人类心智模型。研究人员设立场景,GPT-4 能完美分析人物心理及可能有的行动。也就是说,GPT-4 能像人类解读其他人行为与心理关联,而不是只看到表面举动,这是 AI 的大进步。
One More Thing?
论文分为十章节,介绍 GPT-4 多模组能力(与视觉产生内容相关)、生成和理解程式能力、数学能力、与世界互动能力、与人类互动能力、判断力,以及 GPT-4 局限性、社会影响、未来方向。全文抽丝剥茧解读 GPT-4,发表後马上受到网路关注。
但有网友於论文 LaTeX 原始程式码注释发现作者隐藏部分资讯。
▲ 从注释看 DV-3 应是 Davinci 3(达文西 3)。
如 GPT-4 名称实际为 DV-3,也是论文「第三作者」,也许考虑到隐私问题,被第一作者藏起来了。
网友还发现作者也不太清楚 GPT-4 实际成本,也好像错把 GPT-4 称为纯文本模型,而不是多模组模型。有毒性相关部分也删除了,或许考虑到会造成 OpenAI 不必要的负面影响。
总体来说,如果读者对 GPT-4 能做什麽、还有什麽限制,或对 AI 进展有兴趣,可研究此论文更了解目前最强大的大型语言模型。
- Sparks of Artificial General Intelligence: Early experiments with GPT-4
(本文由 爱范儿 授权转载;首图来源:shutterstock)