AI 会愈来愈笨吗 模型崩溃怎麽办
编译/黄竣凯
随着生成式人工智慧(AI)的蓬勃发展,业界开始讨论一个令人担忧的「模型崩坏」(model collapse)现象,尽管这一概念早在2023年已被提出,但近期才逐渐受到广泛关注,所谓「模型崩坏」指的是,随着网路上AI生成内容的增多,未来的AI系统将因过度依赖这些低品质数据,而变得愈来愈「笨」的假设性情境。
AI发展的隐忧
据报导,目前的生成式AI系统,如OpenAI的ChatGPT、Google的Bard和Meta的LLaMA,依赖大量高品质的数据进行训练,通常来自网路上的人类创作内容。然而,随着AI技术自2022年起的普及,AI生成的内容在网路上的占比逐渐增长,并且成为新的数据来源,许多研究者就开始探讨,是否可以仅依赖AI创造的数据进行训练,而不再需要人类数据。
更多新闻:加密货币挖矿、AI数据中心碳排高 要被加税了
然而,尽管基於AI生成的数据成本更低,且不涉及伦理或法律风险,这一方向看似具有吸引力,但研究结果显示,缺乏高品质的人类数据,AI系统的训练效果会逐渐下降,导致模型行为的品质和多样性变差,就像是「数位近亲繁殖」一样,最终可能导致AI系统因一再从已有的AI数据中学习而退化,失去原本的实用性。
避免崩坏的挑战
目前的研究结果显示,AI系统无法完全摆脱对人类数据的依赖,毕竟AI中的「智慧」来源,仍是人类知识,理论上,科技公司可以过滤掉AI生成的内容,但实际操作起来并不简单,大公司如OpenAI和Google已经投入大量资源清理和过滤数据,但随着AI生成内容的增多,这项工作将变得更加困难且耗费成本,且随着AI生成的内容变得越来越难以辨别,这种过滤效果将逐步递减。
资料短缺的隐忧
业内有迹象表明,开发者已经在努力寻找高品质的数据,如,OpenAI在发布GPT-4时,参与数据处理的团队人数就创下历史新高,此外,有估计指出,到2026年,人类生成的文本数据库可能会枯竭。
潜在的社会文化风险
除了技术崩坏,AI生成内容的泛滥也带来了更多隐性风险,一方面,过多的AI内容可能会损害网路上原有的人类创作,例如程式码分享网站StackOverflow,在ChatGPT发布一年後,其用户活动量下降了16%,显示出,AI辅助可能已在某些线上社群中,削弱了人与人之间的互动,另一方面,AI内容的爆发式增长,也让人难以分辨哪些内容是由人类创作,哪些是由机器生成的,尽管一些国家如澳大利亚,已经推行标注AI生成内容的临时法规,但在全球范围内实现这一目标仍面临挑战,最後,随着AI生成的内容趋於同质化,社会文化多样性可能会逐渐消失,部分群体的文化甚至面临被「抹去」的风险。
参考资料:Telegraph India
※探索职场,透视薪资行情,请参考【科技类-职缺百科】帮助你找到最适合的舞台!