中研院繁中大语言模型引热议 ,企业使用 LLM 该注意哪些事?
中研院日前开源释出了以 Llama 2 开发的繁中大型语言模型 CKIP-Llama-2-7b,并将其放上 Github 等平台,提供学术与商用。由於开放商用,加上强调繁体中文大型语言模型及中研院词库小组等名称加持,让许多人对该模型的能力有所期待,没想到却被使用者反应,模型所回应的内容不够本土化,甚至可能触发两岸敏感神经,因而引发热议。
使用繁体中文就够本土化了吗?模型开发的情境考量
中研院资讯所声明中提及,「CKIP-Llama-2-7b 的研究目标之一是让 Meta 开发的 Llama 2 大型语言模型具备更好的繁体中文处理能力。」并将明清人物的生平进行自动化分析,建构自动化的历史人物、事件、时间、地点等事理图谱,而训练资料除了繁体中文的维基百科、台湾硕博士论文摘要,还包括中国开源的任务资料集 COIG(CHINESE OPEN INSTRUCTION GENERALIST)与 dolly-15k 资料集。
由於受限於资源与设备,要重新训练一个繁体的大型语言模型,除了繁体中文语料的搜集外,在这之前必须投入的资料处理与硬体设备成本极高,并非一般企业或学术单位可负担。而目前常见的大型语言模型主要有两种使用方法,第一是利用未开源模型的 API 来串接,例如OpenAI 以 GPT 模型 API的方式开放使用,这种方法适合用量较少的个人或中小企业。第二则是使用开源模型再加上自己的资料训练模型( fine tune ),例如此次 CKIP-Llama-2-7b的做法,就是以商用开源模型 Llama-2-7b 及 Atom-7b 为基础,再补强繁体中文的处理能力。
衍伸阅读:
1.训练一个 ChatGPT 得投入多少资源?
2.小数据条件下的语意分析
不过,人工智慧科技基金会技术发展中心总监蔡岳霖提醒,即使是开放商用的模型,企业仍需要从自身的应用情境进行判断是否合适,其中一个判断基准就是了解模型的训练资料。至於企业在模型的开发上,究竟是要选择利用 API 串接或是 fine tune,除了成本考量之外,也可依企业的应用情境做考量。
以基金会自行开发的「孙主任财经机器人」为例,就是以 API 串接方式与 retrieval augmented generation (RAG) 的技术,主要的原因是该机器人的设计,是希望回应都是根据《孙主任的经济笔记》一书中的内容而生成。如果利用 fine tune 的方式让模型学会的话,模型回应的内容将会融合书中的内容及语言模型既有的知识,将无法确认来源。
此外,对於加入特定资料 fine tune 的作法,是否会影响模型的通用性?
蔡岳霖认为,目前并没有一个客观的评估标准,所谓的通用性是种相对的比较。例如,若使用者的通用指的是台湾地区的通用知识,那所有台湾使用者的提问,都可以被回应,就足够有通用性;但如果相对於全球的知识,可能就不够通用。
商用模型该注意的风险:生成式 AI 的随机性
蔡岳霖认为,在 LLM 模型应用上,无可避免的风险就是「模型的随机性」,也就是无法控制模型生成的内容,都能完全符合预期且零出错。因此,有许多企业会提供 Prompt 的限制,先将模型限制在某个情境下再提问,例如,禁止泄露个人资讯、不能提供危害人类的建议等。而企业在应用到产品或服务时,也可以先将提问的限制告知使用者,或是事先设想避免回应的问题与机制。但这些作法,也只是降低风险,企业在应用上仍需要想清楚,如何在每个环节做好避险措施。
随着企业对於 AI 模型的开发与使用渐增,预期关於 Trustworthy AI 议题的讨论,将很快受到关注,对於 AI 模型与产品的规范与限制也会逐渐出现。例如欧盟於今年中通过的《人工智慧法案》草案,便禁止在大型语言模型(如OpenAI的GPT-4)的训练集中使用任何受版权保护的资料;或是要求生成式 AI 模型开发者在设计模型时,必须设立足够的护栏措施,避免生成的内容违反欧盟法律。这些相关规范,都是企业未来在使用 LLM 时,需要考量的风险要素。