Tag: 中研院

中研院繁中大语言模型引热议 ,企业使用 LLM 该注意哪些事?

中研院日前开源释出了以 Llama 2 开发的繁中大型语言模型 CKIP-Llama-2-7b,并将其放上 Github 等平台,提供学术与商用。由於开放商用,加上强调繁体中文大型语言模型及中研院词库小组等名称加持,让许多人对该模型的能力有所期待,没想到却被使用者反应,模型所回应的内容不够本土化,甚至可能触发两岸敏感神经,因而引发热议。

使用繁体中文就够本土化了吗?模型开发的情境考量

中研院资讯所声明中提及,「CKIP-Llama-2-7b 的研究目标之一是让 Meta 开发的 Llama 2 大型语言模型具备更好的繁体中文处理能力。」并将明清人物的生平进行自动化分析,建构自动化的历史人物、事件、时间、地点等事理图谱,而训练资料除了繁体中文的维基百科、台湾硕博士论文摘要,还包括中国开源的任务资料集 COIG(CHINESE OPEN INSTRUCTION GENERALIST)与 dolly-15k 资料集。

由於受限於资源与设备,要重新训练一个繁体的大型语言模型,除了繁体中文语料的搜集外,在这之前必须投入的资料处理与硬体设备成本极高,并非一般企业或学术单位可负担。而目前常见的大型语言模型主要有两种使用方法,第一是利用未开源模型的 API 来串接,例如OpenAI 以 GPT 模型 API的方式开放使用,这种方法适合用量较少的个人或中小企业。第二则是使用开源模型再加上自己的资料训练模型( fine tune ),例如此次 CKIP-Llama-2-7b的做法,就是以商用开源模型 Llama-2-7b 及 Atom-7b 为基础,再补强繁体中文的处理能力。

衍伸阅读:
1.训练一个 ChatGPT 得投入多少资源?…