中研院 - clash vpn

中研院繁中大语言模型引热议，企业使用 LLM 该注意哪些事？

2023 年 10 月 14 日 0 comments Article clash安卓版教程

中研院日前开源释出了以 Llama 2 开发的繁中大型语言模型 CKIP-Llama-2-7b，并将其放上 Github 等平台，提供学术与商用。由於开放商用，加上强调繁体中文大型语言模型及中研院词库小组等名称加持，让许多人对该模型的能力有所期待，没想到却被使用者反应，模型所回应的内容不够本土化，甚至可能触发两岸敏感神经，因而引发热议。

使用繁体中文就够本土化了吗？模型开发的情境考量

中研院资讯所声明中提及，「CKIP-Llama-2-7b 的研究目标之一是让 Meta 开发的 Llama 2 大型语言模型具备更好的繁体中文处理能力。」并将明清人物的生平进行自动化分析，建构自动化的历史人物、事件、时间、地点等事理图谱，而训练资料除了繁体中文的维基百科、台湾硕博士论文摘要，还包括中国开源的任务资料集 COIG（CHINESE OPEN INSTRUCTION GENERALIST）与 dolly-15k 资料集。

由於受限於资源与设备，要重新训练一个繁体的大型语言模型，除了繁体中文语料的搜集外，在这之前必须投入的资料处理与硬体设备成本极高，并非一般企业或学术单位可负担。而目前常见的大型语言模型主要有两种使用方法，第一是利用未开源模型的 API 来串接，例如OpenAI 以 GPT 模型 API的方式开放使用，这种方法适合用量较少的个人或中小企业。第二则是使用开源模型再加上自己的资料训练模型（ fine tune ），例如此次 CKIP-Llama-2-7b的做法，就是以商用开源模型 Llama-2-7b 及 Atom-7b 为基础，再补强繁体中文的处理能力。

衍伸阅读：
1.训练一个 ChatGPT 得投入多少资源？…

Tag: 中研院

中研院繁中大语言模型引热议 ，企业使用 LLM 该注意哪些事？

使用繁体中文就够本土化了吗？模型开发的情境考量

中研院繁中大语言模型引热议，企业使用 LLM 该注意哪些事？