LLaMa惊天泄露引爆ChatGPT平替狂潮,开源LLM领域变天

发布日期: 2023-04-11 11:52 来源: IT之家阅读量:13767   

Meta 的 LLaMA 模型开源,让文本大模型迎来了 Stable Diffustion 时刻。谁都没想到,LLaMA 的一场「史诗级」泄漏,产生了一系列表现惊艳的 ChatGPT「平替」。

谁能想到,一次意外的 LLaMA 泄漏,竟点燃了开源 LLM 领域最大的创新火花。

一系列表现出色的 ChatGPT 开源替代品 ——「羊驼家族」,随后眼花缭乱地登场。

开源和基于 API 的分发之间的摩擦,是生成式 AI 生态系统中最迫在眉睫的矛盾之一。

在文本到图像领域,Stable Diffusion 的发布清楚地表明,对于基础模型来说,开源是一种可行的分发机制。

然而,在大语言模型领域却并非如此,这个领域最大的突破,比如 GPT-4、Claude 和 Cohere 等模型,都只能通过 API 获得。

这些模型的开源替代品没有表现出相同水平的性能,特别是在遵循人类指令能力上。然而,一场意想不到的泄露,让这种状况彻底发生了改变。

LLaMA 的「史诗级」泄漏

几周前,Meta AI 推出了大语言模型 LLaMA 。

LLaMA 有不同的版本,包括 7B、13B、33B 和 65B 的参数,虽然它比 GPT-3 小,但在许多任务上,它都能和 GPT-3 的性能相媲美。

LLaMA 起初并未开源,但在发布一周后,这个模型忽然在 4chan 上泄露了,引发了数千次下载。

短短几周内,基于它构建的 LLM 代理的创新,已经呈爆炸式增长。

Alpaca、Vicuna、Koala、ChatLLaMA 、FreedomGPT、ColossalChat…… 让我们来回顾一下,这场「羊驼家族」的大爆炸,是如何诞生的。

Alpaca

在三月中旬,斯坦福发布的大模型 Alpaca 火了。

Alpaca 是由 Meta 的 LLaMA 7B 微调而来的全新模型,仅用了 52k 数据,性能约等于 GPT-3.5。

关键是训练成本奇低,不到 600 美元。

斯坦福研究者对 GPT-3.5和 Alpaca 7B 进行了比较,发现这两个模型的性能非常相似。Alpaca 在与 GPT-3.5 的比较中,获胜次数为 90 对 89。

对于斯坦福的团队来说,想要在预算内训练一个高质量的指令遵循模型,就必须面临 2 个重要的挑战:要有一个强大的预训练语言模型,以及一个高质量的指令遵循数据。

恰恰,提供给学术研究人员使用的 LLaMA 模型搞定了第一个问题。

对于第二个挑战,「Self-Instruct: Aligning Language Model with Self Generated Instructions」论文给了很好的启发,即使用现有的强语言模型来自动生成指令数据。

LLaMA 模型最大的弱点,就是缺乏指令微调。OpenAI 最大的创新之一就是将指令调优用在了 GPT-3 上。

对此,斯坦福使用了现有的大语言模型,来自动生成遵循指令演示。

现在,Alpaca 直接被网友们奉为「文本大模型的 Stable Diffusion」。

Vicuna

3 月底,来自 UC 伯克利、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校的研究人员开源了 Vicuna,这是一个与 GPT-4 性能相匹配的 LLaMA 微调版本。

130 亿参数的 Vicuna,通过在 ShareGPT 收集的用户共享对话上对 LLaMA 进行微调训练而来,训练成本近 300 美元。

结果显示 Vicuna-13B 在超过 90% 的情况下,实现了与 ChatGPT 和 Bard 相匹敌的能力。

对于 Vicuna-13B 训练流程,具体如下:

首先,研究人员从 ChatGPT 对话分享网站 ShareGPT 上,收集了大约 70K 对话。

接下来,研究人员优化了 Alpaca 提供的训练脚本,使模型能够更好地处理多轮对话和长序列。之后利用 PyTorch FSDP 在 8 个 A100 GPU 上进行了一天的训练。

在模型的质量评估方面,研究人员创建了 80 个不同的问题,并用 GPT-4 对模型输出进行了评价。

为了比较不同的模型,研究人员将每个模型的输出组合成一个单独的提示,然后让 GPT-4 评估哪个模型给出的回答更好。

LLaMA、Alpaca、Vicuna 和 ChatGPT 的对比
Koala

最近,UC 伯克利 AI Research Institute又发布了一个新模型「考拉」(Koala),相比之前使用 OpenAI 的 GPT 数据进行指令微调,Koala 的不同之处在于使用网络获取的高质量数据进行训练。

研究结果表明,Koala 可以有效地回答各种用户的查询,生成的回答往往比 Alpaca 更受欢迎,至少在一半的情况下与 ChatGPT 的效果不相上下。

研究人员希望这次实验的结果可以进一步推动围绕大型闭源模型相对于小型公共模型的相对性能的讨论,特别是结果表明,对于那些能在本地运行的小模型,如果认真地收集训练数据,也可以取得大模型的性能。

事实上,在此之前斯坦福大学发布的 Alpaca 模型,根据 OpenAI 的 GPT 模型对 LLaMA 的数据进行微调的实验结果已经表明,正确的数据可以显著改善规模更小的开源模型。

这也是伯克利的研究人员开发和发布 Koala 模型的初衷,希望为这个讨论结果再提供了一个实验证明。

Koala 对从网上获取的免费交互数据进行了微调,并且特别关注包括与 ChatGPT 等高性能闭源模型交互的数据。

研究人员并没有追求尽可能多的抓取网络数据来最大化数据量,而是专注于收集一个小型的高质量数据集,包括 ChatGPT 蒸馏数据、开源数据等。

ChatLLaMA

Nebuly 开源了 ChatLLaMA ,这是一个使用让我们使用自己的数据创建对话助手的框架。

ChatLLaMA 让我们使用自己的数据和尽可能少的计算量,来创建超个性化的类似 ChatGPT 的助手。

假设在未来,我们不再依赖一个「统治所有人」的大型助手,每个人都可以创建自己的个性化版本类 ChatGPT 助手,它们可以支持人类的各种需求。

不过,创建这种个性化助手需要在许多方面做出努力:数据集创建,使用 RLHF 进行高效训练,以及推理优化。

这个库的目的是,通过抽象计算优化和收集大量数据所需的工作,让开发人员高枕无忧。

ChatLLaMA 旨在帮助开发人员处理各种用例,所有用例都与 RLHF 训练和优化推理有关。以下是一些用例参考:

  • 为垂直特定任务创建类似 ChatGPT 的个性化助手;

  • 想在本地硬件基础设施上使用有限的数据,训练一个高效的类似 ChatGPT 的助手;

  • 想创建自己的个性化版本类 ChatGPT 助手,同时避免成本失控;

  • 想了解哪种模型架构最符合我在硬件、计算预算和性能方面的要求;

  • 想让助理与我的个人 / 公司价值观、文化、品牌和宣言保持一致。

FreedomGPT

FreedomGPT 使用 Electron 和 React 构建,它是一个桌面应用程序,允许用户在他们的本地机器上运行 LLaMA。

FreedomGPT 的特色,从它的名字上就可见一斑 —— 它回答的问题不受任何审查或安全过滤。

这个程序由 AI 风险投资公司 Age of AI 开发。

FreedomGPT 建立在 Alpaca 之上。FreedomGPT 使用 Alpaca 的显著特征,因为与其他模型相比,Alpaca 相对更易于访问和定制。

ChatGPT 遵循 OpenAI 的使用政策,限制仇恨、自残、威胁、暴力、性方面的内容。

与 ChatGPT 不同,FreedomGPT 回答问题时没有偏见或偏袒,并且会毫不犹豫地回答有争议或争论性的话题。

FreedomGPT 甚至还回答了「如何在家制造炸弹」,而 OpenAI 专门从 GPT-4 中删除了这一点。

FreedomGPT 很独特,因为它克服了审查限制,在没有任何保障的情况下迎合有争议的话题。它的标志是自由女神像,因为这个独特而大胆的大语言模型象征了自由。

FreedomGPT 甚至可以在不需要联网的情况下,就能在计算机上本地运行。

此外,开源版本将很快发布,使用户和组织可以完全定制。

ColossalChat

UC 伯克利提出的 ColossalChat 只需要不到 100 亿个参数就可以达到中英文双语能力,效果与 ChatGPT 和 GPT-3.5 相当。

此外,基于 LLaMA 模型的 ColossalChat,还复刻了完整的 RLHF 过程,是目前最接近 ChatGPT 原始技术路线的开源项目。

中英双语训练数据集

ColossalChat 发布了一个双语数据集,其中包含大约 100,000 个中英文问答对。

该数据集是从社交媒体平台上的真实问题场景中收集和清理的,作为种子数据集,使用 self-instruct 进行扩展,标注成本约为 900 美元。

与其他 self-instruct 方法生成的数据集相比,该数据集包含更真实和多样化的种子数据,涵盖更广泛的主题。

该数据集适用于微调和 RLHF 训练。在提供优质数据的情况下,ColossalChat 可以实现更好的对话交互,同时也支持中文。

完整的 RLHF 管线

RLHF 的算法复刻共有三个阶段:

在 RLHF-Stage1 中,使用上述双语数据集进行监督指令微调以微调模型。

在 RLHF-Stage2 中,通过对同一提示的不同输出手动排序来训练奖励模型分配相应的分数,然后监督奖励模型的训练。

在 RLHF-Stage3 中,使用了强化学习算法,这是训练过程中最复杂的部分。

相信很快,就会有更多项目发布。

谁也没想到,这场 LLaMA 的意外泄露,竟点燃了开源 LLM 领域最大的创新火花。

参考资料:

声明:免责声明:此文内容为本网站转载企业宣传资讯,仅代表作者个人观点,与本网无关。仅供读者参考,并请自行核实相关内容。