大语言模型(LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等,是通向人工智能的一条重要途径。
本质上,基于人类反馈的强化学习方式(RLHF)技术使用了一种交互式学习方法,当模型生成一条文本时,它会请求用户对其进行评估,例如问用户是否觉得该文本合理、准确、有意义等等。通过分析用户的反馈,模型可以确定哪些方面需要改进,并尝试生成更高质量的文本。
在过去十年里,特别是自2012年开发出GPT(生成式预训练Transformer模型)以来,LLM取得了突飞猛进的发展。谷歌的BERT于2018年推出,代表着能力和架构的重大进步,随后OpenAI在2022年发布了GPT-3,今年发布了GPT-4。
与此同时,从产生垃圾邮件和虚假信息到合成生物学,开源AI大模型存在被滥用的可能性。但在过去的几个月里,我们也看到了一些开源替代方案,例如,Meta推出的Llama 2。
大语言模型(LLM)的基础应用
鉴于LLM的一切都很新,我们仍在探索这项技术可能实现或不可能实现的功能。LLM的应用领域非常广泛,包括但不限于:聊天机器人、文本生成、自动翻译、情感分析、信息抽取等。
举例来说,您可以想象,客户会议可以由经过培训的LLM实时地转录和总结,并与销售、营销和产品团队共享会议纪要。一个组织的网页可能会被自动翻译成不同的语言。在这两种情况下,结果可能是不完美的,但可以由人工审查员根据需要快速审核和修复。
在编码方面,许多内部开发环境现在都支持某种程度的人工智能代码自动完成功能,比如,GitHub Copilot和Amazon CodeWhisperer是这个领域的佼佼者,自然语言数据库查询等其他相关应用也大有可为。LLM还可以从源代码中生成开发人员文档。
在特定行业处理其他形式的非结构化数据时,LLM可能会很有用。在财富管理方面,SingleStore的首席营销官Madhukar Kumar表示,“我们正在与拥有大量非结构化数据的客户合作,并希望能够使用LLM以简单的英语对其进行查询。”
SingleStore看到客户使用LLM,同时执行确定性和非确定性查询。
Kumar指出,“在财富管理方面,既需要通过SQL进行数据库查询,也需要处理非结构化PDF数据的能力。”
大语言模型已被应用于情感分析等领域。对于希望收集数据和反馈以提高客户满意度的企业来说非常有用。情感分析还有助于确定大量文本中的共同主题和趋势,帮助决策和建设更有针对性的商业战略。
然而,我们应该注意到,LLM并不是完全可靠的。因此,在没有人为监督的情况下,不应该用于任何对准确性有要求的场景。
从头开始训练 LLM 仍然是一项艰巨的任务,因此在可能的情况下,在现有模型的基础上构建 LLM 更为合理。在Kumar的帮助下,我们编制了一份清单,列出了我们认为目前最重要的五个LLM。
前5名大语言模型(LLM)
1.GPT-4
GPT-4目前是这个领域的佼佼者,OpenAI围绕它打造了一个令人印象深刻的产品,GPT-4具有有效的生态系统,允许您创建插件,以及执行代码和函数,它尤其擅长文本生成和总结。
Kumar表示,“GPT-4虽然保守了一点,但它比3.5准确得多,特别是在代码生成方面。”
2.Claude 2
Anthropic的Claude 2于今年7月发布,可以通过API以及新的面向公众的测试版网站claude.ai进行访问。
Claude的主要优势是上下文窗口的大小,该窗口最近从9K扩展到100K字节,大大超过了GPT-4支持的最大32k字节。这相当于大约75,000单词,使得企业可以提交数百页的材料供Claude消化。
3.Llama 2
Meta刚刚发布的Llama 2是这个列表中的第一个开源模型,不过有一些行业分析师对Meta将Llama 2定性为“开源”提出了质疑。
它可以免费用于研究和商业用途,但是许可方面有一些奇怪的具体限制,例如,如果在月用户超过7亿的应用程序或服务中使用该技术,则需要获得Meta的特殊许可证。社区协议还禁止使用Llama 2训练其他语言模型。
虽然开源有优势,特别是在研究方面,培训和微调模型的高成本意味着,商业LLM会有更好的表现。
正如Llama 2白皮书所描述的,封闭产品 LLM 经过大量微调,以符合人们的偏好,这大大提高了其可用性和安全性。这一步骤可能需要大量的计算和人工标注成本,而且往往不透明或不易复制,从而限制了社区在推进人工智能对齐研究方面的进展。
今年2月,Meta发布了Llama 2的前身——LLaMA,并提供了非商业许可源代码。它很快就被泄露了出来,并催生许多在其基础上构建的微调模型,包括斯坦福大学的Alpaca,以及由加州大学伯克利分校、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校的团队开发的Vicuna。
这两个模型都采用了独特的合成指令训练方法,虽然它们显示出了前景,但《Llama 2》的论文再次提出:"它们没有达到闭源同行设定的标准。
也就是说,您不必付费即可使用开源模型,因此当您试图决定这项技术在您的特定用例中是否有用时,Llama 2可能是一个不错的起点。
4.Orca
来自微软研究院的Orca是我们选择的最具实验性的模型,有趣的部分原因是它是一个较小的开源模型,并使用一种称为渐进式学习(progressive learning)的技术,从大型基础模型中训练自己。
这意味着,Orca可以通过模仿从GPT-4等模型中学习,从而提高自己的推理能力。这可能表明开源模型未来可以更好地与闭源模型竞争,因此Orca是一个值得关注的模型。
5.Cohere
Cohere是另一款商业产品,其背后的公司由Aidan Gomez共同创立。该公司将自身定位为中立提供商,为企业客户提供不依赖于微软等云提供商的模型。据悉,麦肯锡正在与Cohere一起构建定制化解决方案,帮助客户提高客户参与度和工作流程自动化。
挑选大语言模型(LLM)
一旦您起草了一份LLM的名单,并确定了要尝试的一两个低风险模型进行试验,您可以选择使用不同的模型运行多个测试,以查看哪个最适合您,就像您评估可观察性工具或类似工具一样。
值得考虑的是,您是否可以同时使用多个LLM。Kumar认为,“未来不仅仅是选择一种,而是选择多种擅长不同领域的LLM。”
当然,除非您能够及时获取数据,否则这些对您都没有价值。Kumar说到,“LLM需要具备进行词法和语义搜索、管理结构化和非结构化数据、处理元数据和矢量化数据的能力,因为处于终端用户和LLM响应之间,所以要实现在毫秒级的时间内处理完成。”