Pruna AI 是一家一直致力于 AI 模型压缩算法的欧洲初创公司,将于周四将其优化框架开源。
Pruna AI 一直在创建一个框架,将多种效率方法(例如缓存、修剪、量化和蒸馏)应用于给定的 AI 模型。
“我们还对压缩模型的保存和加载进行了标准化,应用了这些压缩方法的组合,并在压缩后评估了压缩模型,”Pruna AI 的联合创始人兼首席技术官约翰·拉赫万 (John Rachwan) 告诉 TechCrunch。
特别是,Pruna AI 的框架可以评估压缩模型后是否有明显的质量损失以及您获得的性能提升。
“如果我用一个比喻来说,我们类似于 Hugging Face 标准化变压器和扩散器的方式——如何调用它们、如何保存它们、加载它们等。我们正在做同样的事情,但是为了提高效率的方法,“他补充道。
大型 AI 实验室已经在使用各种压缩方法。例如,OpenAI 一直依靠蒸馏来创建其旗舰模型的更快版本。
这可能是 OpenAI 开发 GPT-4 Turbo 的方式,GPT-4 的更快版本。同样,Flux.1-schnell 图像生成模型是 Black Forest Labs 的 Flux.1 模型的提炼版本。
Distillation 是一种用于使用 “师生” 模型从大型 AI 模型中提取知识的技术。开发人员向教师模型发送请求并记录输出。有时会将答案与数据集进行比较,以查看其准确性。然后,这些输出用于训练学生模型,该模型经过训练以近似教师的行为。
“对于大公司来说,他们通常做的是在内部构建这些东西。而你在开源世界里能找到的东西通常是基于单一的方法。例如,假设一种用于 LLM 的量化方法,或一种用于扩散模型的缓存方法,“Rachwan 说。“但是你找不到一个工具可以聚合所有这些,使它们都易于使用并组合在一起。这就是 Pruna 现在带来的巨大价值。
虽然 Pruna AI 支持任何类型的模型,从大型语言模型到扩散模型、语音转文本模型和计算机视觉模型,但该公司目前更专注于图像和视频生成模型。
Pruna AI 的一些现有用户包括 Scenario 和 PhotoRoom。除了开源版本之外,Pruna AI 还提供具有高级优化功能(包括优化代理)的企业产品。
“我们即将发布的最令人兴奋的功能将是压缩代理,”Rachwan 说。“基本上,你给它你的模型,你说:'我想要更快的速度,但不要让我的精度下降超过 2%。'然后,代理就会施展它的魔法。它会为您找到最佳组合,为您返回。作为开发人员,你不需要做任何事情。
Pruna AI 的专业版按小时收费。“这类似于您在 AWS 或任何云服务上租用 GPU 时对 GPU 的看法,”Rachwan 说。
如果您的模型是 AI 基础设施的关键部分,那么您最终将在使用优化模型进行推理时节省大量资金。例如,Pruna AI 使用其压缩框架将 Llama 模型缩小了 8 倍,而没有太大的损失。Pruna AI 希望其客户将其压缩框架视为一项可以收回成本的投资。
几个月前,Pruna AI 筹集了 650 万美元的种子轮融资。这家初创公司的投资者包括 EQT Ventures、Daphni、Motier Ventures 和 Kima Ventures。