Yandex科学部门的研究员Vladimir Malinovsky开发了一项突破性服务,可以在普通电脑甚至智能手机上通过网络浏览器运行拥有80亿参数的大型语言模型。以下是这项创新技术的概述:

在标准设备上可用

  • 该服务使用了Llama 3.1-8B,这是一种大型语言模型,其大小缩小了八倍——从20GB减少到2.5GB。
  • 用户可以在专用网页上测试该服务,模型会下载到他们的设备上以供离线使用。

离线功能

  • 下载后,模型完全无需互联网连接即可运行,确保隐私并不依赖于云服务。

性能

  • 模型的速度取决于设备的处理能力:
    • 例如,在配备M1处理器的MacBook Pro上,模型每秒生成大约3-4个字符

使用现代技术构建

  • Rust和WebAssembly
    • 该服务使用Rust编写,并利用WebAssembly,这是一种允许应用程序在多个平台和语言中高效运行的技术。

先进的压缩技术

  • 该服务采用了由以下机构共同开发的尖端方法:
    • Yandex研究院
    • 奥地利科学技术研究所(ISTA)
    • 阿卜杜拉国王科技大学(KAUST)

两个核心工具

  1. 模型压缩
    • 将模型压缩至八倍,使其能够在单个GPU上运行,而不是多个GPU。
  2. 错误校正
    • 减轻压缩过程中引入的错误,确保神经网络响应的高质量

发布和开源

  • 该项目首次在2024年夏季发布,并已向公众开放。
  • 源代码GitHub上公开可访问,邀请开发者探索并基于此创新进行构建。