Yandex科学部门的研究员Vladimir Malinovsky开发了一项突破性服务,可以在普通电脑甚至智能手机上通过网络浏览器运行拥有80亿参数的大型语言模型。以下是这项创新技术的概述:
在标准设备上可用
- 该服务使用了Llama 3.1-8B,这是一种大型语言模型,其大小缩小了八倍——从20GB减少到2.5GB。
- 用户可以在专用网页上测试该服务,模型会下载到他们的设备上以供离线使用。
离线功能
- 下载后,模型完全无需互联网连接即可运行,确保隐私并不依赖于云服务。
性能
- 模型的速度取决于设备的处理能力:
- 例如,在配备M1处理器的MacBook Pro上,模型每秒生成大约3-4个字符。
使用现代技术构建
- Rust和WebAssembly:
- 该服务使用Rust编写,并利用WebAssembly,这是一种允许应用程序在多个平台和语言中高效运行的技术。
先进的压缩技术
- 该服务采用了由以下机构共同开发的尖端方法:
- Yandex研究院
- 奥地利科学技术研究所(ISTA)
- 阿卜杜拉国王科技大学(KAUST)
两个核心工具
- 模型压缩:
- 将模型压缩至八倍,使其能够在单个GPU上运行,而不是多个GPU。
- 错误校正:
- 减轻压缩过程中引入的错误,确保神经网络响应的高质量。