Yandex研究员开发服务，可在“普通计算机”上运行大型语言模型Llama 3.1

发布时间： December 09, 2024

Yandex科学部门的研究员Vladimir Malinovsky开发了一项突破性服务，可以在普通电脑甚至智能手机上通过网络浏览器运行拥有80亿参数的大型语言模型。以下是这项创新技术的概述：

在标准设备上可用

该服务使用了Llama 3.1-8B，这是一种大型语言模型，其大小缩小了八倍——从20GB减少到2.5GB。
用户可以在专用网页上测试该服务，模型会下载到他们的设备上以供离线使用。

离线功能

下载后，模型完全无需互联网连接即可运行，确保隐私并不依赖于云服务。

性能

模型的速度取决于设备的处理能力：
- 例如，在配备M1处理器的MacBook Pro上，模型每秒生成大约3-4个字符。

使用现代技术构建

Rust和WebAssembly：
- 该服务使用Rust编写，并利用WebAssembly，这是一种允许应用程序在多个平台和语言中高效运行的技术。

先进的压缩技术

该服务采用了由以下机构共同开发的尖端方法：
- Yandex研究院
- 奥地利科学技术研究所（ISTA）
- 阿卜杜拉国王科技大学（KAUST）

两个核心工具

模型压缩：
- 将模型压缩至八倍，使其能够在单个GPU上运行，而不是多个GPU。
错误校正：
- 减轻压缩过程中引入的错误，确保神经网络响应的高质量。

发布和开源

该项目首次在2024年夏季发布，并已向公众开放。
源代码在GitHub上公开可访问，邀请开发者探索并基于此创新进行构建。

加入我们的社区 👋

解锁 Suddo.cn — 技术新闻、信息技术课程、教程、编程 的完整会员资格，探索我们丰富的 独家内容。

立即注册，随时取消

查看我们的计划