快讯内容
9 月 29 日消息,AMD 在 Huggingface 平台公布了自家首款「小语言模型」AMD-Llama-135m,该模型具有推测解码功能,拥有 6700 亿个 token,采用 Apache 2.0 开源许可。 据介绍,这款模型主打「推测解码」能力,其基本原理是使用小型草稿模型生成一组候选 token,然后由更大的目标模型进行验证。这种方法允许每次前向传递生成多个 token,而不会影响性能,从而显著减少 RAM 占用,实现效率提升。 AMD 表示,这款模型在四个 AMD Instinct MI25