Aya-101 多语言模型集成至 llama.cpp，13GB Q8 量化模型实现高效推理

近日，llama.cpp 项目迎来一项重要更新：成功集成了 Aya-101 多语言大型语言模型。Aya-101 模型在量化至 Q8 精度后，内存占用可控制在 13GB 以下，这对于在资源受限的环境下部署和运行大型多语言模型具有显著意义。

该集成允许开发者利用 llama.cpp 的高效推理能力来运行 Aya-101。以下是一个通过 curl 调用本地运行的 llama.cpp 服务进行文本翻译的示例：

cmd /c 'curl.exe -s [http://127.0.0.1:8080/v1/completions](http://127.0.0.1:8080/v1/completions) -H "Content-Type: application/json" -d "{\"prompt\": \"Translate to French: Hello, how are you today?\", \"max_tokens\": 50, \"temperature\": 0.7}"'

该命令将向本地运行的 llama.cpp 服务发送翻译请求，并返回如下格式的 JSON 输出：

{
  "choices": [
    {
      "text": "Bonjour, comment allez-vous aujourd'hui ?",
      "index": 0,
      "logprobs": null,
      "finish_reason": "stop"
    },
    {
      "text": "Hello, how are you doing today?"
      "index": 1,
      "logprobs": null,
      "finish_reason": "stop"
    }
  ],
  "created": 1771719435,
  "model": "aya-101.Q8_0.fixed.gguf",
  "system_fingerprint": "b8125-142643525a",
  "object": "text_completion",
  "usage": {
    "completion_tokens": 15,
    "prompt_tokens": 1,
    "total_tokens": 16
  },
  "id": "chatcmpl-erIa31ZBDMApbbM7xMQ527PsEZ5NWLIV",
  "timings": {
    "cache_n": 0,
    "prompt_n": 1,
    "prompt_ms": 163.381,
    "prompt_per_token_ms": 163.381,
    "prompt_per_second": 6.1206627453620674,
    "predicted_n": 15,
    "predicted_ms": 319.182,
    "predicted_per_token_ms": 21.2788,
    "predicted_per_second": 46.995131304396864
  }
}

测试表明，Aya-101 在处理多种长文本格式时表现良好。然而，该模型在理解和处理习语方面仍有提升空间，有时会倾向于进行逐字翻译。

值得注意的是，llama.cpp 目前主要支持解码器模型（decoder-only models），但此次更新也确认了其对 T5 类编解码器模型（encoder-decoder model）的支持，这进一步扩展了其模型兼容性。

Aya-101 多语言模型集成至 llama.cpp，13GB Q8 量化模型实现高效推理

内容评分

摘要

正文

标签