首页/详情

构建本地 RAG 助手:模型选择与硬件升级指南

Reddit r/LocalLLaMA2026/02/09 22:39机翻/自动摘要/自动分类
4 阅读

摘要

本文介绍了一个用户构建本地化私人 RAG 助手的详细方案,涵盖数据摄取、LLM 增强、记忆数据库和大脑层。用户面临模型选择(4B/8B/12B LLM)和硬件升级(考虑 Apple Silicon 及独立 GPU)的困惑,预算在 2000-2500 美元。文章详细列出了当前配置、未来用例设想以及用户在模型性能和硬件成本之间的权衡,旨在寻求专业建议以优化其本地 AI 助手。

正文

一位用户正在构建一个本地化的私人助手,以避免将个人信息上传至云端 。该助手架构包含四个主要层级:

  1. 数据摄取层:通过后台同步作业,读取 iPhone 备份、本地照片、消息、联系人等信息,并监控文件夹变化。
  2. LLM 增强层:当新信息被添加时,使用 Qwen3-4B-VL-4bit 模型进行解析和信息提取,并将提取出的关键信息(如人物、对象、描述等)存储在本地的 LanceDB 中。
  3. 记忆数据库:使用 Gemma3-300M-4Bit 模型生成嵌入向量,所有信息点及其嵌入向量都存储在本地运行的 LanceDB 中。
  4. 大脑层:利用本地 解析用户查询,以回答关于文档位置、过往对话信息、家庭物品识别(通过照片)或日历/邮件待办事项等问题。

该助手计划使用一个小型本地 来实现 )功能。

工具/函数调用计划

  • 在 LanceDB 上进行 /向量搜索或混合搜索。
  • 发送电子邮件/消息。
  • 记忆存储:用户可以通过聊天指令将信息保存以供未来检索,这些信息将以不同来源类型存储在 LanceDB 中。
  • 通过照片提取信息并保存以供未来

未来用例设想

  • 音频转录,用于信息收集和待办事项/提醒。
  • 结合开源 AR 眼镜,将图像/文本传递给本地 以实现助手功能。
  • 实时代码生成。

用户当前困惑与硬件配置: 用户当前配置为 M4 Mac mini (16GB RAM/512GB 存储),计划将其作为专用服务器。

  1. 模型选择:用户在 4B、8B、12B 模型之间犹豫不决,特别是考虑到 需要额外上下文。倾向于使用 4-bit MLX 量化版本。虽然曾考虑 8B 模型,但对 Gemma 3 12B 和 Qwen3-4B-VL(尽管遇到重复 循环问题)表现出兴趣。
  2. 硬件升级:用户考虑更大的模型,如 Qwen 的 30B 版本,甚至 gpt-oss120b 或 Qwen 下一代模型。
  3. 硬件选项:除了 Apple Silicon,用户还考虑了 NVIDIA RTX 3090/5090 或 AMD Ryzen AI Max+ 395。在 Apple Silicon 方面,对 M2 Max 或 M3 Ultra(特别是 96GB/128GB RAM 版本)感兴趣,但目前预算可能仅限于 64GB RAM。

预算与期望: 硬件升级预算约为 2000-2500 美元。用户愿意等待 M5 Ultra 或其他新 GPU 发布,以在预算内获得更优选择。

核心诉求: 用户寻求关于为 密集型个人助手选择合适模型的建议,以及针对未来用例的硬件升级方案。同时,也希望了解当前配置是否足够,是否需要额外投入。

标签