构建本地 RAG 助手：模型选择与硬件升级指南

一位用户正在构建一个本地化的私人助手，以避免将个人信息上传至云端。该助手架构包含四个主要层级：

数据摄取层：通过后台同步作业，读取 iPhone 备份、本地照片、消息、联系人等信息，并监控文件夹变化。
LLM 增强层：当新信息被添加时，使用 Qwen3-4B-VL-4bit 模型进行解析和信息提取，并将提取出的关键信息（如人物、对象、描述等）存储在本地的 LanceDB 中。
记忆数据库：使用 Gemma3-300M-4Bit 模型生成嵌入向量，所有信息点及其嵌入向量都存储在本地运行的 LanceDB 中。
大脑层：利用本地解析用户查询，以回答关于文档位置、过往对话信息、家庭物品识别（通过照片）或日历/邮件待办事项等问题。

该助手计划使用一个小型本地来实现（）功能。

工具/函数调用计划：

未来用例设想：

用户当前困惑与硬件配置：用户当前配置为 M4 Mac mini (16GB RAM/512GB 存储)，计划将其作为专用服务器。

模型选择：用户在 4B、8B、12B 模型之间犹豫不决，特别是考虑到需要额外上下文。倾向于使用 4-bit MLX 量化版本。虽然曾考虑 8B 模型，但对 Gemma 3 12B 和 Qwen3-4B-VL（尽管遇到重复循环问题）表现出兴趣。
硬件升级：用户考虑更大的模型，如 Qwen 的 30B 版本，甚至 gpt-oss120b 或 Qwen 下一代模型。
硬件选项：除了 Apple Silicon，用户还考虑了 NVIDIA RTX 3090/5090 或 AMD Ryzen AI Max+ 395。在 Apple Silicon 方面，对 M2 Max 或 M3 Ultra（特别是 96GB/128GB RAM 版本）感兴趣，但目前预算可能仅限于 64GB RAM。

预算与期望：硬件升级预算约为 2000-2500 美元。用户愿意等待 M5 Ultra 或其他新 GPU 发布，以在预算内获得更优选择。

核心诉求：用户寻求关于为密集型个人助手选择合适模型的建议，以及针对未来用例的硬件升级方案。同时，也希望了解当前配置是否足够，是否需要额外投入。

摘要