专题：streaming

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 3 篇文章。

流式专家技术：在有限内存下运行超大规模语言模型

官方Simon Willison2026/03/24 13:097840

• 流式专家技术实现大模型在低内存设备运行

• Qwen3.5-397B-A17B在MacBook Pro成功运行

流式专家技术通过按需加载专家权重，使超大规模语言模型能在内存有限的设备上运行。已实现Qwen3.5-397B-A17B和Kimi K2.5模型在MacBook Pro和iPhone上的运行，处理速度逐步提升。该技术为本地化部署和边缘计算提供了新思路，具有较高的实用价值。

媒体freeCodeCamp2026/03/11 07:252850

• 使用堆优化Top-K查找

• 流式处理动态维护Top-K

本文介绍Go语言中使用堆和流式方法高效获取Top-K元素的实现。通过最小堆结构，仅保留前K个最大值，避免全排序。适用于大规模或实时数据处理，提供代码示例和性能分析。

媒体The Cloudflare Blog2026/02/27 14:004840

本文提出了一种基于异步迭代器的JavaScript流式API新设计，旨在解决现有API的复杂性和性能问题。核心亮点包括简化读写逻辑、明确背压机制、支持批量处理，以及在多个运行时环境中的性能提升。该方案为开发者提供了更直观、高效的流处理方式。