IT之家 2 月 20 日报道,印度 AI 研究机构 Sarvam 在当地时间 2 月 18 日举行的印度人工智能影响峰会上展示了两种“从头开始构建”的下一代 MoE 架构大型语言模型。这两种模型很快将在 Hugging Face 上作为开源权重提供,同时还会添加 API 访问和仪表板支持。 Sarvam 的两个新模型中较小的一个采用 30B-A1B 设计,预训练数据集大小高达 16T,支持 32K 上下文窗口,面向需要低延迟的实时应用场景。较大的型号采用105B-A9B设计,支持128K上下文窗口,针对要求更高的用例。 Sarvam 声称,在 idiIndian oma 的本地基准测试中,其 105B-A9B 型号的性能优于 Google Gemini 2.5 Flash 等竞争对手产品。对于更广泛的工作负载,它“在大多数基准测试中优于 DeepSeek R1,在许多基准测试中优于 Google Gemini Flash”。
S特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。