DeepSeek 今日正式发布 DeepSeek-V3.2-Exp 模型,这是一个实验性(Experimental)的版本。
![图片[1]-DeepSeek-V3.2-Exp 模型正式发布并开源,API 大幅降价-玩转网](https://www.902d.com/wp-content/uploads/2025/09/773f20b6f320250929205657.avif)
作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。
DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。
![图片[2]-DeepSeek-V3.2-Exp 模型正式发布并开源,API 大幅降价-玩转网](https://www.902d.com/wp-content/uploads/2025/09/24b996ec7620250929205726.avif)
为了严谨地评估引入稀疏注意力带来的影响,官方特意把 DeepSeek-V3.2-Exp 的训练设置与 V3.1-Terminus 进行了严格的对齐。在各领域的公开评测集上,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。
![图片[3]-DeepSeek-V3.2-Exp 模型正式发布并开源,API 大幅降价-玩转网](https://www.902d.com/wp-content/uploads/2025/09/664eb716dc20250929205746.avif)
目前,官方 App、网页端、小程序均已同步更新为 DeepSeek-V3.2-Exp。
本次更新带来了 API 大幅度降价,开发者调用 DeepSeek API 的成本将降低 50% 以上。
![图片[4]-DeepSeek-V3.2-Exp 模型正式发布并开源,API 大幅降价-玩转网](https://www.902d.com/wp-content/uploads/2025/09/142e3f125c20250929205811.avif)
DeepSeek-V3.2-Exp 虽然已经在公开评测集上得到了有效性验证,但仍然需要在用户的真实使用场景中进行范围更广、规模更大的测试。为方便用户进行对比测试,官方为 V3.1-Terminus 临时保留了额外的 API 访问接口。
DeepSeek-V3.2-Exp 模型现已在 Huggingface 与魔搭开源:
HuggingFace:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
ModelScope:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp
论文也已同步公开:
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
网站名称:玩转网
本文链接:
版权声明:知识共享署名-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)协议进行许可
本站资源仅供个人学习交流,转载时请以超链接形式标明文章原始出处,(如有侵权联系删除)












