战略升级:转向DeepSeek V3.2进行指令跟随
SOTA-RESEARCH Team
在之前对DeepSeek V3.2 Exp的评估中,我们进行了极端压力测试——例如8位数密码锁问题——发现虽然它在成本方面具有显著优势,但在复杂推理任务上仍不及专门的推理模型。
然而,我们平台的格局已经发生了变化。我们决定将主要的指令模型从DeepSeek V3.1切换到DeepSeek V3.2,同时保留DeepSeek R1作为专门的推理模型。
新的混合架构
我们升级后的架构充分利用了两个模型的优势:
- 思考层(DeepSeek R1):该模型负责生成思维链(CoT)。它分解复杂的用户查询,执行推理,并概述解决问题所需的逻辑。
- 执行层(DeepSeek V3.2):该模型接收来自R1的推理链作为其提示上下文的一部分。然后执行指令,格式化输出,并处理最终响应生成。
为什么我们做出这个决定
这个决定由三个关键因素驱动:
1. 成本效益
与V3.1相比,DeepSeek V3.2提供了显著更具吸引力的定价结构。通过将推理的"繁重工作"卸载给R1,并使用V3.2进行最终的指令跟随和生成,我们可以在不牺牲输出质量的情况下优化总拥有成本。大部分令牌消耗发生在指令阶段,这正是V3.2效率突出的地方。
2. 平衡的智能体能力
DeepSeek V3.2在智能体任务方面展示了更平衡的性能表现。在我们的内部基准测试中,V3.2在处理函数调用、工具使用和多轮对话方面表现出比其前身更好的能力,使其成为我们AI智能体"前端"的理想选择。
3. DSA机制的成熟
DeepSeek V3.2的关键技术改进之一是其DSA(DeepSeek稀疏注意力) 机制的成熟。
虽然NSA(原生稀疏注意力) 引入了动态分层策略来平衡全局上下文与局部精度,但DSA在此基础上更进一步。DSA提供了比NSA更细粒度的稀疏模式。通过使用先进的特定"索引器+top-k"选择管道,DSA可以以更高的精度动态识别并关注最相关的令牌。这种"比NSA更精细"的粒度使DeepSeek V3.2能够以卓越的效率和准确性处理来自R1的大规模、详细的推理链,确保不丢失关键逻辑,同时保持较低的计算开销。
结论
通过将DeepSeek R1的原始推理能力与成本效益高、智能体能力强、技术成熟的DeepSeek V3.2相结合,我们相信我们已经为SOTA-AI平台找到了最佳平衡点。这种混合方法确保我们的用户以最可持续的价格点获得最智能的答案。