Blog · Jiaqi Wang

2026-06-09 MiMo-V2 全解：一台精巧的「追赶机器」 MiMoMoEHybridAttentionMTPMOPDAgenticRL
把小米 MiMo-V2 系列（Flash / Pro / 2.5-Pro）的技术报告、发布博客和罗福莉 3.5 小时访谈串成一条线：架构怎么选、训练怎么 scaling、数据和 RL 系...
2026-06-04 On-Policy 蒸馏的两个坑：训推不一致，与后期 reward 塌成 0/1 On-Policy蒸馏训推不一致TCoD强化学习数值精度
记两个在 on-policy 蒸馏（TCoD）里真实踩到的坑：一个是同样权重却对不上的「训推不一致」，一个是训练后期 teacher 给学生的信号塌成 0/1 的现象。前者是算子层面的数...
2026-06-02 读懂 MiniMax：RL 算法、权重同步与可验证数据的一条主线强化学习AgenticCISPOMiniMax长上下文
以 MiniMax 的发布博客为切口，把 RL 算法、训练系统、权重同步基建、数据 pipeline 串成一条线，最后落到那个真正决定上限的问题——“蒸馏 vs RL 的边界到底在哪”。