← 返回主页
Writing
Blog
关于强化学习、Agent 与大模型系统的笔记与思考。
2026-06-02
读懂 MiniMax:RL 算法、权重同步与可验证数据的一条主线
强化学习
Agentic
CISPO
MiniMax
长上下文
以 MiniMax 的发布博客为切口,把 RL 算法、训练系统、权重同步基建、数据 pipeline 串成一条线,最后落到那个真正决定上限的问题——“蒸馏 vs RL 的边界到底在哪”。