RLHF GRPO DeepSeek蒸馏 微调与对齐 效果优化及其实践 CoT 详解强化学习 SFT 大模型算法:强化学习 DPO
RLHF GRPO DeepSeek蒸馏 微调与对齐 效果优化及其实践 CoT 详解强化学习 SFT 大模型算法:强化学习 DPO
所 在 地:天津 累计销量:100+
店铺掌柜:  臣马图书音像专营店 
69.6 69.6
相关推荐