编 时光学 麓山剪辑社 计算机控制仿真与人工智能专业科技 人民邮电出版 豆包 图书籍 剪映 社 即梦AI 新华书店正版 编著
折后价 ¥ 19.08
RLHF GRPO DeepSeek蒸馏 微调与对齐 效果优化及其实践 CoT 详解强化学习 SFT 大模型算法:强化学习 DPO
所 在 地:天津
累计销量:100+ 件
店铺掌柜: 臣马图书音像专营店
¥69.6 ¥69.6






