阿里巴巴一线算法工程师笪庆和曾安祥教你《强化学习实战》-百道网

您现在的位置：书新闻

阿里巴巴一线算法工程师笪庆和曾安祥教你《强化学习实战》

作者：海蓝时间：2018年12月02日来源：百道网

【百道编按】由电子社出版的《强化学习实战：强化学习在阿里的技术演进和业务创新》一书汇集了阿里巴巴一线算法工程师笪庆和曾安祥在强化学习应用方面的经验和心得，书中覆盖了阿里巴巴集团多个事业部的多条业务线，系统地披露在互联网级别的应用上使用强化学习的技术细节，更包含了算法工程师对强化学习的深入理解、思考和创新。

《强化学习实战：强化学习在阿里的技术演进和业务创新》
点击图书封面可在三大网店购买
出版社：电子工业出版社
作者：笪庆，曾安祥
出版时间：2018年11月

强化学习是最接近自然界动物学习本质的一种学习范式。尽管强化学习从提出到现在差不多有半个世纪了，但是它的应用场景仍很有限，解决规模大一点的问题时会出现维数爆炸问题，难于计算，所以往往看到的例子都是相对简化的场景。

为了更好地解决上述问题，阿里巴巴算法专家笪庆和曾安祥著书《强化学习实战：强化学习在阿里的技术演进和业务创新》，书中总结了阿里巴巴将强化学习技术应用到搜索、推荐、广告、客服等业务上，并取得巨大成功的实践探索，值得读者学习和借鉴。

全书覆盖了阿里巴巴集团多个事业部的多条业务线，系统地披露了在互联网级别的应用上使用强化学习的技术细节，更包含了算法工程师对强化学习的深入理解、思考和创新。读者将在书中了解到强化学习在实际应用中的建模方法、常见的问题以及对应的解决思路，提高建模和解决业务问题的能力；了解到在游戏之外更多实际的强化学习问题，以及对应的解决方案，扩宽研究视野；了解到阿里巴巴的一线机器学习算法工程师是如何发现问题、定义问题和解决问题的，激发研究兴趣以及提升专业素养。

笪庆，花名达卿，是阿里巴巴高级算法专家，南京大学机器学习与数据挖掘研究所硕士，曾多次获得国内外数据挖掘/人工智能类竞赛冠军，并发表多篇领域顶会论文。目前在阿里主要从事搜索算法排序的工作，并率先在集团内开展强化学习在电商业务中的应用，实现了线上决策引擎的智能化决策升级。

曾安祥，花名仁重，阿里巴巴资深算法专家。于2009年加入阿里巴巴，作为淘宝搜索的创始人之一，曾安祥先后参与组建了Query分析团队和排序团队等算法团队，和团队一起创造了领先的商品搜索技术。

书摘：

当前的机器学习算法大致可以分为有监督学习、无监督学习和强化学习三类。强化学习和其他学习方法的不同之处在于：强化学习是智能系统从环境到行为映射的学习，以使奖励信号函数值最大。如果智能体的某个行为策略引发正的奖赏，那么智能体以后产生这个行为策略的趋势便会加强。强化学习是最接近自然界动物学习本质的一种学习范式。尽管强化学习从提出到现在差不多有半个世纪了，但是它的应用场景仍很有限，解决规模大一点的问题时会出现维数爆炸问题，难于计算，所以往往看到的例子都是相对简化的场景。

最近，强化学习因为与深度学习结合，解决海量数据的泛化问题，取得了令人瞩目的成果。在包括DeepMind 自动学习玩Atari 游戏，以及AlphaGo在围棋大赛中战胜世界冠军的背后，其强大武器之一就是深度强化学习技术。

相对DeepMind 和学术界看重强化学习的前沿研究，阿里巴巴则将重点放在推动强化学习的技术输出及商业应用上。

在阿里移动电商平台中，人机交互的便捷、碎片化使用的普遍性、页面切换的串行化、用户轨迹的可跟踪性等都要求系统能够对多变的用户行为，以及瞬息万变的外部环境进行完整建模。平台作为信息的载体，需要在与消费者的互动过程中，根据对消费者（环境）的理解，及时调整提供信息（商品、客服机器人的回答、路径选择等）的策略，从而最大化过程累积收益（消费者在平台上的使用体验）。基于监督学习方式的信息提供手段，缺少有效的探索能力，造成其系统倾向给消费者推送曾经发生过行为的信息单元（商品、店铺或问题答案）。而强化学习作为一种有效的基于用户与系统交互过程建模和最大化过程累积收益的学习方法，在阿里一些具体的业务场景中进行了很好的实践并得到大规模应用。

在搜索场景中，阿里巴巴对用户的浏览购买行为进行马尔可夫决策过程建模，在搜索实时学习和实时决策计算体系之上，实现了基于强化学习的排序策略决策模型，从而使得淘宝搜索的智能化进化至新的高度。双11 桶测试效果表明，算法指标取得了近 20% 的大幅提升。

在推荐场景中，阿里巴巴使用了深度强化学习与自适应在线学习，通过持续机器学习和模型优化建立决策引擎，对海量用户行为以及百亿级商品特征进行实时分析，帮助每一个用户迅速发现喜欢的商品，提高人和商品的配对效率，算法效果指标提升了10%~20%。

在智能客服中，如阿里小蜜这类的客服机器人，作为投放引擎的智能体，需要有决策能力。这个决策不是基于单一节点的直接收益来确定的，而是一个较为长期的人机交互的过程，把消费者与平台的互动看作一个马尔可夫决策过程，运用强化学习框架，建立一个消费者与系统互动的回路系统，而系统的决策是建立在最大化过程收益的基础上，达到一个系统与用户的动态平衡的。

在广告系统中，如果广告主能够根据每一条流量的价值进行单独出价，广告主便可以在各自的高价值流量上提高出价，而在普通流量上降低出价，如此可以获得较好的投资回报率（Return On Investment，ROI），与此同时，平台也能够提升广告与访客间的匹配效率。阿里巴巴实现了基于强化学习的智能调价技术，对于访问广告位的每一位访客，根据他们的当前状态去决定如何操作调价，给他们展现特定的广告，引导他们的状态向我们希望的方向上转移，双11 期间实测表明，点击率（Click-Through Rate，CTR）、每千次展示收入（Revenue Per Thousand，RPM）和成交金额（Gross Merchandise Volume，GMV）均得到了大幅提升。

标签：中国工信出版集团电子工业出版社强化学习实战：强化学习在阿里的技术演进和业务创新

发表评论

发表评论？[请登录]

版权声明

北京百道世纪网络信息技术有限公司及其平行公司北京百道世纪教育科技有限公司下属的网络媒体平台百道网、百道网微信、帮书店微信，以及百道学习APP和小程序等平台上发布的文章，版权属于北京百道世纪网络信息技术有限公司所有，或北京百道世纪网络信息技术有限公司与著作权人共同拥有，严禁转载。任何纸媒、网媒或社交媒体需要发布或转载，请与版权专员联系（service@bookdao.biz），获得授权后，方可转载。对于任何未经授权的转载，我们将依法追究其侵权责任。

扫描二维码分享文章