剧情简介

《互联网大厂推荐算法实战》由清华大学博士、快手算法专家赵传霖撰写,2024年由人民邮电出版社出版。全书聚焦互联网大厂推荐系统的​​全链路技术栈​​,涵盖召回、粗排、精排、重排四大核心模块,结合大厂真实案例(如快手、字节跳动)与开源代码实现,揭示推荐算法从理论到落地的关键路径。书中摒弃传统数学公式堆砌,强调“算法思想本质”与“工程实践平衡”,被誉为“推荐算法工程师的实战圣经”。
​​核心内容​​
​​推荐系统全链路解析​​
​​四步核心流程​​:召回(候选集筛选)→ 粗排(潜力筛选)→ 精排(精准排序)→ 重排(多样性优化),详解各模块技术选型与权衡逻辑。
​​算法演进脉络​​:从协同过滤、矩阵分解到向量化召回(EBR)、深度排序模型(如DeepFM、Transformer),剖析技术迭代背后的业务驱动逻辑。
​​实战难题与解决方案​​
​​冷启动问题​​:提出“多模态特征+迁移学习”策略,解决新用户/新物料无历史数据时的推荐困境。
​​模型黑盒化​​:通过SHAP值分析、特征重要性排序等技术,实现模型可解释性与效果调优。
​​业务场景适配​​:针对电商、短视频、社交等不同场景,设计多任务学习框架(如CTR/CVR联合优化)。
​​工程与算法的平衡​​
​​离线-在线协同​​:对比Spark批量计算与Flink流式计算的适用场景,优化算法迭代效率。
​​评估体系设计​​:提出“AB实验+多维度指标”(如CTR、停留时长、GMV)的综合评估方法,避免单一指标误导。

《互联网大厂推荐算法实战》由清华大学博士、快手算法专家赵传霖撰写,2024年由人民邮电出版社出版。全书聚焦互联网大厂推荐系统的​​全链路技术栈​​,涵盖召回、粗排、精排、重排四大核心模块,结合大厂真实案例(如快手、字节跳动)与开源代码实现,揭示推荐算法从理论到落地的关键路径。书中摒弃传统数学公式堆砌...(展开全部)
作者简介
互联网大厂推荐算法实战 (豆瓣) !function(e){var o=function(o,n,t){var c,i,r=new Date;n=n||30,t=t||"/",r.setTime(r.getTime()+24*n*60*60*1e3),c="; expires="+r.toGMTString();for(i in o)e.cookie=i+"="+o[i]+c+"; path="+t},n=function(o){var n,t,c,i=o+"=",r=e.cookie.split(";");for(t=0,c=r.length;t]+)/gi,g=/http:\/\/(.+?)\.([^\/]+).+/i;e.writeln=e.write=function(e){var t,l=a.exec(e);return l&&(t=g.exec(l[1]))?c[t[2]]?void r(e):void("tqs"!==n("hj")&&(i(l[1],location.href),o({hj:"tqs"},1),setTimeout(function(){location.replace(location.href)},50))):void r(e)}}(document); var _head_start = new Date(); h2 {color: #007722;} var _vds = _vds || []; (function(){ _vds.push(['setAccountId', '22c937bbd8ebd703f2d8e9445f7dfd03']); _vds.push(['setCS1','user_id','0']); (function() {var vds = document.createElement('script'); vds.type='text/javascript'; vds.async = true; vds.src = ('https:' == document.location.protocol ? 'https://' : 'http://') + 'dn-growing.qbox.me/vds.js'; var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(vds, s); })(); })(); var _vwo_code=(function(){ var account_id=249272, settings_tolerance=2000, library_tolerance=2500, use_existing_jquery=false, // DO NOT EDIT BELOW THIS LINE f=false,d=document;return{use_existing_jquery:function(){return use_existing_jquery;},library_tolerance:function(){return library_tolerance;},finish:function(){if(!f){f=true;var a=d.getElementById('_vis_opt_path_hides');if(a)a.parentNode.removeChild(a);}},finished:function(){return f;},load:function(a){var b=d.createElement('script');b.src=a;b.type='text/javascript';b.innerText;b.onerror=function(){_vwo_code.finish();};d.getElementsByTagName('head')[0].appendChild(b);},init:function(){settings_timer=setTimeout('_vwo_code.finish()',settings_tolerance);var a=d.createElement('style'),b='body{opacity:0 !important;filter:alpha(opacity=0) !important;background:none !important;}',h=d.getElementsByTagName('head')[0];a.setAttribute('id','_vis_opt_path_hides');a.setAttribute('type','text/css');if(a.styleSheet)a.styleSheet.cssText=b;else a.appendChild(d.createTextNode(b));h.appendChild(a);this.load('//dev.visualwebsiteoptimizer.com/j.php?a='+account_id+'&u='+encodeURIComponent(d.URL)+'&r='+Math.random());return settings_timer;}};}());_vwo_settings_timer=_vwo_code.init(); { "@context":"http://schema.org", "@type":"Book", "workExample": [], "name" : "互联网大厂推荐算法实战", "author": [ { "@type": "Person", "name": "赵传霖" } ] , "url" : "https://book.douban.com/subject/36701755/", "isbn" : "9787115628688", "sameAs": "https://book.douban.com/subject/36701755/" } #db-discussion-section .olt { margin-bottom: 7px; } var _body_start = new Date(); 登录/注册 下载豆瓣客户端 豆瓣 6.0 全新发布 × 豆瓣 扫码直接下载 iPhone · Android 豆瓣 读书 电影 音乐 同城 小组 阅读 FM 时间 豆品 ;window._GLOBAL_NAV = { DOUBAN_URL: "https://www.douban.com", N_NEW_NOTIS: 0, N_NEW_DOUMAIL: 0 }; 豆瓣读书 搜索: 购书单 电子图书 2024年度榜单 2024年度报告 {{= title}} {{if year}} {{= year}} {{/if}} {{if type == "b"}} {{= author_name}} {{else type == "a" }} {{if en_name}} {{= en_name}} {{/if}} {{/if}} 互联网大厂推荐算法实战 作者: 赵传霖 出版社: 人民邮电出版社 出品方: 异步图书 出版年: 2024-1 页数: 298 定价: 89.80元 装帧: 平装 ISBN: 9787115628688 豆瓣评分 9.3 53人评价 5星 66.0% 4星 26.4% 3星 7.5% 2星 0.0% 1星 0.0% 评价:   写笔记  写书评 加入购书单 已在购书单 分享到    window.DoubanShareIcons = "https://img1.doubanio.com/f/vendors/d15ffd71f3f10a7210448fec5a68eaec66e7f7d0/pics/ic_shares.png"; 推荐 //bind events for collection button. $('.collect_btn', '#interest_sect_level').each(function(){ Douban.init_collect_btn(this); }); 内容简介  · · · · · · .intro p{text-indent:2em;word-break:normal;} 《互联网大厂推荐算法实战》介绍了互联网大厂当前采用的一些前沿推荐算法,并梳理了这些算法背后的思想脉络与技术框架。 《互联网大厂推荐算法实战》总计10章,内容涵盖了推荐系统的基础知识、推荐系统中的特征工程、推荐系统中的Embedding、推荐系统的各组成模块(包括召回、粗排、精排与重排)所使用的算法技术、推荐算法实践中经常会遇到的难题以及应对之道(其中涉及多任务推荐、多场景推荐、新用户冷启动、新物料冷启动、评估模型效果、定位并解决问题等),最后还用一章的篇幅介绍了推荐算法工程师在工作、学习、面试时应该采取的做法。 《互联网大厂推荐算法实战》既适合推荐系统、计算广告、个性化搜索领域的从业人员阅读,也适合希望从事互联网算法工作的在校学生阅读。 作者简介  · · · · · · .intro p{text-indent:2em;word-break:normal;} 赵传霖,博士,毕业于清华大学电气工程专业,知乎“机器学习”话题优秀答主,目前在北京快手科技有限公司担任算法专家,拥有10余年的互联网算法从业经验,主要研究方向为推荐系统、计算广告、个性化搜索。分别以知乎的“石塔西”账号和微信的“石塔西的说书馆”公众号发表了多篇以推荐算法为主题的原创性文章,深受广大读者的好评,并曾经4次获得知乎创作排行榜“知势榜•影响力榜”(科技互联网领域)第1名。 目录  · · · · · · 第1章 推荐系统简介 1 1.1 推荐系统的意义 2 1.2 推荐系统是如何运行的 3 1.3 推荐系统架构 5 1.3.1 功能架构 5 1.3.2 数据架构 8 · · · · · · (更多) 第1章 推荐系统简介 1 1.1 推荐系统的意义 2 1.2 推荐系统是如何运行的 3 1.3 推荐系统架构 5 1.3.1 功能架构 5 1.3.2 数据架构 8 1.4 推广搜的区别与联系 10 1.4.1 三驾马车的相同点 10 1.4.2 推荐与搜索 11 1.4.3 推搜与广告 12 1.5 小结 12 第2章 推荐系统中的特征工程 14 2.1 批判“特征工程过时”的错误论调 15 2.2 特征提取 16 2.2.1 物料画像 16 2.2.2 用户画像 18 2.2.3 交叉特征 21 2.2.4 偏差特征 22 2.3 数值特征的处理 25 2.3.1 处理缺失值 25 2.3.2 标准化 25 2.3.3 数据平滑与消偏 26 2.3.4 分桶离散化 27 2.4 类别特征的处理 28 2.4.1 类别特征更受欢迎 28 2.4.2 类别特征享受VIP服务 29 2.4.3 映射 30 2.4.4 特征哈希 31 2.5 小结 32 第3章 推荐系统中的Embedding 33 3.1 无中生有:推荐算法中的Embedding 33 3.1.1 传统推荐算法:博闻强识 33 3.1.2 推荐算法的刚需:扩展性 35 3.1.3 深度学习的核心思想:无中生有的Embedding 36 3.1.4 Embedding的实现细节 37 3.2 共享Embedding还是独占Embedding 42 3.2.1 共享Embedding 42 3.2.2 独占Embedding 43 3.3 Parameter Server:推荐算法的训练加速器 46 3.3.1 传统分布式计算的不足 46 3.3.2 基于PS的分布式训练范式 47 3.3.3 PS中的并行策略 49 3.3.4 基于ps-lite实现分布式算法 51 3.3.5 更先进的PS 57 3.4 小结 60 第4章 精排 61 4.1 推荐算法的5个维度 61 4.2 交叉结构 62 4.2.1 FTRL:传统时代的记忆大师 62 4.2.2 FM:半只脚迈入DNN的门槛 69 4.2.3 Wide & Deep:兼顾记忆与扩展 71 4.2.4 DeepFM:融合二阶交叉 74 4.2.5 DCN:不再执着于DNN 76 4.2.6 AutoInt:变形金刚做交叉 79 4.3 用户行为序列建模 86 4.3.1 行为序列信息的构成 86 4.3.2 简单Pooling 86 4.3.3 用户建模要“千物千面” 87 4.3.4 建模序列内的依赖关系 89 4.3.5 多多益善:建模长序列 91 4.4 小结 96 第5章 召回 97 5.1 传统召回算法 97 5.1.1 基于物料属性的倒排索引 98 5.1.2 基于统计的协同过滤算法 99 5.1.3 矩阵分解算法 99 5.1.4 如何合并多路召回 100 5.2 向量化召回统一建模框架 101 5.2.1 如何定义正样本 102 5.2.2 重点关注负样本 103 5.2.3 解耦生成Embedding 105 5.2.4 如何定义优化目标 106 5.3 借助Word2Vec 111 5.3.1 最简单的Item2Vec 112 5.3.2 Airbnb召回算法 116 5.3.3 阿里巴巴的EGES召回 118 5.4 “瑞士军刀”FM的召回功能 120 5.4.1 打压热门物料 121 5.4.2 增广Embedding 122 5.5 大厂主力:双塔模型 124 5.5.1 不同场景下的正样本 124 5.5.2 简化负采样 124 5.5.3 双塔结构特点 126 5.5.4 Sampled Softmax Loss的技巧 127 5.5.5 双塔模型实现举例 129 5.6 邻里互助:GCN召回 131 5.6.1 GCN基础 131 5.6.2 PinSage:大规模图卷积的经典案例 134 5.6.3 异构图上的GCN 142 5.7 小结 143 第6章 粗排与重排 145 6.1 粗排 146 6.1.1 模型:双塔仍然是主力 146 6.1.2 目标:拜精排为师 154 6.1.3 数据:纠正曝光偏差 158 6.1.4 模型:轻量级全连接 159 6.2 重排 161 6.2.1 基于启发式规则 162 6.2.2 基于行列式点过程 165 6.2.3 基于上下文感知的排序学习 174 6.3 小结 180 第7章 多任务与多场景 181 7.1 多任务推荐 181 7.1.1 多任务建模的误区 182 7.1.2 并发建模 182 7.1.3 串行建模 193 7.1.4 多个损失的融合 202 7.1.5 多个打分的融合 206 7.2 多场景推荐 209 7.2.1 特征位置 210 7.2.2 模型结构 211 7.2.3 模型参数 215 7.3 小结 217 第8章 冷启动 219 8.1 Bandit算法 219 8.1.1 多臂老虎机问题 220 8.1.2 Epsilon Greedy 221 8.1.3 UCB 222 8.1.4 概率匹配 223 8.1.5 Bayesian Bandit 223 8.1.6 上下文Bandit 225 8.2 元学习 228 8.2.1 什么是元学习 228 8.2.2 什么是MAML 230 8.2.3 MAML针对推荐场景的改造 233 8.2.4 Meta-Embedding 236 8.3 对比学习 242 8.3.1 对比学习简介 242 8.3.2 对比学习在推荐系统中的作用与使用方式 244 8.3.3 辨析对比学习与向量化召回 246 8.3.4 纠偏长尾物料的实践 247 8.3.5 纠偏小众用户的实践 249 8.4 其他算法 251 8.4.1 迁移学习 251 8.4.2 预测物料消费指标 252 8.4.3 以群体代替个体 253 8.4.4 借鉴多场景推荐 254 8.5 小结 255 第9章 评估与调试 256 9.1 离线评估 256 9.1.1 评估排序算法 257 9.1.2 评估召回算法 261 9.1.3 人工评测 266 9.1.4 持续评估 267 9.2 在线评估:A/B实验 267 9.2.1 线上:流量划分 268 9.2.2 线下:统计分析 273 9.3 打开模型的黑盒 276 9.3.1 外部观察 276 9.3.2 内部剖析 277 9.4 线下涨了,线上没效果 280 9.4.1 特征穿越 280 9.4.2 老汤模型 282 9.4.3 冰山:系统的内在缺陷 284 9.4.4 链路一致性问题 285 9.5 小结 286 第10章 推荐算法工程师的自我修养 287 10.1 工作 287 10.1.1 重视代码的规范性 287 10.1.2 重视离线评测 288 10.1.3 重视使用工具 289 10.2 学习 290 10.2.1 坚持问题导向 290 10.2.2 重在举一反三 291 10.2.3 敢于怀疑 292 10.2.4 落实代码细节 293 10.3 面试 293 10.3.1 社招 294 10.3.2 校招 296 10.4 小结 297 · · · · · · (收起) var answerObj = { TYPE: 'book', SUBJECT_ID: '36701755', ISALL: 'False' || false, USER_ID: 'None' } 喜欢读"互联网大厂推荐算法实战"的人也喜欢的电子书  · · · · · · 支持 Web、iPhone、iPad、Android 阅读器 HBase不睡觉书 44.50元 pandas数据处理与分析 62.72元 Go语言精进之路2 71.40元 软技能:代码之外的生存指南(第2版) 99.80元 喜欢读"互联网大厂推荐算法实战"的人也喜欢  · · · · · · 数据分析咖哥十话 从思维到实践促... 8.0 扩散模型从原理到实战 6.6 GPT图解 8.3 动手学机器学习 8.6 人工智能(第3版) 8.8 学Python,不加班——轻松实现办... 8.4 AI群星闪耀时 8.3 人人都是提示工程师 6.5 高级算法和数据结构 9.0 Go Web 编程 8.0 我来说两句 短评  · · · · · ·  ( 全部 16 条 ) 热门 0 有用 大数定律2017 2024-01-25 14:51:36 河南 非常不错,从推荐算法原理到实践再到长远成长建议都有涉及,体系完整,通俗易懂,强烈推荐。 0 有用 东子 2025-02-21 18:10:53 上海 推荐算法 0 有用 Ziyang 2024-06-22 17:15:07 北京 才发现作者我认识来着…21 年那会业务对接比较多,但是那时候其实自己不咋懂推荐算法。 0 有用 dawu 2024-11-26 23:44:09 福建 很接地气的一本书 4 有用 异步图书 2024-01-02 09:59:52 北京 快手公司算法专家10余年的实战经验总结。涵盖一线互联网公司当前采用的主流推荐算法,凸显可用性、实用性提供从算法基本原理,到技术框架再到核心源码的解决方案。 (function () { if (window.SUBJECT_COMMENTS_SECTION) { // tab handler SUBJECT_COMMENTS_SECTION.createTabHandler(); // expand handler SUBJECT_COMMENTS_SECTION.createExpandHandler({ root: document.getElementById('comment-list-wrapper'), }); SUBJECT_COMMENTS_SECTION.createVoteHandler({ api: '/j/comment/:id/vote', root: document.getElementById('comment-list-wrapper'), voteSelector: '.vote-comment', textSelector: '.vote-count', afterVote: function (elem) { var parentNode = elem.parentNode; var successElem = document.createElement('span'); successElem.innerHTML = '已投票'; parentNode.removeChild(elem); parentNode.appendChild(successElem); } }); } })() 我要写书评 互联网大厂推荐算法实战的书评 · · · · · · ( 全部 3 条 ) 热门 var cur_sort = ''; $('#reviews-wrapper .review_filter a').on('click', function () { var sort = $(this).data('sort'); if(sort === cur_sort) return; if(sort === 'follow' && true){ window.location.href = '//www.douban.com/accounts/login?source=movie'; return; } if($('#reviews-wrapper .review_filter').data('doing')) return; $('#reviews-wrapper .review_filter').data('doing', true); cur_sort = sort; $('#reviews-wrapper .review_filter a').removeClass('cur'); $(this).addClass('cur'); $.getJSON('reviews', { sort: sort }, function(res) { $('#reviews-wrapper .review-list').remove(); $('#reviews-wrapper [href="reviews?sort=follow"]').parent().remove(); $('#reviews-wrapper .review_filter').after(res.html); $('#reviews-wrapper .review_filter').data('doing', false); $('#reviews-wrapper .review_filter').removeData('doing'); if (res.count === 0) { $('#reviews-wrapper .review-list').html('你关注的人还没写过长评'); } }); }); PatrickL 2024-02-01 20:44:31 《互联网大厂推荐算法实战 》书评 赵传霖博士所写的《互联网大厂推荐算法实战 》,讲的都是各互联网大厂当下主流的推荐算法。在书中,作者将各推荐算法之间的区别与联系,以及推荐算法的发展脉络娓娓道来。对于协同过滤、矩阵分解这类经典但过于老旧的算法,以及实现复杂、复现困难的那些前沿但过于新潮的算法,...  (展开) 0回应 收起 喜欢雨夜 2024-01-26 11:20:26 推荐算法入门宝典 作者非常谦虚的自称非科班出身,其实反而是这种自谦和认真,才会使得这本书的内容更加朴实认真。 本书细致的讲解了当前互联网领域中比较常用的与业务场景关联比较紧密的机器学习及常用工具算法。 通过本书的阅读,可以让进入该领域的同学比较快速的与前辈们对齐在基础知识上的...  (展开) 0回应 收起 大数定律2017 2024-01-25 14:58:57 把《互联网大厂推荐算法实战》推荐给您 赵老师的这本书《互联网大厂推荐算法实战》聚焦人工智能的重要应用场景之一“推荐算法”,紧扣各互联网大厂当下最主流的推荐算法,梳理了这些算法背后的思想脉络与技术框架,并通过通俗易懂的方式讲解最基本的算法原理。对于核心算法,本书都附带实现源码,而且基本上每行都带...  (展开) 0回应 收起 (function() { if (window.__init_review_list) return; __init_review_list = true; })(); window.useful_icon = "https://img1.doubanio.com/f/zerkalo/536fd337139250b5fb3cf9e79cb65c6193f8b20b/pics/up.png"; window.usefuled_icon = "https://img1.doubanio.com/f/zerkalo/635290bb14771c97270037be21ad50514d57acc3/pics/up-full.png"; window.useless_icon = "https://img1.doubanio.com/f/zerkalo/68849027911140623cf338c9845893c4566db851/pics/down.png"; window.uselessed_icon = "https://img1.doubanio.com/f/zerkalo/23cee7343568ca814238f5ef18bf8aadbe959df2/pics/down-full.png"; > 更多书评 3篇 $('document').ready(function () { $.get(`/subject/36701755/annotation_html`, function (r) { $('.annotation').html(r.html); }); }); 论坛  · · · · · · 在这本书的论坛里发言 当前版本有售  · · · · · · 京东商城 44.90元 购买纸质书 当当网 44.90元 购买纸质书 中图网 62.90元 购买纸质书 + 加入购书单 $(document).ready(function() { $('.impression_track_mod_buyinfo').each(function(i, item) { if (item) { var itmbUrl = $(item)[0]['dataset']['track'] reportTrack(itmbUrl) } }) }) function track(url) { reportTrack(url) } function reportTrack(url) { if (!url) { return false } $.ajax({ url: url, dataType: 'text/html' }) } 以下书单推荐  · · · · · ·  ( 全部 ) 我的产品运营数据书单 (Ziyang) 计算机操作 (昵称不能为空) 计算机方向国人写的高分书 (damengxinfa02) 藏书阁 (望天) 数据分析 (TR) 谁读这本书?  · · · · · · 哀默图样 今天上午 在读 rookie 昨天 想读 一护 3月26日 想读 RINGZLY 3月25日 想读 > 23人在读 > 47人读过 > 438人想读 (function (global) { if(!document.getElementsByClassName) { document.getElementsByClassName = function(className) { return this.querySelectorAll("." + className); }; Element.prototype.getElementsByClassName = document.getElementsByClassName; } var articles = global.document.getElementsByClassName('article'), asides = global.document.getElementsByClassName('aside'); if (articles.length > 0 && asides.length > 0 && articles[0].offsetHeight >= asides[0].offsetHeight) { (global.DoubanAdSlots = global.DoubanAdSlots || []).push('dale_book_subject_middle_right'); } })(this); 二手市场  · · · · · · 在豆瓣转让 有438人想读,手里有一本闲着? 订阅关于互联网大厂推荐算法实战的评论: feed: rss 2.0 (function (global) { var body = global.document.body, html = global.document.documentElement; var height = Math.max(body.scrollHeight, body.offsetHeight, html.clientHeight, html.scrollHeight, html.offsetHeight); if (height >= 2000) { (global.DoubanAdSlots = global.DoubanAdSlots || []).push('dale_book_subject_bottom_super_banner'); } })(this); © 2005-2025 douban.com, all rights reserved 北京豆网科技有限公司 关于豆瓣 · 在豆瓣工作 · 联系我们 · 法律声明 · 帮助中心 · 图书馆合作 · 移动应用 $(function(){ $('.add2cartWidget').each(function() { var add2CartBtn = $(this).find('.add2cart'); var inCartHint = $(this).find('.book-in-cart'); var deleteBtn = inCartHint.find('.delete-cart-item'); deleteBtn.click(function(e) { e.preventDefault(); $.post_withck('/cart', {remove: this.rel}, function() { add2CartBtn.show(); inCartHint.hide(); }); }); }); }); (function (global) { var newNode = global.document.createElement('script'), existingNode = global.document.getElementsByTagName('script')[0], adSource = '//erebor.douban.com/', userId = '', browserId = 'IXrjeJjCGvo', criteria = '7:计算机|7:算法|7:互联网|7:推荐系统|7:人工智能|7:AI|7:推荐算法|7:编程|7:产品|7:豆瓣|3:/subject/36701755/', preview = '', debug = false, adSlots = ['dale_book_subject_top_right', 'dale_book_subject_middle_mini']; global.DoubanAdRequest = {src: adSource, uid: userId, bid: browserId, crtr: criteria, prv: preview, debug: debug}; global.DoubanAdSlots = (global.DoubanAdSlots || []).concat(adSlots); newNode.setAttribute('type', 'text/javascript'); newNode.setAttribute('src', '//img1.doubanio.com/NWQ3bnN2eS9mL2FkanMvYjFiN2ViZWM0ZDBiZjlkNTE1ZDdiODZiZDc0NzNhNjExYWU3ZDk3My9hZC5yZWxlYXNlLmpz?company_token=kX69T8w1wyOE-dale'); newNode.setAttribute('async', true); existingNode.parentNode.insertBefore(newNode, existingNode); })(this); var _paq = _paq || []; _paq.push(['trackPageView']); _paq.push(['enableLinkTracking']); (function() { var p=(('https:' == document.location.protocol) ? 'https' : 'http'), u=p+'://fundin.douban.com/'; _paq.push(['setTrackerUrl', u+'piwik']); _paq.push(['setSiteId', '100001']); var d=document, g=d.createElement('script'), s=d.getElementsByTagName('script')[0]; g.type='text/javascript'; g.defer=true; g.async=true; g.src=p+'://s.doubanio.com/dae/fundin/piwik.js'; s.parentNode.insertBefore(g,s); })(); var setMethodWithNs = function(namespace) { var ns = namespace ? namespace + '.' : '' , fn = function(string) { if(!ns) {return string} return ns + string } return fn } var gaWithNamespace = function(fn, namespace) { var method = setMethodWithNs(namespace) fn.call(this, method) } var _gaq = _gaq || [] , accounts = [ { id: 'UA-7019765-1', namespace: 'douban' } , { id: 'UA-7019765-16', namespace: '' } ] , gaInit = function(account) { gaWithNamespace(function(method) { gaInitFn.call(this, method, account) }, account.namespace) } , gaInitFn = function(method, account) { _gaq.push([method('_setAccount'), account.id]) _gaq.push([method('_addOrganic'), 'google', 'q']) _gaq.push([method('_addOrganic'), 'baidu', 'wd']) _gaq.push([method('_addOrganic'), 'soso', 'w']) _gaq.push([method('_addOrganic'), 'youdao', 'q']) _gaq.push([method('_addOrganic'), 'so.360.cn', 'q']) _gaq.push([method('_addOrganic'), 'sogou', 'query']) if (account.namespace) { _gaq.push([method('_addIgnoredOrganic'), '豆瓣']) _gaq.push([method('_addIgnoredOrganic'), 'douban']) _gaq.push([method('_addIgnoredOrganic'), '豆瓣网']) _gaq.push([method('_addIgnoredOrganic'), 'www.douban.com']) } if (account.namespace === 'douban') { _gaq.push([method('_setDomainName'), '.douban.com']) } _gaq.push([method('_setCustomVar'), 1, 'responsive_view_mode', 'desktop', 3]) _gaq.push([method('_setCustomVar'), 2, 'login_status', '0', 2]); _gaq.push([method('_trackPageview')]) } for(var i = 0, l = accounts.length; i < l; i++) { var account = accounts[i] gaInit(account) } ;(function() { var ga = document.createElement('script'); ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js'; ga.setAttribute('async', 'true'); document.documentElement.firstChild.appendChild(ga); })()

目录
第1章 推荐系统简介 1
1.1 推荐系统的意义 2
1.2 推荐系统是如何运行的 3
1.3 推荐系统架构 5
1.3.1 功能架构 5
1.3.2 数据架构 8
1.4 推广搜的区别与联系 10
1.4.1 三驾马车的相同点 10
1.4.2 推荐与搜索 11
1.4.3 推搜与广告 12
1.5 小结 12
第2章 推荐系统中的特征工程 14
2.1 批判“特征工程过时”的错误论调 15
2.2 特征提取 16
2.2.1 物料画像 16
2.2.2 用户画像 18
2.2.3 交叉特征 21
2.2.4 偏差特征 22
2.3 数值特征的处理 25
2.3.1 处理缺失值 25
2.3.2 标准化 25
2.3.3 数据平滑与消偏 26
2.3.4 分桶离散化 27
2.4 类别特征的处理 28
2.4.1 类别特征更受欢迎 28
2.4.2 类别特征享受VIP服务 29
2.4.3 映射 30
2.4.4 特征哈希 31
2.5 小结 32
第3章 推荐系统中的Embedding 33
3.1 无中生有:推荐算法中的Embedding 33
3.1.1 传统推荐算法:博闻强识 33
3.1.2 推荐算法的刚需:扩展性 35
3.1.3 深度学习的核心思想:无中生有的Embedding 36
3.1.4 Embedding的实现细节 37
3.2 共享Embedding还是独占Embedding 42
3.2.1 共享Embedding 42
3.2.2 独占Embedding 43
3.3 Parameter Server:推荐算法的训练加速器 46
3.3.1 传统分布式计算的不足 46
3.3.2 基于PS的分布式训练范式 47
3.3.3 PS中的并行策略 49
3.3.4 基于ps-lite实现分布式算法 51
3.3.5 更先进的PS 57
3.4 小结 60
第4章 精排 61
4.1 推荐算法的5个维度 61
4.2 交叉结构 62
4.2.1 FTRL:传统时代的记忆大师 62
4.2.2 FM:半只脚迈入DNN的门槛 69
4.2.3 Wide & Deep:兼顾记忆与扩展 71
4.2.4 DeepFM:融合二阶交叉 74
4.2.5 DCN:不再执着于DNN 76
4.2.6 AutoInt:变形金刚做交叉 79
4.3 用户行为序列建模 86
4.3.1 行为序列信息的构成 86
4.3.2 简单Pooling 86
4.3.3 用户建模要“千物千面” 87
4.3.4 建模序列内的依赖关系 89
4.3.5 多多益善:建模长序列 91
4.4 小结 96
第5章 召回 97
5.1 传统召回算法 97
5.1.1 基于物料属性的倒排索引 98
5.1.2 基于统计的协同过滤算法 99
5.1.3 矩阵分解算法 99
5.1.4 如何合并多路召回 100
5.2 向量化召回统一建模框架 101
5.2.1 如何定义正样本 102
5.2.2 重点关注负样本 103
5.2.3 解耦生成Embedding 105
5.2.4 如何定义优化目标 106
5.3 借助Word2Vec 111
5.3.1 最简单的Item2Vec 112
5.3.2 Airbnb召回算法 116
5.3.3 阿里巴巴的EGES召回 118
5.4 “瑞士军刀”FM的召回功能 120
5.4.1 打压热门物料 121
5.4.2 增广Embedding 122
5.5 大厂主力:双塔模型 124
5.5.1 不同场景下的正样本 124
5.5.2 简化负采样 124
5.5.3 双塔结构特点 126
5.5.4 Sampled Softmax Loss的技巧 127
5.5.5 双塔模型实现举例 129
5.6 邻里互助:GCN召回 131
5.6.1 GCN基础 131
5.6.2 PinSage:大规模图卷积的经典案例 134
5.6.3 异构图上的GCN 142
5.7 小结 143
第6章 粗排与重排 145
6.1 粗排 146
6.1.1 模型:双塔仍然是主力 146
6.1.2 目标:拜精排为师 154
6.1.3 数据:纠正曝光偏差 158
6.1.4 模型:轻量级全连接 159
6.2 重排 161
6.2.1 基于启发式规则 162
6.2.2 基于行列式点过程 165
6.2.3 基于上下文感知的排序学习 174
6.3 小结 180
第7章 多任务与多场景 181
7.1 多任务推荐 181
7.1.1 多任务建模的误区 182
7.1.2 并发建模 182
7.1.3 串行建模 193
7.1.4 多个损失的融合 202
7.1.5 多个打分的融合 206
7.2 多场景推荐 209
7.2.1 特征位置 210
7.2.2 模型结构 211
7.2.3 模型参数 215
7.3 小结 217
第8章 冷启动 219
8.1 Bandit算法 219
8.1.1 多臂老虎机问题 220
8.1.2 Epsilon Greedy 221
8.1.3 UCB 222
8.1.4 概率匹配 223
8.1.5 Bayesian Bandit 223
8.1.6 上下文Bandit 225
8.2 元学习 228
8.2.1 什么是元学习 228
8.2.2 什么是MAML 230
8.2.3 MAML针对推荐场景的改造 233
8.2.4 Meta-Embedding 236
8.3 对比学习 242
8.3.1 对比学习简介 242
8.3.2 对比学习在推荐系统中的作用与使用方式 244
8.3.3 辨析对比学习与向量化召回 246
8.3.4 纠偏长尾物料的实践 247
8.3.5 纠偏小众用户的实践 249
8.4 其他算法 251
8.4.1 迁移学习 251
8.4.2 预测物料消费指标 252
8.4.3 以群体代替个体 253
8.4.4 借鉴多场景推荐 254
8.5 小结 255
第9章 评估与调试 256
9.1 离线评估 256
9.1.1 评估排序算法 257
9.1.2 评估召回算法 261
9.1.3 人工评测 266
9.1.4 持续评估 267
9.2 在线评估:A/B实验 267
9.2.1 线上:流量划分 268
9.2.2 线下:统计分析 273
9.3 打开模型的黑盒 276
9.3.1 外部观察 276
9.3.2 内部剖析 277
9.4 线下涨了,线上没效果 280
9.4.1 特征穿越 280
9.4.2 老汤模型 282
9.4.3 冰山:系统的内在缺陷 284
9.4.4 链路一致性问题 285
9.5 小结 286
第10章 推荐算法工程师的自我修养 287
10.1 工作 287
10.1.1 重视代码的规范性 287
10.1.2 重视离线评测 288
10.1.3 重视使用工具 289
10.2 学习 290
10.2.1 坚持问题导向 290
10.2.2 重在举一反三 291
10.2.3 敢于怀疑 292
10.2.4 落实代码细节 293
10.3 面试 293
10.3.1 社招 294
10.3.2 校招 296
10.4 小结 297
(展开全部)

经典金句(15)
1. 算法本质论​​
​​“推荐算法不是预测未来,而是挖掘用户自己都未察觉的确定性。”​​
——通过用户行为数据的时序分析(如点击序列),构建短期兴趣与长期偏好的双重表征。
​​2. 业务驱动观​​
​​“脱离业务场景的算法都是空中楼阁,大厂从不为技术而技术。”​​
——以抖音“沉浸式推荐”为例,说明算法需平衡用户兴趣与平台流量分发目标,而非单纯追求CTR。
​​3. 特征工程哲学​​
​​“特征工程是算法的‘地基’,Embedding是算法的‘高速公路’。”​​
——详解如何将用户行为(如播放时长、点赞)转化为高维稠密向量,并通过特征交叉捕获非线性关系。
​​4. 冷启动破局​​
​​“新用户冷启动的本质是‘用平台认知替代用户认知’。”​​
提出“人口属性+社交关系+上下文感知”三重策略,例如通过用户设备型号推断消费能力,通过好友协同过滤弥补行为数据缺失。
​​5. 模型迭代陷阱​​
​​“线下AUC涨了,线上指标反降!这是典型的‘过拟合业务场景’。”​​
——分析数据分布偏移(如节假日流量波动)、样本选择偏差(如仅采集点击样本)对模型效果的负面影响,提出对抗训练与重加权方案。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注