短视频推荐召回模型

短视频推荐记录

短视频推荐相关

Posted by BY on May 21, 2017 · 阅读约 5 分钟

召回

相关指标

曝光vv占比、曝光uv占比、独特率、独特数、后验（短视频有效播放、完播率、播放完成度；点击场景ctr、uv-ctr）
漏斗指标，用于排查问题和优化：各层占比、通过率、独特率、用户渗透

模型召回

多目标双塔

正样本(对齐下游目标)：

有效播放：（播放时长≥5s且视频时长<20s）or(播放时长 ≥7s且视频时长≥20s)
长播放：播放时长≥30s
高完播：根据视频时长划分计算播放率，大于0.8为高完播
转化：完播（播时 >= 视频时长）、（长播）播时>30s 、关注、点赞、分享

负样本：

全局负采样5+曝光负样本1+batch内负样本*250
负样本生成逻辑：每条正样本从当天曝光池中随机采样5条负样本（至少一个目标为正），并且采样1条这个用户的曝光负样本（全部目标为负）作为困难负样本
batch内随机负采样（或者N-pair loss） ∑i=0n∑j=0nCELoss(sigmoid(simi,j),labeli,j)\sum_{i=0}^{n}\sum_{j=0}^{n}CELoss(sigmoid(sim_{i,j}),label_{i,j})\sum_{i=0}^{n}\sum_{j=0}^{n}CELoss(sigmoid(sim_{i,j}),label_{i,j})

模型：双塔，user测用一个，item测4个，最终目标loss融合

优势：占比高、透出率高

缺点：头部item集中、样本复杂学习较困难

一致性双塔

正样本：精排top100 || 关注 || 评论 || 点赞 || 浏览作者主页 || 浏览评论 || 分享 || 长播（播放时长大于30s）

负样本： bacth内30条 + hard5条

构造当天播放item_id+slot hash字典（全局采样）
在模型训练的自定义样本处理阶段对每条req_id+imei进行负采样处理。
根据当前req_id+imei，取当前item的品类，然后随机从上述字典里面采样1条品类相同item，5条其他的item（hard采样）
保留当前req_id+imei的user侧特征，拼接随机采样的item特征
生成6条新样本后组装batch，然后训练（batch内loss负采样仍然保留）

模型：标准双塔，4层

优点：增加不同tag1的采样能大幅提升召回率和vv占比。

缺点：本身在框架内实现，效率低训练时间长。

兴趣召回mind

正样本：有效播放

负样本：曝光正样本 + 256batch内负样本 + 1:10全局随机负采样样本

模型： mind模型

优点：表达用户兴趣

缺点：难表示兴趣迁移、以及召回池有限整体影响较小

功能双塔召回

主要两个方向，分人群召回和分内容属性召回。

分人群的比如中年女性之类的人群、新用户类、某种机型类。

分内容属性的比如新闻、影视、短剧之类。

主要方式就是搞一个专门内容池，然后用上面提到的主模型去做召回，服务专有人群或者某种内容的分发。

协同召回

icf

传统icf，公式简洁容易理解、线上表现不错、目前依然是主召回通道。
变种swing等，更偏向长尾和多样性，属于icf的补充。
模型icf学习，通过item双塔，icf的结果作为label学习，头部不如icf，但泛化和长尾效果好。

ucf

传统ucf，通过聚类等实现，通常效果不如icf
模型u2u2i，通过模型产出的user emb，拉取得相似用户在获得正向行为。效果不错，通常是核心召回通道。

倒排召回

兴趣召回

** 关注召回**

** 热点召回**

其他

基于用户画像/用户理解/内容属性偏好、长尾兴趣、潜在兴趣/探索、冷启召回
图神经网络、知识图谱（多样性、惊喜度）等

短视频推荐记录

召回

模型召回

协同召回

倒排召回

其他

粗排

精排

重排

业务

指标

优化方向

关键路径

💬 评论（使用 Giscus，登录 GitHub 即可发言）