短视频 推荐 召回 模型

短视频推荐记录

短视频推荐相关
Posted by BY on May 21, 2017 · 阅读约 5 分钟

召回

相关指标

  1. 曝光vv占比、曝光uv占比、独特率、独特数、后验(短视频有效播放、完播率、播放完成度;点击场景ctr、uv-ctr)
  2. 漏斗指标,用于排查问题和优化:各层占比、通过率、独特率、用户渗透

模型召回

多目标双塔

正样本(对齐下游目标):

负样本:

模型: 双塔,user测用一个,item测4个,最终目标loss融合

优势: 占比高、透出率高

缺点: 头部item集中、样本复杂学习较困难

一致性双塔

正样本: 精排top100 || 关注 || 评论 || 点赞 || 浏览作者主页 || 浏览评论 || 分享 || 长播(播放时长大于30s)

负样本: bacth内30条 + hard5条

  1. 构造当天播放item_id+slot hash字典(全局采样)
  2. 在模型训练的自定义样本处理阶段对每条req_id+imei进行负采样处理。
  3. 根据当前req_id+imei,取当前item的品类,然后随机从上述字典里面采样1条品类相同item,5条其他的item(hard采样)
  4. 保留当前req_id+imei的user侧特征,拼接随机采样的item特征
  5. 生成6条新样本后组装batch,然后训练(batch内loss负采样仍然保留)

模型: 标准双塔,4层

优点: 增加不同tag1的采样能大幅提升召回率和vv占比。

缺点: 本身在框架内实现,效率低训练时间长。

兴趣召回mind

正样本: 有效播放

负样本: 曝光正样本 + 256batch内负样本 + 1:10全局随机负采样样本

模型: mind模型

优点: 表达用户兴趣

缺点: 难表示兴趣迁移、以及召回池有限整体影响较小

功能双塔召回

主要两个方向,分人群召回和分内容属性召回。

分人群的比如中年女性之类的人群、新用户类、某种机型类。

分内容属性的比如新闻、影视、短剧之类。

主要方式就是搞一个专门内容池,然后用上面提到的主模型去做召回,服务专有人群或者某种内容的分发。

协同召回

icf

ucf

倒排召回

兴趣召回

** 关注召回**

** 热点召回**

其他

粗排

精排

重排

业务

指标

优化方向

关键路径

💬 评论(使用 Giscus,登录 GitHub 即可发言)