text [总结]京东广告数据部 - 数据应用组 - 开发过的需求总结

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了text [总结]京东广告数据部 - 数据应用组 - 开发过的需求总结相关的知识,希望对你有一定的参考价值。

1. 市场部广点通虚拟金同步:

关键点:
- WHERE IN子查询的使用

2. 深圳物料表翻译:

关键点:
- 对于空串要做默认值处理

\!h 3. 订单汇总表增加新维度及京腾合约订单数据(田伟霞, 丛义昊):

关键点:
- joinkey生成, 同一个表不同分区使用不同条件关联同一个表, 生成不同的joinkey, 只需要关联一次即可, 避免了多次关联UNION结果
- 对于下游是报表任务的表, 所有结果字段都需要对null进行打默认值处理.

4. 广告主信息表现金余额逻辑:

关键点:
- full join保留全部数据, coalesce生成取值优先级序列

\!h 5. 百度展点消运行时间优化 & 广点通跟单点击表运行时间优化

- 通过快表(大)过滤提前生成小表, 与慢表关联, 降低结果表生成时间, 从而提前结果表生成时间.
- 历史数据和昨天的逻辑应该用不一样的, 判断是昨天用新逻辑, 历史补数由于不涉及效率问题, 或者说用小表和原逻辑计算量是相同的, 并不能提速, 所以用原逻辑即可.

6. 点击同步表逻辑升级

关键点:
- 解决了IN不支持在WHERE下层条件中的问题:
  - 解决方案1: 使用UNION展开WHERE下层条件解决, 缺点是需要两次读取表, 如果是大表效率会比较低
  
  
  - 解决方案2: 使用LEFT OUTER JOIN关联并WHERE筛选关联上的条目(注意是把关联上的筛掉, JOIN范围的使用查看JOIN snippet).
7. 集群迁移

关键点:
- 开发脚本, 自动校验迁移前后的表大小, 分区数量, 支持按时间范围抽样检测分区数据条数.

8. 临时需求: 广告渗透率提数

关键点:
- 开店商家90天内的总消耗. 这个90天是按商家来算的. 先根据商家进行关联, 然后按商家对90天这个范围进行过滤
- 事实表要向后延伸90天的数据范围, 才能保证不漏掉数据.

9. Spark低延时数据主程序

关键点: 
- Spark Structure Streaming
- Spark SQL
  - TODO
10. 黄埔项目商家全站GMV, adv_pin, 联系人信息\(敏感信息\)提取:

  - 对敏感信息提取有了初步认识.

以上是关于text [总结]京东广告数据部 - 数据应用组 - 开发过的需求总结的主要内容,如果未能解决你的问题,请参考以下文章

京东销售码洋与广告投入及销量预测数据集+完整代码

彻底取代Redis+数据库架构,京东618稳了!

安卓首页图片轮播效果(淘宝京东首页广告效果)

京东数据分析SQL面试题

京东数据分析SQL面试题

如何准备机器学习工程师的面试 ?