text [总结]京东广告数据部 - 数据应用组 - 开发过的需求总结
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了text [总结]京东广告数据部 - 数据应用组 - 开发过的需求总结相关的知识,希望对你有一定的参考价值。
1. 市场部广点通虚拟金同步:
关键点:
- WHERE IN子查询的使用
2. 深圳物料表翻译:
关键点:
- 对于空串要做默认值处理
\!h 3. 订单汇总表增加新维度及京腾合约订单数据(田伟霞, 丛义昊):
关键点:
- joinkey生成, 同一个表不同分区使用不同条件关联同一个表, 生成不同的joinkey, 只需要关联一次即可, 避免了多次关联UNION结果
- 对于下游是报表任务的表, 所有结果字段都需要对null进行打默认值处理.
4. 广告主信息表现金余额逻辑:
关键点:
- full join保留全部数据, coalesce生成取值优先级序列
\!h 5. 百度展点消运行时间优化 & 广点通跟单点击表运行时间优化
- 通过快表(大)过滤提前生成小表, 与慢表关联, 降低结果表生成时间, 从而提前结果表生成时间.
- 历史数据和昨天的逻辑应该用不一样的, 判断是昨天用新逻辑, 历史补数由于不涉及效率问题, 或者说用小表和原逻辑计算量是相同的, 并不能提速, 所以用原逻辑即可.
6. 点击同步表逻辑升级
关键点:
- 解决了IN不支持在WHERE下层条件中的问题:
- 解决方案1: 使用UNION展开WHERE下层条件解决, 缺点是需要两次读取表, 如果是大表效率会比较低
- 解决方案2: 使用LEFT OUTER JOIN关联并WHERE筛选关联上的条目(注意是把关联上的筛掉, JOIN范围的使用查看JOIN snippet).
7. 集群迁移
关键点:
- 开发脚本, 自动校验迁移前后的表大小, 分区数量, 支持按时间范围抽样检测分区数据条数.
8. 临时需求: 广告渗透率提数
关键点:
- 开店商家90天内的总消耗. 这个90天是按商家来算的. 先根据商家进行关联, 然后按商家对90天这个范围进行过滤
- 事实表要向后延伸90天的数据范围, 才能保证不漏掉数据.
9. Spark低延时数据主程序
关键点:
- Spark Structure Streaming
- Spark SQL
- TODO
10. 黄埔项目商家全站GMV, adv_pin, 联系人信息\(敏感信息\)提取:
- 对敏感信息提取有了初步认识.
以上是关于text [总结]京东广告数据部 - 数据应用组 - 开发过的需求总结的主要内容,如果未能解决你的问题,请参考以下文章
京东销售码洋与广告投入及销量预测数据集+完整代码
彻底取代Redis+数据库架构,京东618稳了!
安卓首页图片轮播效果(淘宝京东首页广告效果)
京东数据分析SQL面试题
京东数据分析SQL面试题
如何准备机器学习工程师的面试 ?