挨踢部落第一期:Spark离线分析维度

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了挨踢部落第一期:Spark离线分析维度相关的知识,希望对你有一定的参考价值。

活动说明:挨踢部落是为核心开发者提供深度技术交流,解决开发需求,资源共享的服务社群。基于此社群,我们邀请了业界技术大咖对开发需求进行一对一突破,解除开发过程中的绊脚石。以最专业、最高效的答复为开发者解决开发难题。

技术分享

话题关键词: 大数据  spark  数据分析  数据画像

部落阵容徐韬,龙珠直播大数据主管;王劲,数果科技 联合创始人;

面向对象:初级开发工程师,数据分析师,运维工程师

参与方式:加入51CTO开发者QQ交流群 370892523 ,有任何技术问题,在群里提问,或发给群主小官。

活动详情:


南京-史国俊-Java:有没有Spark学习的相关资料?

徐韬:建议学习Spark官方文档,其他的Spark书籍可能会跟不上Spark技术的更新。

北京-robingao –Java:用Spark做离线分析,Nginx 日志一般从那些维度怎么分析,具体都看什么维度?

徐韬:建议离线分析用Hive + map/reduce 比Spark 更稳定。nginx日志一般用作流量监控,运维报警,有很强的时效性,可以使用Spark-Streaming。指标:在线人数,用户访问数量,流量使用情况,接口错误情况,慢查询数量,服务器状态。维度:按站点,按模块拆分。还可以做一些轻量级的用户行为分析,如用户访问路径。

北京-robingao –Java:有做客户画像方面的分享吗?具体点的。

徐韬:用户画像就是给用户“打标签”。用户画像可以分为静态标签,动态标签。静态标签是很少更新的指标或者是几乎不变的指标,比如用户的个人信息。动态标签是用户的行为标签,比如直播站的喜好类目。通过用户行为日志和交易流水数据打上的标签 ,一些网站/APP 只有少量的用户个人信息,但是通过打点可以获得海量的用户行为日志,我们可以通过聚类分析预测用户的性别,年龄段,所在城市类型,工作类型等。直播站的一些比较有特点标签有:喜爱主播,习惯上线时段,签到型用户等等。

南京-史国俊-Java:假如要同时向Spark集群提交多条SQL,能否不采用Spark-submit方式来实现?

徐韬:建议在Spark-SQL客户端里提交。

重庆-小包-Android:流媒体方面的,想了解下Android方面有关于流媒体的案例,比如视频语音流这类的?

徐韬:这个题目太大了,和直播相关的案例有直播回放,连麦,H5直播播放器。

广州-赵辉-大数据:大数据的多源数据融合的价值?

王劲:如果大数据不做跨界多源融合,数据的价值很有限,也体现不出大数据的真正核心价值。其中在金融,电商,保险等行业会更能体现多源数据融合的价值。

珠海-小源-Java:51CTO有没有做大数据相关的专题?

51CTO:有的,可以订阅大数据期刊,订阅的方法:在家园里面,个人主页——我的订阅这里。例如:大数据新动向一切尽在大数据大数据世界之旅高端访谈小团队如何玩转大数据

珠海-小源-Java:安全相关的专题有提供吗?

51CTO:安全专题例如:HPE安全——“功夫熊猫”背后的数据保镖聚焦美网络瘫痪事件,物联网安全发人深省2016国家网络安全宣传周专题报道第十一届(ISC)2亚太信息安全峰会专题报道避免勒索软件攻击 仍需预防为上

北京-杨凯-网络工程师:想了解云计算方面的知识

51CTO:可以参考这篇来学习re:Invent 2016----AWS的五大云计算超能力

南京-小胖- Android:云计算与大数据之间的关系

51CTO: 云计算的特点:通过对计算、网络和存储资源的动态调度及应用的快速部署,通过虚拟技术提高信息化设备的利用率,实现节约资源、提高效率、集中管理、信息共享和节约财政支出等目的。云计算平台主要部署各类应用系统、存储海量数据,为电子政务、社会管理、公众服务等提供服务。大数据的特点:通过Hadoop等分布式计算架构,通过ETL等工具,从云计算平台中抽取海量数据,根据设定的目标进行跨部门、跨行业等大数据分析、建模及验证等工作。大数据分析的结果通过云计算平台进行发布,并给相关单位提供服务、为领导决策提供支撑。

您对这些解答方案是否仍有疑问?欢迎加51CTO开发者QQ交流群 370892523 讨论。

下期活动预告:12月26日

关键词:移动  android 物联网  前端


以上是关于挨踢部落第一期:Spark离线分析维度的主要内容,如果未能解决你的问题,请参考以下文章

挨踢部落坐诊第三期:Python在大数据处理上的优势分析

挨踢部落坐诊第六期:机器学习如何判断突发情况?

通过hadoop + hive搭建离线式的分析系统之快速搭建一览

挨踢部落故事汇:女程序媛的开发梦

挨踢部落之机缘所致 开发之路

基于Python Spark的大数据分析_pyspark实战项目课程