为啥说大众点评是大数据网站
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了为啥说大众点评是大数据网站相关的知识,希望对你有一定的参考价值。
数据是什么?你的所作所为的一切记录都可以是数据。QQ聊天内容、微博、淘宝搜索商品、购买、在大众点评上对商户的评价……都是数据。在过去十几年发展中,BAT都积累了海量的数据。百度积累了用户搜索行为,这种数据涵盖了医疗、旅行等生活的方方面面;阿里巴巴则积累了跟用户购买行为相关的数据,从决策到购买,以及购买的商品,腾讯则积累了用户沟通的信息。
有了基础数据,再采用科学的分析和处理,才能产生用户端的价值。如果没有合用的数据,那就是“巧妇难为无米之炊”,也就不能称为名副其实的数据网站,就像你空有一本武功秘籍,自己却不会半招一式,同样不能称为武林高手。
大众点评在本地O2O行业经过十余年耕耘,已经积累了超过4200万条评价信息,超过1000万个商户信息,此外还用户1.8亿的移动数据,已经完善会员体系。这是大众点评成为数据网站的基础,也是一个重要的里程碑。此外,大众点评还积累了海量交易、用户浏览等数据。
大众点评网站上的内容(即数据)都是通过UGC产生的,从第一个用户上传第一家商户开始,数据就开始产生,目前每个月产生的内容高达百万级。首先是商家的基础信息展示,然后越来越多的用户进行点评,在这个过程中,平台积累了商家和用户两方面的数据。
一个是关于商家地址、菜品、环境、服务等方面的数据,一个是用户的消费习惯等,并且在用户点评过程中,也有一个对商家数据不断调整、完善的机制。
当大众点评开始涉及交易业务时,数据更加丰富。目前,在大众点评的大数据结构中,用户的行为日志数据量占总数据量的大部分,剩下的就是交易数据。
海量的用户点评信息背后包括着用户对饮食的喜好、活动地理位置甚至背后的交易信息,而且数据在源源不断产生中,这满足了社会化分工产生数据的基本需求。
大众点评目前目前推出的应用分为两类:一类是商户通、推广通,这些是收费产品;另一类,比如大众点评指数,为消费者提供决策;还有餐饮行业风向标,提供行业发展参考;同时在业务方面可以为用户提供个性化推荐;点评管家则可以帮助商家分析经营行为、用户特点等。同时,大众点评也在做开放平台,即将数据向第三方开放,他们在此基础上进行二次开发,走向开放是大数据应用的趋势。
此前不久,大众点评技术部门进行了一次有趣的尝试,从海量用户点评信息中提炼出跟星座消费特征相关的信息,在网上发布信息之后得到了诸多粉丝的响应。这种娱乐化的数据尝试只是个开始,之后还可以做更多更深入的数据探索。
此前一次专访中,张涛曾经提到,根据对一个地区用户点评信息的分析,结合用户点击流量,可以得到很多信息。比如在某个城市,哪个菜系比较受欢迎,哪些项目比较受到关注。而大众点评可以通过大数据分析出一个区域,甚至具化到一个商圈的发展水平和阶段。
月度百万UGC内容产生只是大众点评数据的一个里程碑,随着之后用户数据的丰富,结合用户搜索、交易等数据,大众点评可以为用户提供越来越智能的产品。
具体到产品上就是,一个热爱吃牛排的人,当他在搜索附近美食的时候,提供牛排的商户会排到优先的位置。这个只是简单应用,随着数据的丰富,大众点评可以直接给你建议,附件哪个商户的六分熟的菲力牛排最符合你的口味。这些信息对用户来说才更为智能和贴心。
当然,整个大数据应用的神秘面纱才被掀开一点,更多在概念和想法阶段,之后还有很长的路需要走。 参考技术A 大众点评在本地o2o行业经过十余年耕耘,已经积累了超过4200万条评价信息,超过1000万个商户信息,此外还用户1.8亿的移动数据,已经完善会员体系。这是大众点评成为数据网站的基础,也是一个重要的里程碑。此外,大众点评还积累了海量交易、用户浏览等数据。
大众点评网站上的内容(即数据)都是通过ugc产生的,从第一个用户上传第一家商户开始,数据就开始产生,目前每个月产生的内容高达百万级。首先是商家的基础信息展示,然后越来越多的用户进行点评,在这个过程中,平台积累了商家和用户两方面的数据。
一个是关于商家地址、菜品、环境、服务等方面的数据,一个是用户的消费习惯等,并且在用户点评过程中,也有一个对商家数据不断调整、完善的机制。
当大众点评开始涉及交易业务时,数据更加丰富。目前,在大众点评的大数据结构中,用户的行为日志数据量占总数据量的大部分,剩下的就是交易数据。
海量的用户点评信息背后包括着用户对饮食的喜好、活动地理位置甚至背后的交易信息,而且数据在源源不断产生中,这满足了社会化分工产生数据的基本需求。
大众点评目前目前推出的应用分为两类:一类是商户通、推广通,这些是收费产品;另一类,比如大众点评指数,为消费者提供决策;还有餐饮行业风向标,提供行业发展参考;同时在业务方面可以为用户提供个性化推荐;点评管家则可以帮助商家分析经营行为、用户特点等。同时,大众点评也在做开放平台,即将数据向第三方开放,他们在此基础上进行二次开发,走向开放是大数据应用的趋势。
此前不久,大众点评技术部门进行了一次有趣的尝试,从海量用户点评信息中提炼出跟星座消费特征相关的信息,在网上发布信息之后得到了诸多粉丝的响应。这种娱乐化的数据尝试只是个开始,之后还可以做更多更深入的数据探索。
根据对一个地区用户点评信息的分析,结合用户点击流量,可以得到很多信息。比如在某个城市,哪个菜系比较受欢迎,哪些项目比较受到关注。而大众点评可以通过大数据分析出一个区域,甚至具化到一个商圈的发展水平和阶段。
月度百万ugc内容产生只是大众点评数据的一个里程碑,随着之后用户数据的丰富,结合用户搜索、交易等数据,大众点评可以为用户提供越来越智能的产品。
具体到产品上就是,一个热爱吃牛排的人,当他在搜索附近美食的时候,提供牛排的商户会排到优先的位置。这个只是简单应用,随着数据的丰富,大众点评可以直接给你建议,附件哪个商户的六分熟的菲力牛排最符合你的口味。这些信息对用户来说才更为智能和贴心。
当然,整个大数据应用的神秘面纱才被掀开一点,更多在概念和想法阶段,之后还有很长的路需要走。 参考技术B 大众点评在O2O行业10多年了,已经积累了超过4200万条评价信息,超过1000万个商户信息,此外还用户1.8亿的移动数据,已经完善会员体系。这是大众点评成为大数据网站的基础,也是一个重要的里程碑。此外,大众点评还积累了海量交易、用户浏览等数据,这些都具有使用和研究的价值。 参考技术C 众点评在本地O2O行业经过十余年耕耘,已经积累了超过4200万条评价信息,超过1000万个商户信息,此外还用户1.8亿的移动数据,已经完善会员体系。这是大众点评成为数据网站的基础,也是一个重要的里程碑。此外,大众点评还积累了海量交易、用户浏览等数据。
大众点评网站上的内容(即数据)都是通过UGC产生的,从第一个用户上传第一家商户开始,数据就开始产生,目前每个月产生的内容高达百万级。首先是商家的基础信息展示,然后越来越多的用户进行点评,在这个过程中,平台积累了商家和用户两方面的数据。 参考技术D 大众点评的大数据实践
《程序员》杂志2013年10月刊技术架构大众点评大数据集群分布式计算云计算Hadoop
摘要:大众点评网从2011年中开始使用Hadoop,并专门建立团队。Hadoop主分析集群共有60多个节点、700TB的容量,月运行30多万个Hadoop Job,还有2个HBase线上集群。作者将讲述这各个阶段的技术选择及改进之路。
2011年小规模试水
这一阶段的主要工作是建立了一个小的集群,并导入了少量用户进行测试。为了满足用户的需求,我们还调研了任务调度系统和数据交换系统。
我们使用的版本是当时最新的稳定版,Hadoop 0.20.203和Hive 0.7.1。此后经历过多次升级与Bugfix。现在使用的是Hadoop 1.0.3+自有Patch与Hive 0.9+自有Patch。考虑到人手不足及自己的Patch不多等问题,我们采取的策略是,以Apache的稳定版本为基础,尽量将自己的修改提交到社区,并且应用这些还没有被接受的 Patch。因为现在Hadoop生态圈中还没有出现一个类似Red Hat地位的公司,我们也不希望被锁定在某个特定的发行版上,更重要的是Apache Jira与Maillist依然是获取Hadoop相关知识、解决Hadoop相关问题最好的地方(Cloudera为CDH建立了私有的Jira,但人气不足),所以没有采用Cloudera或者Hortonworks的发行版。目前我们正对Hadoop 2.1.0进行测试。
在前期,我们团队的主要工作是ops+solution,现在DBA已接手了很大一部分ops的工作,我们正在转向solution+dev的工作。
我们使用Puppet管理整个集群,用Ganglia和Zabbix做监控与报警。
集群搭建好,用户便开始使用,面临的第一个问题是需要任务级别的调度、报警和工作流服务。当用户的任务出现异常或其他情况时,需要以邮件或者短信的方式通知用户。而且用户的任务间可能有复杂的依赖关系,需要工作流系统来描述任务间的依赖关系。我们首先将目光投向开源项目Apache Oozie。Oozie是Apache开发的工作流引擎,以XML的方式描述任务及任务间的依赖,功能强大。但在测试后,发现Oozie并不是一个很好的选择。
Oozie采用XML作为任务的配置,特别是对于MapReduce Job,需要在XML里配置Map、Reduce类、输入输出路径、Distributed Cache和各种参数。在运行时,先由Oozie提交一个Map only的Job,在这个Job的Map里,再拼装用户的Job,通过JobClient提交给JobTracker。相对于Java编写的Job Runner,这种XML的方式缺乏灵活性,而且难以调试和维 护。先提交一个Job,再由这个Job提交真正Job的设计,我个人认为相当不优雅。
另一个问题在于,公司内的很多用户,希望调度系统不仅可以调度Hadoop任务,也可以调度单机任务,甚至Spring容器里的任务,而Oozie并不支持Hadoop集群之外的任务。
所以我们转而自行开发调度系统Taurus(https://github.com/dianping/taurus)。Taurus是一个调度系统, 通过时间依赖与任务依赖,触发任务的执行,并通过任务间的依赖管理将任务组织成工作流;支持Hadoop/Hive Job、Spring容器里的任务及一般性任务的调度/监控。
来源:网络
以上是关于为啥说大众点评是大数据网站的主要内容,如果未能解决你的问题,请参考以下文章