阿里P8专家分享,大数据架构商业之路:从业务需求到技术方案PDF
Posted king哥Java架构
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了阿里P8专家分享,大数据架构商业之路:从业务需求到技术方案PDF相关的知识,希望对你有一定的参考价值。
前言
本文通过讲述一个虚拟的(如有雷同纯属巧合)互联网020创业故事,逐步展开介绍各个阶段可能遇到的大数据课题、业务需求,以及相对应的技术方案,甚至是实践解析。让读者身临其境,一起来探寻大数据的奥秘。对于想进一步深入研究技术实现细节的读者,也给出了继续阅读的方向和指导性建议。
主要内容
为了达到深入浅出、通俗易懂的效果,本文的第一大部分概述了大数据的主要技术,包括大数据的获取、存储、处理,还有架构设计的基本理念,以及常用的消息和缓存机制。这一部分你会发现关于Nutch、Flume 、Hadoop、 HBase、Redis、 Hive、 Kafka、 Spark 、Storm等的简介。对于数据处理的高级技术,本文着墨不少,但不乏对于信息检索和数据挖掘课题的探讨。例如站内搜索引擎、推荐系统、广告系统、聚类、分类和线性回归等。
由于商业需求尤其看重实际产出,因此第一部分的最后还会分析常见的效果和性能评估。相信这部分对于构建读者的大数据知识体系会很有帮助。在每一章的最后,我们还会给出重要的参考图书,以便于读者继续深入学习。
第二大部分的每个章节都是从业务需求的描述入手,然后进行需求分析,根据需求的特点,对第一大部分所涉 及的备选技术进行筛选,最后是技术方案和架构的确定。不同的商业需求可能会使用类似的技术点。但是具体使用方式不会雷同,根据不同的数据集合、不同的应用场景和不同的进阶难度,我们为读者提供了反复温习和加深印象的机会。
数据收集
本章首先介绍在互联网获取数据的强大工具一网络爬虫,包括它的工作原理、操作流程、主要类型和相应的开源工具。然后介绍企业内部获取数据的主要思路、流程和相应的开源工具。
数据存储
本章描述了如何获取企业内外的数据。当时,大宝提出了一一个很好的问题:如今的互联网和公司内部每时每刻都在产生大量的信息,面对与日俱增的海量数据,我们应该如何存放它们呢?本章将带领大家一探究竟。
数据处理
本章即将探讨的处理,集中在用户如何利用现有的数据进行查询和分析,最终达到商业目标。因此,它是狭义的,针对的是应用级别的处理。正是因为如此,所以这个课题涉及的内容比之前会更为深入一些。
信息检索
本章将先介绍一下信息检索的- -些基本理念和技术,以及相应的系统框架,最后探讨三个重要的子领域,包括搜索引擎、推荐系统和在线广告,其中介绍的开源系统包括Lucene、Solr、 Elasticsearch 和Mahout,也可以让大家自己动手,尝试DIY搭建最简单的系统。
数据挖掘
本章首先介绍数据挖掘的一些基本理念,阐述数据的表示和预处理的过程,然后介绍最为重要的机器学习算法和相应的系统框架,最后探讨几个常用的相关工具。
效能评估
效能,在百度百科上最基本的解释是达到系统目标的程度,或者是系统期望达到一组具体任务要求的程度。在这里,将介绍它的另外一层含义:效能=效果+性能。效果,就是指对于我们的任务而言,相关度、准确度等最终能有多大程度的满足,这和具体的数据处理应用是紧密关联在一起的。例如,可能信息检索里的效果评估和数据挖掘里的就有所不同。而性能,就是指系统对用户请求的时间、速度等有多大程度的满足,一般都是系统级指标,对于不同的应用领域来说都是通用的。
大数据技术全景
商品太多啦!需要搜索引擎
由于其提供了线上线下无缝结合的社区商业模式,因此公司业务发展得相当顺利,陆续接人了几个大型社区和商圈周边的服务行业。整个线上系统的商品相当丰富,涵盖了衣食住行多个方面。然而,随着用户和订单的逐步增多,人们的抱怨也开始不断增多。看着客服部的数据反馈,合伙人开始寻找问题的根源,于是指派负责运营的小丽进行大规模的客户和市场调研。
能否更主动?还需要推荐引擎
在大宝及其团队的不懈努力下,第一版的搜索功能很快上线。由于搜索功能使用便捷,用户的反响非常热烈,流量的转化率也有了明显的提升。业绩上了一个台阶,公司的合伙人稍稍松了口气。不过,大宝清晰地记得小丽曾说过,排在前两位的都是和技术相关的痛点,他很想知道第二个问题具体是什么。于是,他主动找到了小丽。
这样做的效果如何
方案确定后,大宝团队的执行力是- - 流的,第一版的推荐系统很快就上线了,形成了分布在首页、用户中心、商品详情页、购物车结算等页面的多个栏位。由于连续攻克了搜索、推荐两大核心模块,管理层还特意为开发团队颁发了公司最高级别的荣誉:“总裁特别奖”。一时间,大宝的技术部门风光无限。这天,小丽找到了大宝,大宝很是得意,自以为小丽是来表示感谢的。没想到,小丽此行的真正目的不在于此。
这个搜索有点逊
随着技术系统的日臻完善,公司的业务发展非常迅速。不过,用户行为的跟踪系统显示,老顾客的回头率相比行业还是低了一截,这对于公司长期稳定的发展是非常不利的。此外,随着线下合作商户的急剧增多,有少数不良的商家为了私利,也开始利用各种违规手段来干扰正常业务的健康发展,对公司的口碑和形象造成了一定的负面影响。这些都给市场和运营部门造成了巨大的压力。为此,小丽再次找到大宝,希望他的团队能尽快提出并实现相关的技术方案,协助公司共度难关。
支持更高效的运营
因为这份文档包含的内容实在是太多了 ,不能够很详细地给大家展示出来全部的内容。需要完整版文档的小伙伴,可以看向下面来获取!
需要完整版文档的小伙伴,可以一键三连,下方获取免费领取方式!
以上是关于阿里P8专家分享,大数据架构商业之路:从业务需求到技术方案PDF的主要内容,如果未能解决你的问题,请参考以下文章
阿里P8架构师谈:java程序员到架构师,需突破的7大必备技能!