金融需要 hadoop，spark 等这些大数据分析工具吗？使用场景是怎样的

Posted 2023-05-05

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了金融需要 hadoop，spark 等这些大数据分析工具吗？使用场景是怎样的相关的知识，希望对你有一定的参考价值。

参考技术A 看看用亿信ABI做的相关案例
银行大数据应用
国内不少银行已经开始尝试通过大数据来驱动业务运营，如中信银行信用卡中心使用大数据技术实现了实时营销，光大银行建立了社交网络信息数据库，招商银行则利用大数据发展小微贷款。总的来看银行大数据应用可以分为四大方面：
1、客户画像
客户画像应用主要分为个人客户画像和企业客户画像。个人客户画像包括人口统计学特征、消费能力数据、兴趣数据、风险偏好等；企业客户画像包括企业的生产、流通、运营、财务、销售和客户数据、相关产业链上下游等数据。值得注意的是，银行拥有的客户信息并不全面，基于银行自身拥有的数据有时候难以得出理想的结果甚至可能得出错误的结论。比如，如果某位信用卡客户月均刷卡8次，平均每次刷卡金额800元，平均每年打4次客服电话，从未有过投诉，按照传统的数据分析，该客户是一位满意度较高流失风险较低的客户。但如果看到该客户的微博，得到的真实情况是：工资卡和信用卡不在同一家银行，还款不方便，好几次打客服电话没接通，客户多次在微博上抱怨，该客户流失风险较高。所以银行不仅仅要考虑银行自身业务所采集到的数据，更应考虑整合外部更多的数据，以扩展对客户的了解。包括：
（1）客户在社交媒体上的行为数据（如光大银行建立了社交网络信息数据库）。通过打通银行内部数据和外部社会化的数据可以获得更为完整的客户拼图，从而进行更为精准的营销和管理；
（2）客户在电商网站的交易数据，如建设银行则将自己的电子商务平台和信贷业务结合起来，阿里金融为阿里巴巴用户提供无抵押贷款，用户只需要凭借过去的信用即可；
（3）企业客户的产业链上下游数据。如果银行掌握了企业所在的产业链上下游的数据，可以更好掌握企业的外部环境发展情况，从而可以预测企业未来的状况；
（4）其他有利于扩展银行对客户兴趣爱好的数据，如网络广告界目前正在兴起的DMP数据平台的互联网用户行为数据。
2、精准营销
在客户画像的基础上银行可以有效的开展精准营销，包括：
（1）实时营销。实时营销是根据客户的实时状态来进行营销，比如客户当时的所在地、客户最近一次消费等信息来有针对地进行营销（某客户采用信用卡采购孕妇用品，可以通过建模推测怀孕的概率并推荐孕妇类喜欢的业务）；或者将改变生活状态的事件（换工作、改变婚姻状况、置居等）视为营销机会；
（2）交叉营销。即不同业务或产品的交叉推荐，如招商银行可以根据客户交易记录分析，有效地识别小微企业客户，然后用远程银行来实施交叉销售；
（3）个性化推荐。银行可以根据客户的喜欢进行服务或者银行产品的个性化推荐，如根据客户的年龄、资产规模、理财偏好等，对客户群进行精准定位，分析出其潜在金融服务需求，进而有针对性的营销推广；
（4）客户生命周期管理。客户生命周期管理包括新客户获取、客户防流失和客户赢回等。如招商银行通过构建客户流失预警模型，对流失率等级前20%的客户发售高收益理财产品予以挽留，使得金卡和金葵花卡客户流失率分别降低了15个和7个百分点。
3、风险管理与风险控制
在风险管理和控制方面包括中小企业贷款风险评估和欺诈交易识别等手段
（1）中小企业贷款风险评估。银行可通过企业的产、流通、销售、财务等相关信息结合大数据挖掘方法进行贷款风险分析，量化企业的信用额度，更有效的开展中小企业贷款。
（2）实时欺诈交易识别和反洗钱分析。银行可以利用持卡人基本信息、卡基本信息、交易历史、客户历史行为模式、正在发生行为模式（如转账）等，结合智能规则引擎（如从一个不经常出现的国家为一个特有用户转账或从一个不熟悉的位置进行在线交易）进行实时的交易反欺诈分析。如IBM金融犯罪管理解决方案帮助银行利用大数据有效地预防与管理金融犯罪，摩根大通银行则利用大数据技术追踪盗取客户账号或侵入自动柜员机(ATM)系统的罪犯。
4、运营优化
（1）市场和渠道分析优化。通过大数据，银行可以监控不同市场推广渠道尤其是网络渠道推广的质量，从而进行合作渠道的调整和优化。同时，也可以分析哪些渠道更适合推广哪类银行产品或者服务，从而进行渠道推广策略的优化。
（2）产品和服务优化：银行可以将客户行为转化为信息流，并从中分析客户的个性特征和风险偏好，更深层次地理解客户的习惯，智能化分析和预测客户需求，从而进行产品创新和服务优化。如兴业银行目前对大数据进行初步分析，通过对还款数据挖掘比较区分优质客户，根据客户还款数额的差别，提供差异化的金融产品和服务方式。
（3）舆情分析：银行可以通过爬虫技术，抓取社区、论坛和微博上关于银行以及银行产品和服务的相关信息，并通过自然语言处理技术进行正负面判断，尤其是及时掌握银行以及银行产品和服务的负面信息，及时发现和处理问题；对于正面信息，可以加以总结并继续强化。同时，银行也可以抓取同行业的银行正负面信息，及时了解同行做的好的方面，以作为自身业务优化的借鉴。本回答被提问者采纳参考技术B 各行各业都是需要的，
比如行业基本面分析和量化分析。

如何低成本高效率搭建Hadoop/Spark大数据处理平台

原文链接

随着人们逐渐认识到 “大数据”的价值，互联网、电商到金融业、政企等各行业开始处理海量数据。如何低成本、敏捷高效地搭建大数据处理平台，成为影响大数据创新效率的关键。

为了让用户以最简便地方式享用阿里云全球资源，在云端构建敏捷弹性、高可靠和高性价比的大数据平台，近日，阿里云在成都云栖大会上发布了一款Hadoop/Spark场景专用的ECS存储优化型实例D1规格族，单实例提供最高56核CPU，224GB内存，168TB本地盘容量，5GB/S总吞吐，PPS达120万+。这对Hadoop/Spark技术爱好者来说是个非常大的福音，用户可以轻松在D1上搭建大数据存储与计算分析平台，尤其是互联网、金融、电商、政企等对大数据需求旺盛的行业。
据悉，在云端建设大数据平台的建设周期仅需“数分钟”，比传统模式下缩短95%以上；项目建设成本从一次性重资产投入，变为轻资产分期使用，初期建设成本降低80%以上。
不妨一起来看看，相比传统的Hadoop/Spark场景解决方案，D1都有哪些优势：

?按需部署和弹性灵活

传统大数据平台有几个通病：建设周期过长，扩容不便，因此一般都会适当放大大数据建设规模，造成早期资源闲置浪费，也埋下了后期资源不足的隐患，影响业务发展。云计算很早就解决了弹性建设的问题，我们可以按需进行大数据平台建设，并伴随业务的增长而快速弹性伸缩，企业可以做到按需支付成本。
此外，Hadoop/Spark大数据生态系统中组件众多，每种组件对硬件资源的要求不同，而传统大数据平台建设中，往往很难兼顾资源需求上的差异。D1和其他独享型规格族提供了不同的配置，可以为每个Hadoop/Spark组件节点“量体裁衣”来选择实例，最大限度避免资源浪费。

当遇到临时性突发的大数据分析需求时，借助阿里云大数据平台的规模和分析能力，可以快速获得需要的结果，当任务完成后，又能立即释放资源，节省成本。

?性价比

阿里云D1实例采用独享计算架构+本地存储设计，CPU的计算性能在实例间是独享的，这种设计能有效保障大数据计算能力的稳定性。配备高性能企业级6TB SATA硬盘，D1单实例的存储吞吐能力可以达到最大5GB/s，有效缩短HDFS文件读取和写入时间。基于阿里云SDN和网络加速技术，D1在10GE组网环境下，最大可提供20Gbps网络带宽，可满足大数据分析节点间数据交互需求，例如MapReduce计算框架下Shuffle过程等，缩短分析任务整体运行时间。
最重要的一点是，阿里云在D1上做了非常大的交付创新，支持包月、包年的预付费支付模式，同时也支持按小时付费的使用模型，真正做到即开即用，按量付费，没有运维，钱不浪费，云本身的弹性优势就很明显，加上业务上的优化，确实加分不少。

?可靠性

这次云栖大会，阿里云还推出了一个ECS独有的部署集（Deployment Set）机制，可以保证用户采用D1实例构建大数据平台时，在任何规模下都可以充分将实例按业务可靠性要求，在阿里云数据中心中，进行机架、交换机、可用区等级别容灾保护。同时，还可以充分享用阿里云全球高效、稳定的机房和网络基础设施，大大降低客户建设复杂度和成本。这在传统模式下是很难做到，既能做到全局的安全性又能做到局部的弹性伸缩，或许，这就是云的终极形态吧。
总之还是非常推荐这款D1实例的，中大型企业对大数据处理平台的稳定性、性价比、部署周期都有比较强的要求的可以考虑一下。

原文链接

以上是关于金融需要 hadoop，spark 等这些大数据分析工具吗？使用场景是怎样的的主要内容，如果未能解决你的问题，请参考以下文章

如何低成本高效率搭建Hadoop/Spark大数据处理平台

7种最常见的Hadoop和Spark项目

常见的七种Hadoop和Spark项目案例

Spark应用开发之一：Hadoop分析大数据

技术分享|大数据初探之Spark内存管理与调优

Ubuntu下搭建单机Hadoop和Spark集群环境