介绍一些平时用得到的服务/组件
Posted 小白的成功进阶之路
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了介绍一些平时用得到的服务/组件相关的知识,希望对你有一定的参考价值。
介绍一些平时用得到的服务/组件
组件名 | 属性标签 | 特性 | 使用场景 |
---|---|---|---|
mysql | 关系型数据库,行式存储,支持sql | 轻量级数据分析,存储 | hive的元数据,kettle的资源库,web 应用后台库 |
Oracle | 关系型数据库,行式存储,支持sql | 中量级数据分析,存储 。可分布式 | BI(商业智能) |
ES | 分布式全文搜索引擎 | ES自动可以将海量数据分散到多台服务器上去存储和检索,支持海量数据进行近实时的全文检索(like “%ABC%”)和结构化检索(= “ABC” ) | 站内搜索(电商,招聘,门户等),IT系统(OA,CRM,ERP);维基百科,GitHub |
redis | 高性能的key-value数据库 | 读写性能极高,丰富的数据类型 | 结合storm的实时查询分析,java高并发秒杀 |
memcache | 基于内存 | 分布式的高速缓存系统,对于一些大型的、需要频繁访问数据库的网站访问速度提升效果十分显著。 | 单点登录页面跳转的时候,解决重复性登录的问题。 |
Kafka | 高吞吐量、低延迟:kafka每秒可以处理几十万条消息; 可扩展性:kafka集群支持热扩展; 持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失; 容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败); 高并发:支持数千个客户端同时读写 | 一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统; 它的最大的特性就是可以实时的处理大量数据以满足各种需求场景; 比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等; 用scala语言编写 | 日志收集:可以用Kafka可以收集各种服务的log; 消息系统:解耦和生产者和消费者、缓存消息等; 用户活动跟踪:Kafka经常被用来记录web用户或者app用户的各种活动,如浏览网页、搜索、点击等; 运营指标:Kafka也经常用来记录运营监控数据; 流式处理:比如spark streaming和storm |
ETL工具 | |||
Kettle | ETL工具 | 本地开发,通过资源库同步在服务器执行 | 常用ETL工具之一 |
Sqoop | ETL工具 | 常规etl工具,可集群部署 | mysql与hadoop数据迁移等 |
调度工具 | |||
azkaban | 调度工具 | 处理有依赖关系的复杂任务调度,只支持mysql存储基本信息 | 常用调度工具之一 |
crontab | linux自带调度工具 | 简单任务调度 | 适用日常少量调度 |
以上是关于介绍一些平时用得到的服务/组件的主要内容,如果未能解决你的问题,请参考以下文章