统一观测丨使用 Prometheus 监控 E-MapReduce，我们该关注哪些指标？

Posted 2023-03-07 阿里云云栖号

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了统一观测丨使用 Prometheus 监控 E-MapReduce，我们该关注哪些指标？相关的知识，希望对你有一定的参考价值。

开源大数据平台E-MapReduce（简称“EMR”）是云原生开源大数据平台，向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎。本文旨在分享阿里云Prometheus对EMR平台大数据服务的监控实践。

EMR 简介

开源大数据开发平台E-MapReduce（简称“EMR”）作为大数据处理的系统解决方案被越来越多的企业所接受。而阿里云EMR构建于云服务器ECS上，基于开源的Apache Hadoop和Apache Spark可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据，还可以与阿里云OSS和RDS等云数据存储系统和数据库系统进行数据传输，让企业可以快速搭建Hadoop、Spark、Flink、Kafka和HBase等开源大数据服务。

我们可以看到，E-MapReduce的核心是集群。E-MapReduce集群是由一个或多个ECS实例组成的Hadoop、Flink、Druid、ZooKeeper集群。以Hadoop为例，每个ECS 实例上通常都运行了一些daemon进程（例如，NameNode、DataNode、ResouceManager和NodeManager），这些daemon进程共同组成了Hadoop集群。在众多大数据组件背后，是海量需要被观测的指标，这就给运维工程师、SRE工程师带来了巨大的挑战。那么，构建E-MapReduce之后，我们针对不同组件，应该关注哪些指标呢？

E-MapReduce 观测指标解读

Metric指标采集

E-MapReduce指标观测主要包括HOST监控、HDFS 、YARN、Hive、Kafka、Zookeeper、ClickHouse和Flink等，那么接下来我们将进行逐一解读。

HOST指标[1]

提供ECS节点CPU、内存、磁盘、load、网络、socket等监控指标。

HDFS指标[2]

HDFS（Hadoop Distributed File System）是一种Hadoop分布式文件系统，适用于大规模数据的分布式读写，特别是读多写少的场景。HDFS指标包括HOME、NameNodes、DataNodes和JournanlNodes指标。

HDFS-HOME
HDFS-NameNodes
HDFS-DataNodes
HDFS-JournanlNodes

YARN指标[3]

YARN是Hadoop系统的核心组件，主要功能包括负责Hadoop集群的资源管理，对作业进行调度运行以及监控。YARN指标包括HOME、Queue、ResourceManager、NodeManager、TimeLineServer和JobHistory。

YARN-HOME
YARN-Queues
YARN-ResourceManager
YARN-NodeManagers
YARN-TimeLineServer
YARN-JobHistory

Hive指标[4]

Hive是一个基于Hadoop的数据仓库框架，在大数据业务场景中，主要用来进行数据提取、转化和加载（ETL）以及元数据管理。Hive由HiveServer2(HiveQL查询服务器)、Hive MetaStore(元数据管理模块)和Hive Client构成，其指标包括HiveMetaStore和HiveServer2。

HiveMetaStore

指标	描述
hive_memory_heap_max	JVM最大可用堆内存，单位：Byte。
hive_memory_heap_used	JVM已使用堆内存，单位：Byte。
hive_memory_non_heap_used	JVM已使用堆外内存量，单位：Byte。
hive_active_calls_api_alter_table	当前活跃的alter table请求数。
hive_active_calls_api_create_table	当前活跃的create table请求数。
hive_active_calls_api_drop_table	当前活跃的drop table请求数。
hive_api_alter_table	alter table请求平均时间，单位：ms。
hive_api_alter_table_with_environment_context	alter table with env context请求平均时间，单位：ms。
hive_api_create_table	create table请求平均时间，单位：ms。
hive_api_create_table_with_environment_context	create table with env context请求平均时间，单位：ms。
api_drop_table	drop table请求平均时间，单位：ms。
hive_api_drop_table_with_environment_context	drop table with env context请求平均时间，单位：ms。
hive_api_get_all_databases	get all databases请求平均时间，单位：ms。
hive_api_get_all_functions	get all functions请求平均时间，单位：ms。
hive_api_get_database	get database请求平均时间，单位：ms。
hive_api_get_databases	get databases请求平均时间，单位：ms。
hive_api_get_multi_table	get multi table请求平均时间，单位：ms。
hive_api_get_tables_by_type	get table请求平均时间，单位：ms。
hive_api_get_table_objects_by_name_req	get table objects by name请求平均时间，单位：ms。
hive_api_get_table_req	get table req请求平均时间，单位：ms。
hive_api_get_table_statistics_req	get table statistics请求平均时间，单位：ms。
hive_api_get_tables	get tables请求平均时间，单位：ms。
hive_api_get_tables_by_type	get tables by type请求平均时间，单位：ms。

HiveServer2

指标	描述
hive_metrics_hs2_active_sessions	当前活跃的session个数。
hive_metrics_memory_total_init	JVM初始化总内存，单位：Byte。
hive_metrics_memory_total_committed	JVM已预留总内存，单位：Byte。
hive_metrics_memory_total_max	JVM最大可用总内存，单位：Byte。
hive_metrics_memory_heap_committed	JVM已预留堆内存，单位：Byte。
hive_metrics_memory_heap_inithive_metrics_memory_heap_committed	JVM初始化堆内存，单位：Byte。
hive_metrics_memory_non_heap_committed	JVM已预留堆外内存，单位：Byte。
hive_metrics_memory_non_heap_init	JVM初始化堆外内存，单位：Byte。
hive_metrics_memory_non_heap_max	JVM最大可用堆外内存，单位：Byte。
hive_metrics_gc_PS_MarkSweep_count	JVM PS MarkSweep GC次数。
hive_metrics_gc_PS_MarkSweep_time	JVM PS MarkSweep GC时间，单位：ms。
hive_metrics_gc_PS_Scavenge_time	JVM PS Scavenge GC时间，单位：ms。
hive_metrics_threads_daemon_count	JVM daemon线程数。
hive_metrics_threads_count	JVM线程数。
hive_metrics_threads_blocked_count	JVM blocked线程数。
hive_metrics_threads_deadlock_count	JVM deadlock线程数。
hive_metrics_threads_new_count	JVM new状态线程数。
hive_metrics_threads_runnable_count	JVM runnable线程数。
hive_metrics_threads_terminated_count	JVM terminated线程数。
hive_metrics_threads_waiting_count	JVM waiting线程数。
hive_metrics_threads_timed_waiting_count	JVM timed_waiting线程数。
hive_metrics_memory_heap_max	JVM最大可用堆内存，单位：Byte。
hive_metrics_memory_heap_used	JVM已使用堆内存，单位：Byte。
hive_metrics_memory_non_heap_used	JVM已使用堆外内存量，单位：Byte。
hive_metrics_hs2_open_sessions	当前打开的session数。
hive_metrics_hive_mapred_tasks	提交的Hive on MR作业总数。
hive_metrics_hive_tez_tasks	提交的Hive on Tez作业总数。
hive_metrics_cumulative_connection_count	累计连接数。
hive_metrics_active_calls_api_runTasks	当前runtask请求数。
hive_metrics_hs2_completed_sql_operation_FINISHED	已结束的SQL总数。
hive_metrics_hs2_sql_operation_active_user	当前活跃用户数。
hive_metrics_open_connections	当前打开的连接数。
hive_metrics_api_PostHook_com_aliyun_emr_meta_hive_hook_LineageLoggerHook	执行LineageLoggerHook的平均时间，单位：ms。
hive_metrics_api_hs2_sql_operation_PENDING	SQL任务处于PEEDING状态的平均时间，单位：ms。
hive_metrics_api_hs2_sql_operation_RUNNING	运SQL任务处于RUNNING状态的平均时间，单位：ms。
hive_metrics_hs2_submitted_queries	提交查询的平均时间，单位：ms。
hive_metrics_hs2_executing_queries	执行查询的平均时间，单位：ms。
hive_metrics_hs2_succeeded_queries	服务启动后成功的查询数。
hive_metrics_hs2_failed_queries	服务启动后失败的查询数。

ZooKeeper指标[5]

ZooKeeper是一个分布式、高可用性的协调服务。ZooKeeper提供分布式配置服务、同步服务和命名注册等功能。

指标	描述
zk_packets_received	ZooKeeper接收的包的数量。
zk_packets_sent	ZooKeeper发送的包的数量。
zk_avg_latency	ZooKeeper平均请求延迟，单位：ms。
zk_min_latency	ZooKeeper最小请求延迟，单位：ms。
zk_max_latency	ZooKeeper最大请求延迟，单位：ms。
zk_watch_count	ZooKeeper watch的数量。
zk_znode_count	ZooKeeper znode的数量。
zk_num_alive_connections	ZooKeeper存活的连接数。
zk_outstanding_requests	ZooKeeper排队请求的数量。当ZooKeeper超过了它的处理能力时，该值会增大。
zk_approximate_data_size	ZooKeeper的数据大小（近似值），单位：Byte。
zk_open_file_descriptor_count	ZooKeeper打开文件的数量。
zk_max_file_descriptor_count	ZooKeeper最大允许打开的文件数量。
zk_node_status	ZooKeeper节点状态：-1：节点不可用。0：作为follower节点。1：作为leader节点。
zk_synced_followers	同步的ZooKeeper服务数量。

指标	描述
zk_packets_received	ZooKeeper接收的包的数量。
zk_packets_sent	ZooKeeper发送的包的数量。
zk_avg_latency	ZooKeeper平均请求延迟，单位：ms。
zk_min_latency	ZooKeeper最小请求延迟，单位：ms。
zk_max_latency	ZooKeeper最大请求延迟，单位：ms。
zk_watch_count	ZooKeeper watch的数量。
zk_znode_count	ZooKeeper znode的数量。
zk_num_alive_connections	ZooKeeper存活的连接数。
zk_outstanding_requests	ZooKeeper排队请求的数量。当ZooKeeper超过了它的处理能力时，该值会增大。
zk_approximate_data_size	ZooKeeper的数据大小（近似值），单位：Byte。
zk_open_file_descriptor_count	ZooKeeper打开文件的数量。
zk_max_file_descriptor_count	ZooKeeper最大允许打开的文件数量。
zk_node_status	ZooKeeper节点状态：-1：节点不可用。0：作为follower节点。1：作为leader节点。
zk_synced_followers	同步的ZooKeeper服务数量。

指标	描述
zk_packets_received	ZooKeeper接收的包的数量。
zk_packets_sent	ZooKeeper发送的包的数量。
zk_avg_latency	ZooKeeper平均请求延迟，单位：ms。
zk_min_latency	ZooKeeper最小请求延迟，单位：ms。
zk_max_latency	ZooKeeper最大请求延迟，单位：ms。
zk_watch_count	ZooKeeper watch的数量。
zk_znode_count	ZooKeeper znode的数量。
zk_num_alive_connections	ZooKeeper存活的连接数。
zk_outstanding_requests	ZooKeeper排队请求的数量。当ZooKeeper超过了它的处理能力时，该值会增大。
zk_approximate_data_size	ZooKeeper的数据大小（近似值），单位：Byte。
zk_open_file_descriptor_count	ZooKeeper打开文件的数量。
zk_max_file_descriptor_count	ZooKeeper最大允许打开的文件数量。
zk_node_status	ZooKeeper节点状态：-1：节点不可用。0：作为follower节点。1：作为leader节点。
zk_synced_followers	同步的ZooKeeper服务数量。

指标	描述
zk_packets_received	ZooKeeper接收的包的数量。
zk_packets_sent	ZooKeeper发送的包的数量。
zk_avg_latency	ZooKeeper平均请求延迟，单位：ms。
zk_min_latency	ZooKeeper最小请求延迟，单位：ms。
zk_max_latency	ZooKeeper最大请求延迟，单位：ms。
zk_watch_count	ZooKeeper watch的数量。
zk_znode_count	ZooKeeper znode的数量。
zk_num_alive_connections	ZooKeeper存活的连接数。
zk_outstanding_requests	ZooKeeper排队请求的数量。当ZooKeeper超过了它的处理能力时，该值会增大。
zk_approximate_data_size	ZooKeeper的数据大小（近似值），单位：Byte。
zk_open_file_descriptor_count	ZooKeeper打开文件的数量。
zk_max_file_descriptor_count	ZooKeeper最大允许打开的文件数量。
zk_node_status	ZooKeeper节点状态：-1：节点不可用。0：作为follower节点。1：作为leader节点。
zk_synced_followers	同步的ZooKeeper服务数量。

指标	描述
zk_packets_received	ZooKeeper接收的包的数量。
zk_packets_sent	ZooKeeper发送的包的数量。
zk_avg_latency	ZooKeeper平均请求延迟，单位：ms。
zk_min_latency	ZooKeeper最小请求延迟，单位：ms。
zk_max_latency	ZooKeeper最大请求延迟，单位：ms。
zk_watch_count	ZooKeeper watch的数量。
zk_znode_count	ZooKeeper znode的数量。
zk_num_alive_connections	ZooKeeper存活的连接数。
zk_outstanding_requests	ZooKeeper排队请求的数量。当ZooKeeper超过了它的处理能力时，该值会增大。
zk_approximate_data_size	ZooKeeper的数据大小（近似值），单位：Byte。
zk_open_file_descriptor_count	ZooKeeper打开文件的数量。
zk_max_file_descriptor_count	ZooKeeper最大允许打开的文件数量。
zk_node_status	ZooKeeper节点状态：-1：节点不可用。0：作为follower节点。1：作为leader节点。
zk_synced_followers	同步的ZooKeeper服务数量。

Kafka指标[6]

消息队列Kafka版是阿里云提供的分布式、高吞吐、可扩展的消息队列服务。消息队列Kafka版广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等大数据领域，已成为大数据生态中不可或缺的部分。

Kafka-HOME
Kafka-Broker
- Status
- Throughput
- Performance
- Storage
- Request Rate
- Request Time
- MessageConversion
- ZK session
- JVM
Kafka-Topic
- Status
- Throughput
- Request Rate
- MessageConversion
- Storage

Impala指标[7]

Impala为存储在Apache Hadoop中的数据提供了高性能和低延迟的SQL查询。

指标	描述
impala_impala_server_resultset_cache_total_bytes	结果集缓存大小，单位：Byte。
impala_num_executing_queries	当前正在执行的查询数量。
impala_num_waiting_queries	当前正在等待的查询数量。
impala_impala_server_query_durations_ms_95th	95%的查询耗时时间，单位：ms。
impala_num_in_flight_queries	集群正在in fight状态的查询数量。
impala_impala_server_query_durations_ms_75th	75%的查询耗时时间，单位：ms。
impala_impala_thrift_server_CatalogService_svc_thread_wait_time_99_9th	Catalog Service的客户端对服务线程的等待时间，单位：ms。
impala_impala_thrift_server_CatalogService_connection_setup_time_99_9th	99%的Catalog Service客户端等待建立连接所花费的时间，单位：ms。
impala_impala_server_query_durations_ms_99_9th	99%的查询耗时时间，单位：ms。
impala_impala_server_ddl_durations_ms_99_9th	99%的DDL操作耗时时间，单位：ms。
impala_impala_server_query_durations_ms_90th	90%的查询耗时时间，单位：ms。
impala_impala_server_ddl_durations_ms_90th	90%的DDL操作耗时时间，单位：ms。
impala_impala_server_query_durations_ms_50th	50%的查询耗时时间，单位：ms。
impala_impala_server_ddl_durations_ms_50th	50%的DDL操作耗时时间，单位：ms。
impala_impala_server_ddl_durations_ms_95th	95%的DDL操作耗时时间，单位：ms。
impala_impala_server_scan_ranges_num_missing_volume_id	在进程生命周期内缺失volume id的scan range总数。
impala_impala_server_ddl_durations_ms_75th	75%的DDL操作耗时时间，单位：ms。
impala_impala_server_num_queries_spilled	任何运算符溢出的查询数。
impala_impala_server_scan_ranges_total	在进程生命周期内读取的扫描范围总数。
impala_impala_server_num_queries_expired	由于不活动而过期的查询数。
impala_impala_server_resultset_cache_total_num_rows	结果集缓存记录数。
impala_impala_server_num_open_hiveserver2_sessions	打开的HiveServer2会话数。
impala_impala_server_num_sessions_expired	由于不活动而过期的会话数。
impala_impala_server_num_fragments_in_flight	当前正在执行的查询片段实例的数量。
impala_impala_server_num_queries_registered	在此Impala服务器实例上注册的查询总数。包括正在进行中并等待关闭的查询。
impala_impala_server_num_files_open_for_insert	当前为写入而打开的HDFS文件数。
impala_impala_server_num_queries	在进程生命周期内处理的查询总数。
impala_impala_server_hedged_read_ops	在进程生命周期内尝试的hedged reads总数。
impala_impala_server_num_open_beeswax_sessions	打开Beeswax会话的数量。
impala_impala_server_backend_num_queries_executed	在进程的生命周期内在此后端执行的查询总数。
impala_impala_server_num_fragments	在进程生命周期内处理的查询片段总数。
impala_rpc_impala_ControlService_rpcs_queue_overflow	ControlService由于服务队列溢出而被拒绝的传入RPC总数。
impala_impala_server_hedged_read_ops_win	Hedged read比常规读取操作快的总次数。
impala_mem_tracker_DataStreamService_current_usage_bytes	Memtracker DataStreamService当前使用的字节数。
impala_impala_server_backend_num_queries_executing	当前在此后端上执行的查询数。
impala_cluster_membership_executor_groups_total_healthy	处于健康状态的执行器组总数。
impala_rpc_impala_DataStreamService_rpcs_queue_overflow	DataStreamService由于服务队列溢出而被拒绝的传入RPC总数。
impala_cluster_membership_backends_total	向statestore注册的后端总数。
impala_mem_tracker_DataStreamService_peak_usage_bytes	Memtracker DataStreamService峰值使用的字节数。
impala_total_senders_blocked_on_recvr_creation	已被阻止等待接收片段初始化的发件人总数。
impala_mem_tracker_ControlService_peak_usage_bytes	Memtracker ControlService峰值使用字节数。
impala_simple_scheduler_local_assignments_total	本地作业数。
impala_mem_tracker_ControlService_current_usage_bytes	Memtracker ControlService当前使用字节数。
impala_memory_total_used	已使用内存，单位：Byte。
impala_cluster_membership_executor_groups_total	至少有一个执行程序的执行程序组总数。
impala_memory_rss	RSS的内存大小，包括TCMalloc、缓冲池和JVM，单位：Byte。
impala_total_senders_timedout_waiting_for_recvr_creation	超时等待接收片段初始化的发送者总数。
impala_senders_blocked_on_recvr_creation	等待接收片段初始化的发送者数量。
impala_simple_scheduler_assignments_total	作业数。
impala_memory_mapped_bytes	进程中内存映射的总字节数（虚拟内存大小），单位：Byte。

HUE指标[8]

指标	描述
hue_requests_response_time_avg	请求响应时间平均值。
hue_requests_response_time_95_percentile	95%的请求响应时间。
hue_requests_response_time_std_dev	请求响应时间标准差。
hue_requests_response_time_median	50%的请求响应时间。
hue_requests_response_time_75_percentile	75%的请求响应时间。
hue_requests_response_time_count	请求响应时间计数。
hue_requests_response_time_5m_rate	最近5分钟的请求响应速率。
hue_requests_response_time_min	请求响应时间最小值。
hue_requests_response_time_sum	请求响应时间总和。
hue_requests_response_time_max	请求响应时间的最大值。
hue_requests_response_time_mean_rate	请求响应速率平均值。
hue_requests_response_time_99_percentile	99%的最近一小时请求响应时间。
hue_requests_response_time_15m_rate	最近15分钟请求响应速率。
hue_requests_response_time_999_percentile	99.9%的请求响应时间。
hue_requests_response_time_1m_rate	最近1分钟的请求响应速率。
hue_users_active_total	活跃用户总数。
hue_users_active	最近1小时的活跃用户数。
hue_users	用户总数。
hue_threads_total	当前线程总数。
hue_threads_daemon	常驻线程数量。
hue_queries_number	查询数量总和。
hue_requests_exceptions	当前异常请求数。
hue_requests_active	当前活跃请求数。

Kudu指标[9]

参数	指标	描述
op_apply_queue_length（99）	kudu_op_apply_queue_length_percentile_99	99%的操作队列的长度。
op_apply_queue_length（75）	kudu_op_apply_queue_length_percentile_75	75%的操作队列的长度。
op_apply_queue_length（mean）	kudu_op_apply_queue_length_mean	操作队列的长度的平均值。
rpc_incoming_queue_time（99）	kudu_rpc_incoming_queue_time_percentile_99	99%的RPC队列的等待时间，单位：μs。
rpc_incoming_queue_time（75）	kudu_rpc_incoming_queue_time_percentile_75	75%的RPC队列的等待时间，单位：μs。
rpc_incoming_queue_time（mean）	kudu_rpc_incoming_queue_time_mean	RPC队列的等待时间的平均值，单位：μs。
reactor_load_percent（99）	kudu_reactor_load_percent_percentile_99	99%的Reactor线程的负载。
reactor_load_percent（75）	kudu_reactor_load_percent_percentile_75	75%的Reactor线程的负载。
reactor_load_percent（mean）	kudu_reactor_load_percent_mean	Reactor线程的负载的平均值。
op_apply_run_time（99）	kudu_op_apply_run_time_percentile_99	99%的操作执行时间，单位：μs。
op_apply_run_time（75）	kudu_op_apply_run_time_percentile_75	75%的操作执行时间，单位：μs。
op_apply_run_time（mean）	kudu_op_apply_run_time_mean	操作执行时间的平均值，单位：μs。
op_prepare_run_time（99）	kudu_op_prepare_run_time_percentile_99	99%的操作准备时间，单位：μs。
op_prepare_run_time（75)	kudu_op_prepare_run_time_percentile_75	75%的操作准备时间，单位：μs。
op_prepare_run_time（mean）	kudu_op_prepare_run_time_mean	操作准备时间的平均值，单位：μs。
flush_mrs_duration（99）	kudu_flush_mrs_duration_percentile_99	99%的MemRowSet flush时间，单位：ms。
flush_mrs_duration（75）	kudu_flush_mrs_duration_percentile_75	75%的MemRowSet flush时间，单位：ms。
flush_mrs_duration（mean）	kudu_flush_mrs_duration_mean	MemRowSet flush时间的平均值，单位：ms。
log_append_latency（99）	kudu_log_append_latency_percentile_99	99%的日志的append时间，单位：μs。
log_append_latency（75）	kudu_log_append_latency_percentile_75	75%的日志的append时间，单位：μs。
log_append_latency（mean）	kudu_log_append_latency_mean	日志的append时间的平均值，单位：μs。
flush_dms_duration（99）	kudu_flush_dms_duration_percentile_99	99%的DeltaMemStore flush时间，单位：ms。
flush_dms_duration（75）	kudu_flush_dms_duration_percentile_75	75%的DeltaMemStore flush时间，单位：ms。
flush_dms_duration（mean）	kudu_flush_dms_duration_mean	DeltaMemStore flush时间的平均值，单位：ms。
op_prepare_queue_length（99)	kudu_op_prepare_queue_length_percentile_99	99%的准备队列的长度。
op_prepare_queue_length（75）	kudu_op_prepare_queue_length_percentile_75	75%的准备队列的长度。
op_prepare_queue_length（mean）	kudu_op_prepare_queue_length_mean	准备队列的长度的平均值。
log_gc_duration（99）	kudu_log_gc_duration_percentile_99	99%的日志GC的时间，单位：ms。
log_gc_duration（75）	kudu_log_gc_duration_percentile_75	75%的日志GC的时间，单位：ms。
log_gc_duration（mean）	kudu_log_gc_duration_mean	日志GC的时间的平均值，单位：ms。
log_sync_latency（99）	kudu_log_sync_latency_percentile_99	99%的日志Sync的时间，单位：μs。
log_sync_latency(75)	kudu_log_sync_latency_percentile_75	75%的日志Sync的时间，单位：μs。
log_sync_latency（mean）	kudu_log_sync_latency_mean	日志Sync的时间的平均值，单位：μs。
prepare_queue_time（99）	kudu_op_prepare_queue_time_percentile_99	99%的操作在准备队列的等待时间，单位：μs。
prepare_queue_time（75）	kudu_op_prepare_queue_time_percentile_75	75%的操作在准备队列的等待时间，单位：μs。
prepare_queue_time（mean）	kudu_op_prepare_queue_time_mean	操作在准备队列的等待时间的平均值，单位：μs。
rpc_connections_accepted	kudu_rpc_connections_accepted	RPC请求接收的数量。
block_cache_usage	kudu_block_cache_usage	Tserver Block缓存的使用量，单位：Byte。
active_scanners	kudu_active_scanners	处于Active状态的Scanner数量。
data_dirs_full	kudu_data_dirs_full	Full状态的数据目录个数。
rpcs_queue_overflow	kudu_rpcs_queue_overflow	RPC队列溢出次数。
cluster_replica_skew	kudu_cluster_replica_skew	服务器上承载的最多的tablet数量与最少的tablet数量的差值。
log_gc_running	kudu_log_gc_running	正在GC的日志数量。
data_dirs_failed	kudu_data_dirs_failed	失效的数据目录个数。
leader_memory_pressure_rejections	kudu_leader_memory_pressure_rejections	内存压力拒绝的请求个数。
transaction_memory_pressure_rejections	kudu_transaction_memory_pressure_rejections	内存压力拒绝的事务个数。

ClickHouse指标[10]

EMR ClickHouse完全兼容开源版本的产品特性，并且在开源的基础上优化了读写性能，提升了ClickHouse与EMR其他组件快速集成的能力。

指标	描述
clickhouse_server_events_ReplicatedPartFailedFetches	数据无法从Replicated*MergeTree表中任一副本获取的次数。
clickhouse_server_events_ReplicatedPartChecksFailed	Replicated*MergeTree表中数据检查失败的次数。
clickhouse_server_events_ReplicatedDataLoss	Replicated*MergeTree表中数据不在任何一个副本中的次数。
clickhouse_server_events_ReplicatedMetaDataChecksFailed	Replicated*MergeTree表检查元数据失败的次数。
clickhouse_server_events_ReplicatedMetaDataLoss	Replicated*MergeTree表中元数据丢失的次数。
clickhouse_server_events_DuplicatedInsertedBlocks	写入Replicated*MergeTree表中的Block重复的次数。
clickhouse_server_events_ZooKeeperUserExceptions	Zookeeper中与ClickHouse状态相关错误出现的次数。
clickhouse_server_events_ZooKeeperHardwareExceptions	ZooKeeper网络或类似的错误出现的次数。
clickhouse_server_events_ZooKeeperOtherExceptions	ZooKeeper中非硬件或状态错误出现的次数。
clickhouse_server_events_DistributedConnectionFailTry	分布式连接重试出错的次数。
clickhouse_server_events_DistributedConnectionMissingTable	分布式连接无法找到表的次数。
clickhouse_server_events_DistributedConnectionStaleReplica	分布式连接得到的副本不新鲜的次数。
clickhouse_server_events_DistributedConnectionFailAtAll	在所有次重试结束后分布式连接失败的次数。
clickhouse_server_events_SlowRead	Slow Read的次数。
clickhouse_server_events_ReadBackoff	由于Slow Read导致的线程减少的次数。
clickhouse_server_metrics_BackgroundPoolTask	background_pool中的任务个数。
clickhouse_server_metrics_BackgroundMovePoolTask	background_move_pool中的任务个数。
clickhouse_server_metrics_BackgroundSchedulePoolTask	schedule_pool中的任务个数。
clickhouse_server_metrics_BackgroundBufferFlushSchedulePoolTask	buffer_flush_schedule_pool中的任务个数。
clickhouse_server_metrics_BackgroundDistributedSchedulePoolTask	distributed_schedule_pool中的任务个数。
clickhouse_server_metrics_BackgroundTrivialSchedulePoolTask	trivial_schedule_pool中的任务个数。
clickhouse_server_metrics_TCPConnection	TCP连接个数。
clickhouse_server_metrics_HTTPConnection	HTTP连接个数。
clickhouse_server_metrics_InterserverConnection	用于从其他副本上获取数据的连接个数。
clickhouse_server_metrics_MemoryTracking	Server使用的总内存，单位：Byte。
clickhouse_server_metrics_MemoryTrackingInBackgroundProcessingPool	background_pool中任务执行所使用的内存，单位：Byte。
clickhouse_server_metrics_MemoryTrackingInBackgroundMoveProcessingPool	background_move_pool中任务执行所使用的内存，单位：Byte。
clickhouse_server_metrics_MemoryTrackingInBackgroundBufferFlushSchedulePool	buffer_flush_schedule_pool中任务执行所使用的内存，单位：Byte。
clickhouse_server_metrics_MemoryTrackingInBackgroundSchedulePool	schedule_pool中任务执行所使用的内存，单位：Byte。
clickhouse_server_metrics_MemoryTrackingInBackgroundDistributedSchedulePool	distributed_schedule_pool中任务执行所使用的内存，单位：Byte。
clickhouse_server_metrics_MemoryTrackingInBackgroundTrivialSchedulePool	trivial_schedule_pool中任务执行所使用的内存，单位：Byte。
clickhouse_server_metrics_MemoryTrackingForMerges	后台执行Merge时使用的内存，单位：Byte。

Flink指标[11]

Flink是一个流式数据流执行引擎，其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。

Overview

参数	指标	描述
Num Of RunningJobs	numRunningJobs	JM中正在运行的作业数。
Job Uptime	job_uptime	作业已运行时间，单位：ms。仅支持返回单个系列或表的查询。
TaskSlots Available	taskSlotsAvailable	当前可用的TaskSlots数量。
TaskSlots Total	taskSlotsTotal	TaskSlots的总数量。
Num of TM	numRegisteredTaskManagers	已注册的TM数量。
sourceIdleTime	sourceIdleTime	源没有处理任何记录的时间，单位：ms。
currentFetchEventTimeLag	currentFetchEventTimeLag	业务延时（fetch=数据发生时间与数据进入Flink Source时间之间的差值）。
currentEmitEventTimeLag	currentEmitEventTimeLag	业务延时（emit=数据发生时间与数据离开Flink Source时间之间的差值）。

Checkpoint

参数	指标	描述
Num of Checkpoints	totalNumberOfCheckpoints	检查点总数。
numberOfFailedCheckpoints	失败的检查点数量。
numberOfCompletedCheckpoints	已完成的检查点数量。
numberOfInProgressCheckpoints	正在进行的检查点数量。
lastCheckpointDuration	lastCheckpointDuration	最近一个检查点完成时间，单位：ms。
lastCheckpointSize	lastCheckpointSize	最近一个检查点的大小，单位：Byte。
lastCheckpointRestoreTimestamp	lastCheckpointRestoreTimestamp	协调器上最近一个检查点的恢复时间，单位：ms。

Network

参数	指标	描述
InPool Usage	inPoolUsage	输入缓冲区使用量。
OutPool Usage	outPoolUsage	输出缓冲区使用量。
OutputQueue Length	outputQueueLength	输出缓冲区排队数量。
InputQueue Length	inputQueueLength	输入缓冲区排队数量。

参数	指标	描述
numBytesIn PerSecond	numBytesInLocalPerSecond	每秒本地读取数据的字节数。
numBytesInRemotePerSecond	每秒远端读取数据的字节数。
numBuffersInLocalPerSecond	每秒本地读取网络缓冲区的数量。
numBuffersInRemotePerSecond	每秒远端读取网络缓冲区的数量。
numBytesOut PerSecond	numBytesOutPerSecond	每秒发出字节数。
numBuffersOutPerSecond	每秒发出网络缓冲区的数量。
Task numRecords I/O PerSecond	numRecordsInPerSecond	每秒接收的记录数。
numRecordsOutPerSecond	每秒发出的记录数。
Task numRecords I/O	numRecordsIn	接收的记录数。
numRecordsOut	发出的记录数。
Operator CurrentSendTime	currentSendTime	发送最新一条记录的耗时时间，单位：ms。

Watermark

参数	指标	描述
Task InputWatermark	currentInputWatermark	任务收到最后一个水印的时间，单位：ms。
Operator In/Out Watermark	currentInputWatermark	算子收到最后一个水印的时间，单位：ms。
currentOutputWatermark	算子发出最后一个水印的时间，单位：ms。
watermarkLag	watermarkLag	Watermark滞后时间，单位：ms。

参数	指标	描述
JM CPU Load	CPU_Load	JM CPU使用率。
TM CPU Load	CPU_Load	TM CPU使用率。
CPU Usage	CPU_Usage	TM CPU使用率（基于ProcessTree）。

Memory

参数	指标	描述
以上是关于统一观测丨使用 Prometheus 监控 E-MapReduce，我们该关注哪些指标？的主要内容，如果未能解决你的问题，请参考以下文章 (c)2006-2024 SYSTEM All Rights Reserved IT常识