集群成本管理的概念是啥
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了集群成本管理的概念是啥相关的知识,希望对你有一定的参考价值。
参考技术A 简单的说,集群(cluster)就是一组计算机,它们作为一个整体向用户提供一组网络资源。这些单个的计算机系统就是集群的节点(node)。一个理想的集群是,用户从来不会意识到集群系统底层的节点,在他们看来,集群是一个系统,而非多个计算机系统。并且集群系统的管理员可以随意增加和删改集群系统的节点。 1)为同一种或若干种生物在某种程度上恒定地占据某一地区的,广泛的且具有社会性微细差异的用词。因而该词有各种不同的意义。在生态学上,有时用以表示群,或群落或种群;有时则用以表示单位集团之意。植物是指全面,而动物则明显地是指哺乳类、鸟类以及蚁、蜂等社会性昆虫。集群内个体的社会结合程度也各有不同,可以区分为永久性集群(permanent colony)、季节性集群(seasonalcolony)以及繁殖集群(breeding colony)等。进而可把由同一种形成的集群称为种内集群(intraspe-cific colony);把由二种以上形成的集群称为种间集群(interspecific colony)。但也有时集群一词没有上述意义,而是指最先迁入到新地上来的群体,或指社会昆虫在同一巢穴中生活的一个集团。 (2)特指上述之中的群体。 (3)对细菌和霉菌的培养细胞特称为菌落。 一、什么是集群? 集群(Cluster)是由两台或多台节点机(服务器)构成的一种松散耦合的计算节点集合,为用户提 供网络服务或应用程序(包括数据库、Web服务和文件服务等)的单一客户视图,同时提供接近容错机的故 障恢复能力。集群系统一般通过两台或多台节点服务器系统通过相应的硬件及软件互连,每个群集节点都 是运行其自己进程的独立服务器。这些进程可以彼此通信,对网络客户机来说就像是形成了一个单一系统, 协同起来向用户提供应用程序、系统资源和数据。除了作为单一系统提供服务,集群系统还具有恢复服务 器级故障的能力。集群系统还可通过在集群中继续增加服务器的方式,从内部增加服务器的处理能力,并 通过系统级的冗余提供固有的可靠性和可用性。 二、集群的分类: 1、高性能计算科学集群: 以解决复杂的科学计算问题为目的的IA集群系统。是并行计算的基础,它可以不使用专门的由十至 上万个独立处理器组成的并行超级计算机,而是采用通过高速连接来链接的一组1/2/4 CPU的IA服务器, 并且在公共消息传递层上进行通信以运行并行应用程序。这样的计算集群,其处理能力与真正超级并行 机相等,并且具有优良的性价比。 2、负载均衡集群: 负载均衡集群为企业需求提供更实用的系统。该系统使各节点的负载流量可以在服务器集群中尽可 能平均合理地分摊处理。该负载需要均衡计算的应用程序处理端口负载或网络流量负载。这样的系统非 常适合于运行同一组应用程序的大量用户。每个节点都可以处理一部分负载,并且可以在节点之间动态 分配负载,以实现平衡。对于网络流量也如此。通常,网络服务器应用程序接受了大量入网流量,无法 迅速处理,这就需要将流量发送给在其它节点。负载均衡算法还可以根据每个节点不同的可用资源或网 络的特殊环境来进行优化。 3、高可用性集群: 为保证集群整体服务的高可用,考虑计算硬件和软件的容错性。如果高可用性群集中的某个节点发 生了故障,那么将由另外的节点代替它。整个系统环境对于用户是一致的。 实际应用的集群系统中,这三种基本类型经常会发生混合与交杂。 三、典型集群: 科学计算集群: 1、Beowulf 当谈到 Linux 集群时,许多人的第一反映是 Beowulf。那是最著名的 Linux 科学软件集群系统。实际上,它是一组适用于在 Linux 内核上运行的公共软件包的通称。其中包括 流行的软件消息传递 API,如“消息传送接口”(MPI) 或“并行虚拟机” (PVM),对 Linux 内核的修改,以允许结合几个以太网接口、高性能网络驱动器,对虚拟内存管理器 的更改,以及分布式进程间通信 (DIPC) 服务。公共全局进程标识空间允许使用 DIPC 机制从任何节 点访问任何进程。 2、MOSIX Beowulf类似于给系统安装的一个支持集群的外挂软件,提供了应用级的集群能力。而MOSIX是彻底修 改Linux的内核,从系统级提供了集群能力,它对应用而言是完全透明的,原有的应用程序,可以不经改 动,就能正常运行在MOSIX系统之上。集群中的任何节点都可以自由地加入和移除,来接替其它节点的工 作,或是扩充系统。MOSIX 使用自适应进程负载均衡和内存引导算法使整体性能最大化。应用程序进 程可以在节点之间实现迁移,以利用最好的资源,这类似于对称多处理器系统可以在各个处理器之间切换 应用程序。由于MOSIX通过修改内核来实现集群功能,所以存在兼容性问题,部分系统级应用程序将无法 正常运行。 负载均衡/高可用性集群 3、LVS(Linux Virtual Server) 这是一个由国人主持的项目。 它是一个负载均衡/高可用性集群,主要针对大业务量的网络应用(如新闻服务、网上银行、电子商务等)。 LVS是建立在一个主控服务器(通常为双机)(director)及若干真实服务器(real-server)所组成 的集群之上。real-server负责实际提供服务,主控服务器根据指定的调度算法对real-server进 行控制。而集群的结构对于用户来说是透明的,客户端只与单个的IP(集群系统的虚拟IP)进行通信, 也就是说从客户端的视角来看,这里只存在单个服务器。 Real-server可以提供众多服务,如ftp, http, dns, telnet, nntp, smtp 等。主控服务器负责对Real-Server进 行控制。客户端在向LVS发出服务请求时,Director会通过特定的调度算法来指定由某个Real-Server 来应答请求,而客户端只与Load Balancer的IP(即虚拟IP,VIP)进行通信。 其他集群: 现在集群系统可谓五花八门,绝大部分的OS开发商,服务器开发商都提供了系统级的集群产品,最典型的 是各类双机系统,还有各类科研院校提供的集群系统。以及各类软件开发商提供的应用级别的集群系统,如 数据库集群,Application Server 集群,Web Server集群,邮件集群等等。Databricks 中使用的集群管理器是啥?如何更改 Databricks 集群中的执行程序数量?
【中文标题】Databricks 中使用的集群管理器是啥?如何更改 Databricks 集群中的执行程序数量?【英文标题】:what is the cluster manager used in Databricks ? How do I change the number of executors in Databricks clusters?Databricks 中使用的集群管理器是什么?如何更改 Databricks 集群中的执行程序数量? 【发布时间】:2019-11-24 11:33:49 【问题描述】:Databricks 中使用的集群管理器是什么? 如何更改 Databricks 集群中的执行程序数量?
【问题讨论】:
【参考方案1】:回答问题:
Databricks 中使用的集群管理器是什么?
我试图挖掘这些信息,但我无法从官方文档中找到任何相关信息。
Databricks 似乎没有使用提到的任何来自 Spark 的集群管理器 here
根据this presentation,在第23页,它提到了Databricks集群管理器的3个部分
实例管理器 资源管理器 Spark 集群管理器所以我猜 Databricks 使用它自己的专有集群管理器。
【讨论】:
真心希望databricks有朝一日能发布这个信息。【参考方案2】:Databricks 中使用的集群管理器是什么?
Azure Databricks 以 Spark 的功能为基础,提供零管理云平台,其中包括:
完全托管的 Spark 集群 用于探索和可视化的交互式工作区 为您喜爱的基于 Spark 的应用程序提供支持的平台Databricks 运行时构建在 Apache Spark 之上,并且是为 Azure 云原生构建的。
借助 无服务器 选项,Azure Databricks 完全抽象出基础架构的复杂性以及设置和配置数据基础架构所需的专业知识。无服务器选项可帮助数据科学家作为一个团队快速迭代。
对于关心生产作业性能的数据工程师,Azure Databricks 通过 I/O 层和处理层 (Databricks I/O) 的各种优化提供了更快、性能更高的 Spark 引擎。
如何更改 Databricks 集群中的执行程序数量?
创建集群时,您可以为集群提供固定数量的工作人员或为集群提供最小和最大工作人员数量。 p>
当您提供固定大小的集群时: Azure Databricks 可确保您的集群具有指定数量的工作人员。当您提供工作人员数量范围时,Databricks 会选择运行您的作业所需的适当工作人员数量。这称为自动缩放。
使用自动缩放:Azure Databricks 会动态重新分配工作人员以适应您的工作特征。管道的某些部分可能比其他部分对计算的要求更高,Databricks 会在您工作的这些阶段自动添加额外的工作人员(并在不再需要时将其删除)。
自动扩缩可以更轻松地实现高集群利用率,因为您无需配置集群来匹配工作负载。这尤其适用于需求随时间变化的工作负载(例如在一天中探索数据集),但它也适用于供应要求未知的一次性较短工作负载。因此,自动缩放提供了两个优势:
与恒定大小的配置不足的集群相比,工作负载的运行速度更快。 与静态大小的集群相比,自动扩缩集群可以降低总体成本。注意:根据集群的恒定大小和工作负载,自动缩放可以同时为您提供这些好处中的一项或两项。当云提供商终止实例时,集群大小可以低于选择的最小工作人员数量。在这种情况下,Azure Databricks 会不断重试以重新预配实例,以保持最少的工作人员数量。
集群自动缩放不适用于 spark-submit 作业。要了解有关自动缩放的更多信息,请参阅 Cluster autoscaling。
希望这会有所帮助。
【讨论】:
不过,从“幕后”的角度来看,这个问题仍然很有趣。 @CHEEKATLAPRADEEP-MSFT 在某些时候会成为集群管理器。我怀疑他们重写了整个资源分配逻辑。 Spark 在其源代码中已经具有动态资源分配逻辑,所以我猜他们将其调整为云集群“托管”使用。 那么Databricks中使用的集群管理器是什么? 不太明白这个答案被认为是正确的。它没有回答“Databricks 中使用的集群管理器是什么?”的问题以上是关于集群成本管理的概念是啥的主要内容,如果未能解决你的问题,请参考以下文章