2017-5-19&5-23/系统性能指标

Posted 2020-10-06 呦呦鹿鸣

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了2017-5-19&5-23/系统性能指标相关的知识，希望对你有一定的参考价值。

1. 系统性能指标包括哪些？

业务指标、资源指标、中间件指标、数据库指标、前端指标、稳定性指标、批量处理指标、可扩展性指标、可靠性指标。

1）业务指标：主要包括并发用户数、响应时间、处理能力。

指标	定义	简称	标准
交易响应时间	指用户从客户端发起一个请求开始，到客户端接收到从服务器端返回的响应结束，整个过程所耗费的时间。	Response Time: RT	对于在线实时交易：互联网企业：500毫秒以下，例如淘宝业务10毫秒左右。金融企业：1秒以下为佳，部分复杂业务3秒以下。保险企业：3秒以下为佳。制造业：5秒以下为佳。对于批量交易：不同数据量结果是不一样的，大数据量的情况下，2小时内完成。
系统处理能力	指系统在利用系统硬件平台和软件平台进行信息处理的能力。系统处理能力通过系统每秒钟能够处理的交易数量来评价，交易有两种理解：一是业务人员角度的一笔业务过程；二是系统角度的一次交易申请和响应过程。前者称为业务交易过程，后者称为事务。两种交易指标都可以评价应用系统的处理能力。一般建议与系统交易日志保持一致，以便于统计业务量或者交易量。	HPS（Hits Per Second）：每秒点击次数，单位是次/秒。 TPS（Transaction per Second）：系统每秒处理交易数，单位是笔/秒。 QPS（Query per Second）：系统每秒处理查询次数，单位是次/秒。对于互联网业务中，如果某些业务有且仅有一个请求连接，那么TPS=QPS=HPS。一般情况下，用TPS来衡量整个业务流程，用QPS来衡量接口查询次数，用HPS来表示对服务器点击请求。	无论TPS、QPS、HPS,此指标是衡量系统处理能力非常重要的指标，越大越好。
并发用户数	指在同一时刻内，登录系统并进行业务操作的用户数量。在测试中，采用虚拟用户来模拟现实中用户进行业务操作。	Virtual User: VU	一般情况下，性能测试是将系统处理能力容量测出来，而不是测试并发用户数，除了服务器长连接可能影响并发用户数外，系统处理能力不受并发用户数影响，可以用最小的用户数将系统处理能力容量测试出来，也可以用更多的用户将系统处理能力容量测试出来。
错误率	指系统在负载情况下，失败交易的概率。错误率＝(失败交易数/交易总数)*100%。稳定性较好的系统，其错误率应该由超时引起，即为超时率。	Failure Ratio: FR	不同系统对错误率的要求不同，但一般不超出千分之六，即成功率不低于99.4%。

2）资源指标：CPU资源利用率、内存利用率、磁盘I/O、网络I/O、内核参数(信号量、打开文件数)等。

指标	定义	简称	标准
CPU	中央处理器是一块超大规模的集成电路，是一台计算机的运算核心（Core）和控制核心（ Control Unit）。它的功能主要是解释计算机指令以及处理计算机软件中的数据。	Central Processing Unit：CPU	CPU指标主要指的CPU利用率，包括用户态(user)、系统态(sys)、等待态(wait)、空闲态(idle)。 CPU利用率要低于业界警戒值范围之内，即小于或者等于75%; CPU sys%小于或者等于30%, CPU wait%小于或者等于5%。 CPU Load要小于CPU 核数。
内存	内存是计算机中重要的部件之一，它是与CPU进行沟通的桥梁。计算机中所有程序的运行都是在内存中进行的，因此内存的性能对计算机的影响非常大。	Memory就是内存的简称	现代的操作系统为了最大利用内存，在内存中存放了缓存，因此内存利用率100%并不代表内存有瓶颈，衡量系统内有有瓶颈主要靠SWAP（与虚拟内存交换）交换空间利用率，一般情况下，SWAP交换空间利用率要低于70%,太多的交换将会引起系统性能低下。
磁盘吞吐量	指在无磁盘故障的情况下单位时间内通过磁盘的数据量。	Disk Throughput	磁盘指标主要有每秒读写多少兆，磁盘繁忙率，磁盘队列数，平均服务时间，平均等待时间，空间利用率。其中磁盘繁忙率是直接反映磁盘是否有瓶颈的的重要依据，一般情况下，磁盘繁忙率要低于70%。
网络吞吐量	指在无网络故障的情况下单位时间内通过的网络的数据数量。单位为Byte/s。用于衡量系统对于网络设备或链路传输能力的需求。当网络吞吐量指标接近网络设备或链路最大传输能力时，则需要考虑升级网络设备。	Network Throughput	网络吞吐量指标主要有每秒有多少兆流量进出，一般情况下不能超过设备或链路最大传输能力的70%。

内核参数主要包括信号量、进程、文件句柄，一般不要超过设置的参数值即可，具体如下:

二级指标	解释	单位
Maxuprc	限制每个用户的用户进程的最大数量	个
Max_thread_proc	定义每个进程允许的最大线程数量	个
Filecache_max	最大可用于cache file I/O的物理内存	字节
Ninode	内存中 HFS 文件系统打开 i 节点的最大数量	个
Nkthread	限制允许同时运行的线程数量	个
Nproc	限制允许同时运行的进程数量	个
Nstrpty	基于 STREAMS 的伪终端 (pts) 的最大数量	个
Maxdsiz	任何用户进程的数据段的最大大小（以字节为单位）	字节
maxdsiz_64bit	任何用户进程的数据段的最大大小（以字节为单位）	字节
maxfiles_lim	每个进程的文件描述符的最大数目硬限制	个
maxssiz_64bit	任何用户进程的堆栈的最大大小	字节
Maxtsiz	任一用户进程的文本段的最大大小	字节
nflocks	文件锁的最大数量	个
maxtsiz_64bit	任一用户进程的文本段的最大大小	字节
msgmni	系统级 System V IPC 消息队列 (ID) 所允许的最大数量	个
msgtql	系统中任意时间的最大 System V IPC 消息数	个
npty	BSD 伪终端 (pty) 的最大数量	个
nstrtel	指定内核可支持传入 telnet 会话的 telnet 设备文件的数量	个
nswapdev	可用于交换的设备的最大数量	个
nswapfs	可用于交换的文件系统的最大数量	个
semmni	System V IPC 系统级信号量标识符的数量	个
semmns	System V 系统级信号量的数量	个
shmmax	System V 共享内存段的最大大小	字节
shmmni	系统中 System V 共享内存段标识符的数量	个
shmseg	每个进程 System V 共享内存段的最大数量	个

3）中间件指标：常用的中间件例如Tomcat、Weblogic等指标主要包括JVM, ThreadPool, JDBC。

指标	二级指标	解释	单位
GC	GC频率	java虚拟机垃圾部分回收频率	每秒多少次
	Full GC频率	java虚拟机垃圾完全回收频率	每小时多少次
	Full GC平均时长	用于垃圾完全回收的平均时长	秒
	Full GC最大时长	用于垃圾完全回收的最大时长	秒
ThreadPool	Active Thread Count	活动的线程数	个
ThreadPool	Pending User Request	处于排队的用户请求个数	个
JDBC	JDBC Active Connection	JDBC活动连接数	个

标准

当前正在运行的线程数不能超过设定的最大值。一般情况下系统性能较好的情况下，线程数最小值设置50和最大值设置200比较合适。

当前运行的JDBC连接数不能超过设定的最大值。一般情况下系统性能较好的情况下，JDBC最小值设置50和最大值设置200比较合适。

GC频率不能频繁，特别是FULL GC更不能频繁，一般情况下系统性能较好的情况下，JVM最小堆大小和最大。

4）数据库指标：SQL、吞吐量、命中率、锁。

指标	二级指标	解释	单位
SQL	耗时	执行SQL耗时	微秒
吞吐量	QPS	每秒查询次数	个
吞吐量	TPS	每秒事务次数	个
命中率	Key Buffer命中率	索引缓冲区命中率	百分之
	InnoDB Buffer命中率	InnoDB缓冲区命中率	百分之
	Query Cache命中率	查询缓存命中率	百分之
	Table Cache命中率	表缓存命中率	百分之
	Thread Cache命中率	线程缓存命中率	百分之

标准

SQL耗时越小越好，一般情况下微秒级别。

命中率越高越好，一般情况下不能低于95%。

锁等待次数越低越好，等待时间越短越好。

5）前端指标：页面加载时间、页面数量、网络时间（DNS，连接时间、传输时间等）。

指标	二级指标	解释	单位
页面展示	首次显示时间	在浏览器地址栏输入URL按回车到用户看到网页的第一个视觉标志为止	毫秒
	OnLoad事件时间	浏览器触发onLoad事件的时间，当原始文档和所有引用的内容完全下载后才会触发这个事件	毫秒
	完全载入的时间	所有onLoad javascript 处理程序执行完毕，所有动态的或延迟加载的内容都通过这些处理程序触发的时间	毫秒
页面数量	页面大小	整个页面大小	KB
页面数量	请求数量	从网站下载资源时所有网络请求的总数，尽量少	次
网络所花时间	DNS时间	DNS查找时间	毫秒
	连接时间	浏览器与Web服务器建立TCP/IP连接的时间	毫秒
	服务器时间	服务器处理时间	毫秒
	传输时间	内容传输所用时间	毫秒
	等待时间	等待某个资源释放的时间	毫秒

标准

页面要尽可能小及压缩。

页面展示和花费时间越短越好。

6）稳定性指标

最短稳定时间：系统按照最大容量的80%或标准压力（系统的预期日常压力）情况下运行，能够稳定运行的最短时间。

一般来说，对于正常工作日（8小时）运行的系统，至少应该能保证系统稳定运行８小时以上。对于7*24运行的系统，至少应该能够保证系统稳定运行24小时以上。

标准

TPS曲线稳定，没有大幅度的波动。

各项资源指标没有泄露或异常情况。

7）批量处理指标：指批量处理程序单位时间内处理的数据数量。一般用每秒处理的数据量来衡量。

处理效率是估算批量处理时间窗口最重要的计算指标。

关于批量处理时间窗口，不同系统的批量处理时间窗口在起止时间上可以部分重叠。另外，同一系统内部，也可能存在多个批量处理过程同时进行，其时间窗口相互叠加。

标准

在数据量很大的情况下，批处理时间窗口时间越短越好。

不能影响实时交易系统性能。

8）可扩展性指标：指应用软件或操作系统以群集方式部署，增加的硬件资源与增加的处理能力之间的关系。

计算公式为：（增加性能/原始性能）/（增加资源/原始资源）*100%。

扩展能力应通过多轮测试获得扩展指标的变化趋势。

标准

理想的扩展能力是资源增加几倍，性能就提升几倍。

扩展能力至少在70%以上。

9）可靠性指标：双机热备、集群、备份和恢复。

指标	测试内容
双机热备	节点切换是否成功及其消耗时间双机切换是否有业务中断节点回切是否成功及其耗时双机回切是否有业务中断节点回切过程中的数据丢失量
集群	集群中某个节点出现故障时，系统是否有业务中断情况出现在集群中新增一个节点时，是否需要重启系统当故障节点恢复后，加入集群，是否需要重启系统当故障节点恢复后，加入集群，系统是否有业务中断情况出现节点切换需要多长时间
备份和恢复	备份是否成功及其消耗时间备份是否使用脚本自动化完成恢复是否成功及其消耗时间恢复是否使用脚本自动化完成