2017-5-19&5-23/系统性能指标
Posted 呦呦鹿鸣
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2017-5-19&5-23/系统性能指标相关的知识,希望对你有一定的参考价值。
1. 系统性能指标包括哪些?
业务指标、资源指标、中间件指标、数据库指标、前端指标、稳定性指标、批量处理指标、可扩展性指标、可靠性指标。
1)业务指标:主要包括并发用户数、响应时间、处理能力。
指标
|
定义
|
简称
|
标准
|
交易响应时间
|
指用户从客户端发起一个请求开始,到客户端接收到从服务器端返回的响应结束,整个过程所耗费的时间。
|
Response Time: RT
|
对于在线实时交易:
互联网企业:500毫秒以下,例如淘宝业务10毫秒左右。
金融企业:1秒以下为佳,部分复杂业务3秒以下。
保险企业:3秒以下为佳。
制造业:5秒以下为佳。
对于批量交易:
不同数据量结果是不一样的,大数据量的情况下,2小时内完成。
|
系统处理能力
|
指系统在利用系统硬件平台和软件平台进行信息处理的能力。
系统处理能力通过系统每秒钟能够处理的交易数量来评价,交易有两种理解:一是业务人员角度的一笔业务过程;二是系统角度的一次交易申请和响应过程。前者称为业务交易过程,后者称为事务。两种交易指标都可以评价应用系统的处理能力。一般建议与系统交易日志保持一致,以便于统计业务量或者交易量。
|
HPS(Hits Per Second) :每秒点击次数,单位是次/秒。
TPS(Transaction per Second):系统每秒处理交易数,单位是笔/秒。
QPS(Query per Second):系统每秒处理查询次数,单位是次/秒。
对于互联网业务中,如果某些业务有且仅有一个请求连接,那么TPS=QPS=HPS。
一般情况下,用TPS来衡量整个业务流程,用QPS来衡量接口查询次数,用HPS来表示对服务器点击请求。
|
无论TPS、QPS、HPS,此指标是衡量系统处理能力非常重要的指标,越大越好。
|
并发用户数
|
指在同一时刻内,登录系统并进行业务操作的用户数量。在测试中,采用虚拟用户来模拟现实中用户进行业务操作。
|
Virtual User: VU
|
一般情况下,性能测试是将系统处理能力容量测出来,而不是测试并发用户数,除了服务器长连接可能影响并发用户数外,系统处理能力不受并发用户数影响,可以用最小的用户数将系统处理能力容量测试出来,也可以用更多的用户将系统处理能力容量测试出来。
|
错误率
|
指系统在负载情况下,失败交易的概率。
错误率=(失败交易数/交易总数)*100%。
稳定性较好的系统,其错误率应该由超时引起,即为超时率。
|
Failure Ratio: FR
|
不同系统对错误率的要求不同,但一般不超出千分之六,即成功率不低于99.4%。
|
2)资源指标:CPU资源利用率、内存利用率、磁盘I/O、网络I/O、内核参数(信号量、打开文件数)等。
指标
|
定义
|
简称
|
标准
|
CPU
|
中央处理器是一块超大规模的集成电路,是一台计算机的运算核心(Core)和控制核心( Control Unit)。它的功能主要是解释计算机指令以及处理计算机软件中的数据。
|
Central Processing Unit:CPU
|
CPU指标主要指的CPU利用率,包括用户态(user)、系统态(sys)、等待态(wait)、空闲态(idle)。
CPU利用率要低于业界警戒值范围之内,即小于或者等于75%;
CPU sys%小于或者等于30%,
CPU wait%小于或者等于5%。
CPU Load要小于CPU 核数。
|
内存
|
内存是计算机中重要的部件之一,它是与CPU进行沟通的桥梁。计算机中所有程序的运行都是在内存中进行的,因此内存的性能对计算机的影响非常大。
|
Memory就是内存的简称
|
现代的操作系统为了最大利用内存,在内存中存放了缓存,因此内存利用率100%并不代表内存有瓶颈,衡量系统内有有瓶颈主要靠SWAP(与虚拟内存交换)交换空间利用率,一般情况下,SWAP交换空间利用率要低于70%,太多的交换将会引起系统性能低下。
|
磁盘吞吐量
|
指在无磁盘故障的情况下单位时间内通过磁盘的数据量。
|
Disk Throughput
|
磁盘指标主要有每秒读写多少兆,磁盘繁忙率,磁盘队列数,平均服务时间,平均等待时间,空间利用率。其中磁盘繁忙率是直接反映磁盘是否有瓶颈的的重要依据,一般情况下,磁盘繁忙率要低于70%。
|
网络吞吐量
|
指在无网络故障的情况下单位时间内通过的网络的数据数量。单位为Byte/s。用于衡量系统对于网络设备或链路传输能力的需求。
当网络吞吐量指标接近网络设备或链路最大传输能力时,则需要考虑升级网络设备。
|
Network Throughput
|
网络吞吐量指标主要有每秒有多少兆流量进出,一般情况下不能超过设备或链路最大传输能力的70%。
|
内核参数主要包括信号量、进程、文件句柄,一般不要超过设置的参数值即可,具体如下:
二级指标
|
解释
|
单位
|
Maxuprc
|
限制每个用户的用户进程的最大数量
|
个
|
Max_thread_proc
|
定义每个进程允许的最大线程数量
|
个
|
Filecache_max
|
最大可用于cache file I/O的物理内存
|
字节
|
Ninode
|
内存中 HFS 文件系统打开 i 节点的最大数量
|
个
|
Nkthread
|
限制允许同时运行的线程数量
|
个
|
Nproc
|
限制允许同时运行的进程数量
|
个
|
Nstrpty
|
基于 STREAMS 的伪终端 (pts) 的最大数量
|
个
|
Maxdsiz
|
任何用户进程的数据段的最大大小(以字节为单位)
|
字节
|
maxdsiz_64bit
|
任何用户进程的数据段的最大大小(以字节为单位)
|
字节
|
maxfiles_lim
|
每个进程的文件描述符的最大数目硬限制
|
个
|
maxssiz_64bit
|
任何用户进程的堆栈的最大大小
|
字节
|
Maxtsiz
|
任一用户进程的文本段的最大大小
|
字节
|
nflocks
|
文件锁的最大数量
|
个
|
maxtsiz_64bit
|
任一用户进程的文本段的最大大小
|
字节
|
msgmni
|
系统级 System V IPC 消息队列 (ID) 所允许的最大数量
|
个
|
msgtql
|
系统中任意时间的最大 System V IPC 消息数
|
个
|
npty
|
BSD 伪终端 (pty) 的最大数量
|
个
|
nstrtel
|
指定内核可支持传入 telnet 会话的 telnet 设备文件的数量
|
个
|
nswapdev
|
可用于交换的设备的最大数量
|
个
|
nswapfs
|
可用于交换的文件系统的最大数量
|
个
|
semmni
|
System V IPC 系统级信号量标识符的数量
|
个
|
semmns
|
System V 系统级信号量的数量
|
个
|
shmmax
|
System V 共享内存段的最大大小
|
字节
|
shmmni
|
系统中 System V 共享内存段标识符的数量
|
个
|
shmseg
|
每个进程 System V 共享内存段的最大数量
|
个
|
3)中间件指标:常用的中间件例如Tomcat、Weblogic等指标主要包括JVM, ThreadPool, JDBC。
指标
|
二级指标
|
解释
|
单位
|
GC
|
GC频率
|
java虚拟机垃圾部分回收频率
|
每秒多少次
|
Full GC频率
|
java虚拟机垃圾完全回收频率
|
每小时多少次
|
|
Full GC平均时长
|
用于垃圾完全回收的平均时长
|
秒
|
|
Full GC最大时长
|
用于垃圾完全回收的最大时长
|
秒
|
|
ThreadPool
|
Active Thread Count
|
活动的线程数
|
个
|
Pending User Request
|
处于排队的用户请求个数
|
个
|
|
JDBC
|
JDBC Active Connection
|
JDBC活动连接数
|
个
|
标准
当前正在运行的线程数不能超过设定的最大值。一般情况下系统性能较好的情况下,线程数最小值设置50和最大值设置200比较合适。
当前运行的JDBC连接数不能超过设定的最大值。一般情况下系统性能较好的情况下,JDBC最小值设置50和最大值设置200比较合适。
GC频率不能频繁,特别是FULL GC更不能频繁,一般情况下系统性能较好的情况下,JVM最小堆大小和最大。
4)数据库指标:SQL、吞吐量、命中率、锁。
指标
|
二级指标
|
解释
|
单位
|
SQL
|
耗时
|
执行SQL耗时
|
微秒
|
吞吐量
|
QPS
|
每秒查询次数
|
个
|
TPS
|
每秒事务次数
|
个
|
|
命中率
|
Key Buffer命中率
|
索引缓冲区命中率
|
百分之
|
InnoDB Buffer命中率
|
InnoDB缓冲区命中率
|
百分之
|
|
Query Cache命中率
|
查询缓存命中率
|
百分之
|
|
Table Cache命中率
|
表缓存命中率
|
百分之
|
|
Thread Cache命中率
|
线程缓存命中率
|
百分之
|
标准
SQL耗时越小越好,一般情况下微秒级别。
命中率越高越好,一般情况下不能低于95%。
锁等待次数越低越好,等待时间越短越好。
5)前端指标:页面加载时间、页面数量、网络时间(DNS,连接时间、传输时间等)。
指标
|
二级指标
|
解释
|
单位
|
页面展示
|
首次显示时间
|
在浏览器地址栏输入URL按回车到用户看到网页的第一个视觉标志为止
|
毫秒
|
OnLoad事件时间
|
浏览器触发onLoad事件的时间,当原始文档和所有引用的内容完全下载后才会触发这个事件
|
毫秒
|
|
完全载入的时间
|
所有onLoad javascript 处理程序执行完毕,所有动态的或延迟加载的内容都通过这些处理程序触发的时间
|
毫秒
|
|
页面数量
|
页面大小
|
整个页面大小
|
KB
|
请求数量
|
从网站下载资源时所有网络请求的总数,尽量少
|
次
|
|
网络所花时间
|
DNS时间
|
DNS查找时间
|
毫秒
|
连接时间
|
浏览器与Web服务器建立TCP/IP连接的时间
|
毫秒
|
|
服务器时间
|
服务器处理时间
|
毫秒
|
|
传输时间
|
内容传输所用时间
|
毫秒
|
|
等待时间
|
等待某个资源释放的时间
|
毫秒
|
标准
页面要尽可能小及压缩。
页面展示和花费时间越短越好。
6)稳定性指标
最短稳定时间:系统按照最大容量的80%或标准压力(系统的预期日常压力)情况下运行,能够稳定运行的最短时间。
一般来说,对于正常工作日(8小时)运行的系统,至少应该能保证系统稳定运行8小时以上。对于7*24运行的系统,至少应该能够保证系统稳定运行24小时以上。
标准
TPS曲线稳定,没有大幅度的波动。
各项资源指标没有泄露或异常情况。
7)批量处理指标:指批量处理程序单位时间内处理的数据数量。一般用每秒处理的数据量来衡量。
处理效率是估算批量处理时间窗口最重要的计算指标。
关于批量处理时间窗口,不同系统的批量处理时间窗口在起止时间上可以部分重叠。另外,同一系统内部,也可能存在多个批量处理过程同时进行,其时间窗口相互叠加。
标准
在数据量很大的情况下,批处理时间窗口时间越短越好。
不能影响实时交易系统性能。
8)可扩展性指标:指应用软件或操作系统以群集方式部署,增加的硬件资源与增加的处理能力之间的关系。
计算公式为:(增加性能/原始性能)/(增加资源/原始资源)*100%。
扩展能力应通过多轮测试获得扩展指标的变化趋势。
标准
理想的扩展能力是资源增加几倍,性能就提升几倍。
扩展能力至少在70%以上。
9)可靠性指标:双机热备、集群、备份和恢复。
指标
|
测试内容
|
双机热备
|
节点切换是否成功及其消耗时间
双机切换是否有业务中断
节点回切是否成功及其耗时
双机回切是否有业务中断
节点回切过程中的数据丢失量
|
集群
|
集群中某个节点出现故障时,系统是否有业务中断情况出现
在集群中新增一个节点时,是否需要重启系统
当故障节点恢复后,加入集群,是否需要重启系统
当故障节点恢复后,加入集群,系统是否有业务中断情况出现
节点切换需要多长时间
|
备份和恢复
|
备份是否成功及其消耗时间
备份是否使用脚本自动化完成
恢复是否成功及其消耗时间
恢复是否使用脚本自动化完成
|
2. 具体性能的分析流程?
首先看关键指标是否满足需求,如果不满足,需要确定是哪个地方有问题,一般情况下,服务器端问题可能性比较大,也有可能是客户端问题(这种可能性非常小)。
如果是服务器端的问题,需要定位的问题有硬件相关指标,例如CPU,Memory,Disk I/O,Network I/O,如果是某个硬件指标有问题,需要深入的进行分析。如果中间件相关指标没问题,需要查看数据库相关指标,例如:慢查SQL,命中率,锁,参数设置。
如果以上指标都正常,应用程序的算法、缓冲、缓存、同步或异步可能有问题,需要具体深入的分析。
3. 如果让你去优化前端页面,你的优化流程是?
遇到问题,第一步是确定问题,先要确定是前端的问题还是后端的问题。
如果是前端的问题,那就要确定在哪些地方出了问题,按照前端的各种检测方法来检查。
如果是后端的问题,就从系统、中间件、数据库、网络等方面入手。
如何确定问题呢?
比如用Firefox的firebug调试,看一次请求在各部分分别花了多少时间,哪些请求耗时最长。
如果请求的是静态资源,时间很长,就需要考虑部署CDN啥的;
如果请求的不是静态资源而是服务器数据,时间长速度慢,那就分两种情况进行考虑:第一是后端的问题,第二是前端渲染问题。
如果返回数据很快,但界面数据没出来,就要考虑是前端js程序问题还是图片等资源太大的问题等等。
以上是关于2017-5-19&5-23/系统性能指标的主要内容,如果未能解决你的问题,请参考以下文章