性能监控与压力测试
目录
1、性能监控
1.1、jvm内存模型
1.2、堆
1.3、jconsole与jvisualvm
1.4、监控指标
1.5、JVM分析与调优
2、压力测试
2.1、描述
2.2、性能指标
2.3、JMeter
1、性能监控
1.1、jvm内存模型
1、程序计数器:Program Counter Register
(1)记录的是正在执行的虚拟机字节码指令的地址。
(2)此内存区域是唯一一个在 JAVA 虚拟机规范中没有规定任何 OutOfMemoryError 的区域。
2、虚拟机:VM Stack
(1)描述的是 JAVA 方法执行的内存模型,每个方法在执行的时候都会创建一个栈帧,用于存储局部变量表,操作数栈,动态链接,方法接口等信息。
(2)局部变量表存储了编译期可知的各种基本数据类型、对象引用。
(3)线程请求的栈深度不够会报 StackOverflowError 异常。
(4)栈动态扩展的容量不够会报 OutOfMemoryError 异常。
(5)虚拟机栈是线程隔离的,即每个线程都有自己独立的虚拟机栈。
3、本地方法:Native Stack
本地方法栈类似于虚拟机栈,只不过本地方法栈使用的是本地方法。
4、堆:Heap
几乎所有的对象实例都在堆上分配内存。
1.2、堆
1、描述
所有的对象实例以及数组都要在堆上分配。堆是垃圾收集器管理的主要区域,也被称为“GC 堆”,也是我们优化最多考虑的地方。
2、堆可以细分为
(1)新生代
Eden 空间
From Survivor 空间
To Survivor 空间
(2)老年代
(3)永久代/元空间
Java8 以前永久代,受 jvm 管理,java8 以后元空间,直接使用物理内存。因此,默认情况下,元空间的大小仅受本地内存限制。从 Java8 开始,HotSpot 已经完全将永久代(Permanent Generation)移除,取而代之的是一个新的区域—元空间(MetaSpace)。
1.3、jconsole与jvisualvm
Jdk 的两个小工具 jconsole、jvisualvm(升级版的 jconsole);通过命令行启动,可监控本地和远程应用,远程应用需要配置。
1、jvisualvm能干什么
监控内存泄露,跟踪垃圾回收,执行时内存、cpu 分析,线程分析
运行:正在运行的
休眠:sleep
等待:wait
驻留:线程池里面的空闲线程
监视:阻塞的线程,正在等待锁
2、安装插件方便查看gc
cmd 启动 jvisualvm
工具->插件
1.4、监控指标
1、中间件指标
(1)当前正在运行的线程数不能超过设定的最大值。一般情况下系统性能较好的情况下,线程数最小值设置 50 和最大值设置 200 比较合适。
(2)当前运行的 JDBC 连接数不能超过设定的最大值。一般情况下系统性能较好的情况下,JDBC 最小值设置 50 和最大值设置 200 比较合适。
(3)GC频率不能频繁,特别是 FULL GC 更不能频繁,一般情况下系统性能较好的情况下,JVM 最小堆大小和最大堆大小分别设置 1024M 比较合适。
2、数据库指标
(1)SQL 耗时越小越好,一般情况下微秒级别。
(2)命中率越高越好,一般情况下不能低于 95%。
(3)锁等待次数越低越好,等待时间越短越好。
(4)中间件越多,性能损失越大,大多都损失在网络交互上。
1.5、JVM分析与调优
1、描述
jvm 调优,调的是稳定,并不能带给你性能的大幅提升。服务稳定的重要性就不用多说了,保证服务的稳定,gc 永远会是 Java 程序员需要考虑的不稳定因素之一。复杂和高并发下的服务,必须保证每次 gc 不会出现性能下降,各种性能指标不会出现波动,gc 回收规律而且干净,找到合适的 jvm 设置。Full gc 最会影响性能,根据代码问题,避免 full gc 频率。可以适当调大年轻代容量,让大对象可以在年轻代触发 yong gc,调整大对象在年轻代的回收频次,尽可能保证大对象在年轻代回收,减小老年代缩短回收时间。
2、几个常用工具
jstack:查看 jvm 线程运行状态,是否有死锁现象等信息。
jinfo:可以输出并修改运行时的 java 进程的 opts。
jps:与 unix 上的 ps 类似,用来显示本地的 java 进程,可以查看本地运行着几个 java 程序,并显示他们的进程号。
jstat:一个极强的监视 VM 内存工具。可以用来监视 VM 内存内的各种堆和非堆的大小及其内存使用量。
jmap:打印出某个 java 进程(使用 pid)内存内的所有'对象'的情况(如:产生哪些对象,及其数量)。
3、命令示例
jstat 工具特别强大,有众多的可选项,详细查看堆内各个部分的使用量,以及加载类的数量。使用时,需加上查看进程的进程 id,和所选参数。
代码语言:javascript复制jstat -class pid //显示加载 class 的数量,及所占空间等信息
jstat -compiler pid //显示 VM 实时编译的数量等信息
jstat -gc pid //可以显示 gc 的信息,查看 gc 的次数,及时间
jstat -gccapacity pid //堆内存统计,三代(young,old,perm)内存使用和占用大小
jstat -gcnew pid //新生代垃圾回收统计
jstat -gcnewcapacity pid //新生代内存统计
jstat -gcold pid //老年代垃圾回收统计
除了以上一个参数外,还可以同时加上两个数字,如:jstat -printcompilation 3024 250 6 //是每 250 毫秒打印一次,一共打印 6 次,还可以加上-h3 每三行显示一下标题
jstat -gcutil pid 1000 100 //1000ms 统计一次 gc 情况统计 100 次
2、压力测试
2.1、描述
1、压力测试考察当前软硬件环境下系统所能承受的最大负荷并帮助找出系统瓶颈所在。压测都是为了系统在线上的处理能力和稳定性维持在一个标准范围内,做到心中有数。
2、使用压力测试,我们有希望找到很多种用其他测试方法更难发现的错误。有两种错误类型是:内存泄漏,并发与同步。
3、有效的压力测试系统将应用以下这些关键条件:重复,并发,量级,随机变化。
2.2、性能指标
响应时间(Response Time: RT):响应时间指用户从客户端发起一个请求开始,到客户端接收到从服务器端返回的响 应结束,整个过程所耗费的时间。
HPS(Hits Per Second):每秒点击次数,单位是次/秒。
TPS(Transaction per Second):系统每秒处理交易数,单位是笔/秒。
QPS(Query per Second):系统每秒处理查询次数,单位是次/秒。对于互联网业务中,如果某些业务有且仅有一个请求连接,那么 TPS=QPS=HPS,一般情况下用 TPS 来衡量整个业务流程,用 QPS 来衡量接口查询次数,用 HPS 来表示对服务器单击请求。
无论 TPS、QPS、HPS,此指标是衡量系统处理能力非常重要的指标,越大越好,根据经验,一般情况下:
金融行业:1000TPS~50000TPS
不包括互联网化的活动 保险行业:100TPS~100000TPS
不包括互联网化的活动 制造行业:10TPS~5000TPS
互联网电子商务:10000TPS~1000000TPS
互联网中型网站:1000TPS~50000TPS
互联网小型网站:500TPS~10000TPS
最大响应时间(Max Response Time):指用户发出请求或者指令到系统做出反应(响应)的最大时间。
最少响应时间(Mininum ResponseTime):指用户发出请求或者指令到系统做出反应(响应)的最少时间。
90%响应时间(90% Response Time):是指所有用户的响应时间进行排序,第90%的响应时间。
从外部看,性能测试主要关注如下三个指标:
(1)吞吐量:每秒钟系统能够处理的请求数、任务数。
(2)响应时间:服务处理一个请求或一个任务的耗时。
(3)错误率:一批请求中结果出错的请求所占比例。
2.3、JMeter
1、JMeter安装
https://jmeter.apache.org/download_jmeter.cgi
下载对应的压缩包,解压运行 jmeter.bat 即可。
2、JMeter压测示例
(1)添加线程组
线程组参数详解:
线程数:虚拟用户数。一个虚拟用户占用一个进程或线程。设置多少虚拟用户数在这里也就是设置多少个线程数。
Ramp-Up Period(in seconds)准备时长:设置的虚拟用户数需要多长时间全部启动。如果线程数为 10,准备时长为 2,那么需要 2 秒钟启动 10 个线程,也就是每秒钟启动 5 个线程。
循环次数:每个线程发送请求的次数。如果线程数为 10,循环次数为 100,那么每个线程发送 100 次请求。总请求数为 10*100=1000 。如果勾选了“永远”,那么所有线程会一直发送请求,直到选择停止运行脚本。
Delay Thread creation until needed:直到需要时延迟线程的创建。
调度器:设置线程组启动的开始时间和结束时间(配置调度器时,需要勾选循环次数为永远)。
持续时间(秒):测试持续时间,会覆盖结束时间。
启动延迟(秒):测试延迟启动时间,会覆盖启动时间。
启动时间:测试启动时间,启动延迟会覆盖它。当启动时间已过,手动只需测试时当前时间也会覆盖它。
结束时间:测试结束时间,持续时间会覆盖它。
(2)添加HTTP请求
(3)添加监听器
(4)启动压测与查看分析结果
有错误率同开发确认,确定是否允许错误的发生或者错误率允许在多大的范围内。
Throughput 吞吐量每秒请求的数大于并发数,则可以慢慢的往上面增加;若在压测的机器性能很好的情况下,出现吞吐量小于并发数,说明并发数不能再增加了,可以慢慢的往下减,找到最佳的并发数。
压测结束,登陆相应的 web 服务器查看 CPU 等性能指标,进行数据的分析。
最大的 tps,不断的增加并发数,加到 tps 达到一定值开始出现下降,那么那个值就是最大的 tps。
最大的并发数,最大的并发数和最大的 tps 是不同的概率,一般不断增加并发数,达到一个值后,服务器出现请求超时,则可认为该值为最大的并发数。
压测过程出现性能瓶颈,若压力机任务管理器查看到的 cpu、网络都正常,未达到 90% 以上,则可以说明服务器有问题,压力机没有问题。
影响性能考虑点包括:数据库、应用程序、中间件(Tomcat、Nginx)、网络和操作系统等方面。
首先考虑自己的应用属于 CPU 密集型还是 IO 密集型。
3、JMeter Address Already in use 错误解决
描述:windows 本身提供的端口访问机制的问题。Windows 提供给 TCP/IP 链接的端口为 1024-5000,并且要四分钟来循环回收他们。就导致 我们在短时间内跑大量的请求时将端口占满了。
解决方法:
(1)cmd 中,用 regedit 命令打开注册表。
(2)在此目录下
代码语言:javascript复制HKEY_LOCAL_MACHINESYSTEMCurrentControlSetServicesTcpipParameters
右击 parameters,添加一个新的 DWORD,名字为 MaxUserPort,然后双击 MaxUserPort,输入数值数据为 65534,基数选择十进制(如果是分布式运 行的话,控制机器和负载机器都需要这样操作)。
(3)修改配置完毕之后记得重启机器才会生效。