欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

记一次ZABBIX监控JMX故障

程序员文章站 2022-06-04 18:23:17
...

最近偶然发现线上其中一个服务的zabbix图形没有出来,点开发现报了一个错:

java.rmi.ConnectIOException: error during JRMP connection establishment; nested exception is: 
java.net.SocketException: Connection reset

初步怀疑是端口占用,然后看了端口,发现端口并没有被占用。重启了一下,图形依然没有出来。

接着看了下系统上的一些限制,没有超过限制,因为之前已经调整过了。

netstat看了下端口,全是TIME_WAIT,问题就应该出在这里了。

调整内核参数

/etc/sysctl.conf 

# tcp连接保持时间为1800秒
net.ipv4.tcp_keepalive_time = 1800
# 回收TIME_WAIT占用的连接
net.ipv4.tcp_tw_recycle = 1

sysctl -p

本来我以为这样就解决了,然而,几行文字出现在我的眼前

启用TIME-WAIT状态sockets的快速回收,这个选项不推荐启用。在NAT(Network Address Translation)网络下,会导致大量的TCP连接建立错误。如果没有技术大神的指点的话,千万不要去改动他。
最合适的解决方案是增加更多的四元组数目,比如,服务器可用端口,或服务器IP,让服务器能容纳足够多的TIME-WAIT状态连接。
在服务端,不要启用net.ipv4.tcp_tw_recycle,除非你能确保你的服务器网络环境不是NAT。在服务端上启用net.ipv4.tw_reuse对于连接进来的TCP连接来说,并没有任何卵用.
在客户端(尤其是服务器上,某服务以客户端形式运行时,比如上面提到的nginx反代,连接着redis、mysql的FPM等等)上启用net.ipv4.tcp_tw_reuse,还算稍微安全的解决TIME-WAIT的方案。再开启net.ipv4.tcp_tw_recycle的话,对客户端(或以客户端形式)的回收,也没有什么卵用,反而会发生很多诡异的事情(尤其是FPM这种服务器上,相对nginx是服务端,相对redis是客户端)。

看来,出现问题的时候一定要考虑全面,不然就会埋下隐患。

参考文档

https://www.cnblogs.com/xupeiyuan/p/zabbix_too_much_time_wait.html
https://blog.csdn.net/chengm8/article/details/51668992

相关标签: 监控