如何找出 Node.js 服务器 CPU 100% 的原因?
Posted
技术标签:
【中文标题】如何找出 Node.js 服务器 CPU 100% 的原因?【英文标题】:How to find out the cause of CPU 100% of Node.js server? 【发布时间】:2014-08-06 05:08:54 【问题描述】:我正在使用 socket.io 运行 Node.js 服务器。这是一个简单的聊天服务器。已经2年了,所以软件版本很旧,所以我最近更新了它们。更新后,服务器频繁消耗 CPU 100%。它已经运行了 2 年,所以我认为原因不是应用程序代码,但我无法找出问题所在。
在我更新之前:
Node.js 0.8.14 socket.io 0.9.16 表达 2.5.2现在我正在使用:
Node.js 0.10.28 ~ 0.11.13(都试过了) socket.io 1.0.1 快递4.1.1我尝试过基准测试,但无法重现。我发现模板渲染很慢,但是我的聊天服务器是用于移动应用程序的,所以它不经常使用 html 页面。只有管理页面使用模板引擎,但是当我没有看到管理页面时,CPU 100% 发生。
使用 strace,我得到了这个:
strace -r -p 32224 -c
% time seconds usecs/call calls errors syscall
------ ----------- ----------- --------- --------- ----------------
16.91 0.003417 35 97 futex
14.47 0.002923 8 347 72 epoll_ctl
14.10 0.002848 20 144 write
11.32 0.002286 15 152 read
6.27 0.001266 18 70 close
5.77 0.001165 19 61 61 connect
5.53 0.001117 6 183 clock_gettime
5.20 0.001051 117 9 munmap
4.65 0.000940 5 173 gettimeofday
4.19 0.000846 14 61 socket
3.72 0.000752 6 122 ioctl
3.36 0.000679 12 58 epoll_wait
2.34 0.000473 7 72 getsockopt
1.95 0.000394 56 7 mmap
0.22 0.000045 23 2 open
------ ----------- ----------- --------- --------- ----------------
100.00 0.020202 1558 133 total
但是,我不知道如何分析这份报告。 epoll_ctl好像是被event loop使用了,epoll_ctl的错误可能是connect的错误导致的吧?我发现 syscall connect 是用于套接字连接的,但我不能更进一步。
此 strace 报告时长 2 分钟。没有那么多用户。当时只有 2~5 个用户。
我可以通过报告找出原因吗?还是我必须找到其他方式来调试?
【问题讨论】:
【参考方案1】:V8 Profiler 可以输出可以在 Chrome Profiling 标签中读取的报告。如果你使用 PM2 和 Keymetrics,那真的很容易。只需安装 v8-profiler 和 pmx 模块。确保在脚本中需要 pmx 模块,然后通过 Keymetrics 站点开始分析。您始终可以单独使用 V8 Profiler 来获得相同的报告。不过,这需要做更多的工作。
【讨论】:
以上是关于如何找出 Node.js 服务器 CPU 100% 的原因?的主要内容,如果未能解决你的问题,请参考以下文章
node.js 应用程序突然以 100% 加载 CPU 并挂起
运行 vue-cli-service serve 时来自 Node.js 的高 CPU 使用率