我运行一个相当流行的基于浏览器的网页游戏,在 Apache (worker) 和 mod_perl 下运行。在高峰时间,当服务器每分钟处理大约 4200 个请求时,每 3-15 分钟左右一次,Apache 进程将挂起。
我已经确定这些进程陷入“FUTEX_WAIT”状态,并且似乎没有做任何事情:它们不会消耗 CPU 或在 RAM 中变得更大。但这是一个严重的问题,因为它们只是坐在那里,占用 RAM。
我当前的解决方案是一个 cron 作业,它剔除卡在 futex_wait_queue_me 中的 Apache 进程。但这并不是很好,因为碰巧等待来自挂起的 Apache 进程的响应的用户会收到错误(500:服务器关闭连接而没有发回数据)。
我无法在我的开发机器上重现该问题,并且无法弄清楚如何进行故障排除。我很想知道:我该如何进一步诊断?
编辑:我发现问题发生在流量激增之后,当 Apache 产生更多的工作进程,然后尝试剔除它们。从孩子的角度来看,这是正常工作时的样子:
$ sudo strace -p 21764
Process 21764 attached - interrupt to quit
read(5, "!", 1) = 1
tgkill(21764, 21791, SIGHUP) = 0
tgkill(21764, 21791, SIG_0) = 0
select(0, NULL, NULL, NULL, {0, 500000}) = ? ERESTARTNOHAND (To be restarted)
--- SIGTERM (Terminated) @ 0 (0) ---
rt_sigreturn(0xf) = -1 EINTR (Interrupted system call)
munmap(0x7f9905750000, 8392704) = 0
munmap(0x7f98f8736000, 8392704) = 0
[...]
madvise(0x7f98e4021000, 73728, MADV_DONTNEED) = 0
exit_group(0) = ?
Process 21764 detached
...但偶尔会这样:
$ sudo strace -p 24133
Process 24133 attached - interrupt to quit
read(5, "!", 1) = 1
tgkill(24133, 24164, SIGHUP) = 0
tgkill(24133, 24164, SIG_0) = 0
--- SIGTERM (Terminated) @ 0 (0) ---
rt_sigreturn(0xf) = 0
select(0, NULL, NULL, NULL, {0, 500000}) = 0 (Timeout)
tgkill(24133, 24140, SIGUSR1) = 0
futex(0x7f9904f4e9d0, FUTEX_WAIT, 24140, NULL
...并且不再继续。
我不知道如何进一步调试。