所以,我的 Sidekiq 工作人员出现了内存泄漏。我有一个工作服务器,只有一个队列用于这个工作任务,一周内达到大约 10G RSS。
我尝试仅使用 1 个工作线程在本地复制它,瞧——我在一夜之间从 200M 到 1G,处理 1 个任务/分钟。自然,我想知道泄漏了什么,所以我也在记录 RSS、heap_live_slots 和 heap_free_slots。当我绘制结果时,我可以看到稳定的RSS增长,而实时和空闲插槽随机波动,但在定义明确且恒定的边界内,而它们的总和保持不变。
在这一点上,我得出的结论是泄漏可能不是发生在 Ruby 代码中,而是发生在一些本机扩展中。所以我通过 RVM 重新安装了带有 Jemalloc 支持的 ruby:
rvm reinstall 2.4.2 --with-jemalloc
然后我设置MALLOC_CONF
:
export
MALLOC_CONF='prof_leak:true,lg_prof_sample:0,prof_final:true,stats_print:true'
并启动 Sidekiq。新启动的带有 1 个工作线程的 Sidekiq 价值大约 200M RSS,但是当我按 Ctrl+C 并查看 jemalloc 的统计输出时,我看到了一些完全不同的东西:
Arenas: 32
Quantum size: 16
Page size: 4096
Maximum thread-cached size class: 32768
Allocated: 34056, active: 61440, metadata: 2949272, resident: 2981888, mapped: 6352896, retained: 2035712
什么?6M映射?这不可能是真的。所以我启动 irb 并执行以下操作:
2.4.2 :001 > arr = []
=> []
2.4.2 :002 > loop do
2.4.2 :003 > arr << 'a'*10000000
2.4.2 :004?> sleep 1
2.4.2 :005?> end
等到 irb 进程爬升到大约 1G RSS 后,我停止了进程……并看到完全相同的数字。也许可视化调用图会帮助我理解发生了什么?
jeprof --show_bytes --pdf `which ruby` jeprof.10536.0.f.heap > ruby.pdf
Using local file /home/mhi/.rvm/rubies/ruby-2.4.2/bin/ruby.
Using local file jeprof.10536.0.f.heap.
No nodes to print
所以有些事情显然是错误的,这就是我需要帮助解决的问题。
这是 jemalloc stat 的完整输出:https ://pastebin.com/RiMLtqA6
UPD。
因此,我更新了所有与本机扩展相关的 gem,输出如下
bundle exec ruby -e 'puts Gem.loaded_specs.values.select{ |i| !i.extensions.empty? }.map{ |i| "#{i.name} #{i.version}" }'
:
io-console 0.4.6
nokogiri 1.8.1
bcrypt 3.1.11
debug_inspector 0.0.3
binding_of_caller 0.7.2
json 2.1.0
capybara-webkit 1.14.0
damerau-levenshtein 1.3.0
unf_ext 0.0.7.4
eventmachine 1.2.5
ffi 1.9.18
kgio 2.11.0
msgpack 1.1.0
mysql2 0.4.9
rainbow 2.2.2
raindrops 0.18.0
rbtrace 0.4.8
stackprof 0.2.10
therubyracer 0.12.3
unicode 0.4.4.4
unicorn 5.3.0