[实践OK]阿里云linux的vps内存占用太多导致kswapd0进程与events/0进程消耗大量CPU百分比高的问题,及重新分配swap空间,解决kswapd0长期占cpu但剩余的内存还有很多buffer不正常,LINUX 手动建立更大的虚拟缓存文件SWAP扩大文件及删除重建,vmstat判断系统性能等。 不指定

jackxiang 2016-2-23 22:26 | |
操作系统每过一定时间就会唤醒kswapd ,看看内存是否紧张,如果不紧张,则睡眠,在 kswapd 中,有2 个阀值, pages_hige和pages_low,当空闲内存页的数量低于 pages_low 的时候, kswapd进程就会扫描内存并且每次释放出32 个free pages,直到 free page 的数量到达pages_high.
通过检查vmstat 的输出结果,发现在那个时间段内,系统的页面换入换成现象很严重。
就是说,问题是内存紧张了,导致了交换分区频繁使用到。kswapd0 进程需要换入换出虚拟内存磁盘空间,导致了系统出现短时间摇摆。
http://mikixiyou.iteye.com/blog/1573976

背景:阿里云的VPS服务器里常常发现有一个Kswapd0的cpu有点高,升级了内核了也很高,于是原来是内存没有释放导致的,https://www.dba-china.com/topic/35:
  PID USER      PR  NI    VIRT    RES    SHR S %CPU %MEM     TIME+        COMMAND
   55 root         20   0       0         0        0 D       6.2  0.0            316:54.64  kswapd0


售后工程师 :  您好,linux 系统cpu占用异常请您参考:
https://help.aliyun.com/knowledge_detail/13129846.html  

ECS如果无法远程连接,可以通过ECS的管理控制台中的“更多操作”里的“连接管理终端”连接服务器。使用方面的帮助,您可以参考:https://help.aliyun.com/document_detail/25433.html  


获得当前系统中运行的最占内存的前10个程序:
ps aux | sort -k 6 -rn | head -n10

kswapd进程,就是虚拟内存管理进程,它的存在和占用CPU,即表明实际可用内存很少;而大量的si,so正是说明了这一点.这确实可能与你设置的内存段不合理有及大的关系。一旦使用到虚拟内存,IO读写一定会成为瓶颈。
http://www.linuxidc.com/wap.aspx?nid=64538&p=1&cp=1&cid=0


设置后还是不行,cpu下不来,只能是云盾了,[求助]阿里云ECScpu使用率经常跑满100%:
https://bbs.aliyun.com/read/260014.html?pos=17
1核  内存1G 带宽2m
网站日IP100+   pv1000+     是小站
我用的wp控制面板  开了每30分钟备份一次数据库。
一个月前出现了一次cpu使用率100%的情况,找了淘宝上的大神 花了30元搞定,他的意思是我开的30分钟一次数据库备份的原因,让我关了。        我没有关。
10天前 又出现了一次cpu使用率跑满的情况,我自己登上阿里云主机,把 云盾 全体体检设置里的  深度扫描 和扫描都关了。cpu使用率立马降了下来。事后几天我又把云盾扫描 打开了。
今天凌晨 又出现一次cpu跑满100%的情况,我刚发现,把 云盾 全体体检设置里的  深度扫描 和扫描都关了  重启了服务器,10分钟后 cpu使用率恢复正常,网站正常。(事实上 我不清楚是重启服务器还是关了云盾扫描的原因才让网站恢复正常打开)


大家给个建议,这种情况 是我的配置低吗(如果是  是增加内存还是弄成双核   注意我的网站日ip100+  pv1000+    )
                                        是我开的每30分钟备份一次数据库的原因吗(我的数据库比较重要,我希望高频次备份,如果有不需要高频次备份的方法 请指出)
                                       是阿里云服务器   云盾  体检扫描的原因吗(我怀疑是,但是我是小白,不代表我的怀疑是正确的)
阿里云的大神们啊  请赐高见!!

这里有一个教程,但改版了,这个关闭功能好像给去了,目前找了下但是没有找到:http://xiedexu.cn/aliyun-close-yundun.htm
发现一个新的东西:服务器安全(安骑士)-->实例列表-->安全设置->有一个IP登录白名单和登录地进行修改的,还可以直接关闭安骑士。


实实在在的提个工单:
售后工程师 :  您的问题我们已收到,会尽快为您查看。请您耐心等待,谢谢  
2016-03-16 11:02:48
售后工程师 :  您好,您可以参考以下说明解释:
http://help.aliyun.com/knowledge_detail/7591195.html  
2016-03-16 11:06:23
jac***@aliyun.com : 这个链接也太大而化之了吧,free -m查看明明还剩下很多内存的啊。请工程师给实际勘察下,多谢了。  
2016-03-16 11:26:02
售后工程师 :  我方转给后端专员查看下,请稍等  
2016-03-16 11:28:35
售后工程师 :  您好,您这样试下
在vim /etc/sysctl.conf中添加
vm.min_free_kbytes = 22528
设置的小点然后sysctl -p生成,之后看下cpu使用情况  
设置后重启后,今天好像好了,但不保证后面会不会好。
查了下:
min_free_kbytes  
/proc/sys/vm/min_free_kbytes
该文件表示强制Linux VM最低保留多少空闲内存(Kbytes)。
32位系统,设vm.min_free_kbytes时,需注意lowmem的值:
http://blog.sina.com.cn/s/blog_69cc2f0b0100z0la.html
______________________________________________________________________________________________________________________
步骤一:设置分为永久和临时设置:
这个设置才好了,下面给的一个彻底取消swap的设置有问题,导致nginx启动不了,php也有些问题,如下:
(1)永久修改: /etc/sysctl.conf

vm.swappiness = 17
vm.min_free_kbytes = 22528
//vm.swappiness=20  //阿里去vps这个值差不多,但容易crontab的内存不段交换不够,一天后左右死机和它相关。

sysctl -p
.          临时性修改:[root@rhce ~]# sysctl vm.swappiness=10

   (2)文件/proc/sys/vm/drop_caches设
置为1
、2、3,设置
多少直到
kswapd0不占用90%以上CPU,得结合前面步骤里的vm.swappiness=20块调整:
开机启动修改(这个玩法感觉没有太大价值,即使防crontab也一样):
/etc/rc.local
#解决kswapd0长期占cpu但剩余的内存还有很多buffer不正常
echo 1 >/proc/sys/vm/drop_caches        [这个设置有一定效果,前面那个vm.swappiness=20,和10感觉根本没效果。]
/usr/sbin/sysctl  vm.swappiness=10  
————————————————————————————————————————————————————————————————

Nginx:
/usr/local/scripts/autoStartNginxEnterSSLKey.sh
nginx: [alert] mmap(MAP_ANON|MAP_SHARED, 134217728) failed (12: Cannot allocate memory)

[root@iZ25dcp92ckZ ngx_fcgi_cache2]# cat /proc/swaps
Filename                                Type            Size    Used    Priority
/swapfile                               file            1048572 0       -1

PHP:
[10-Jan-2016 21:35:21 Asia/Shanghai] PHP Fatal error:  Out of memory (allocated 2097152) (tried to allocate 232245 bytes) in /data/htdocs/jackxiang.com/inc/boblog_class_run.php on line 548


重新分配:http://blog.csdn.net/wxqee/article/details/7970110
步骤一:dd if=/dev/zero of=/swapfile bs=2048 count=131072   (257M)
            dd if=/dev/zero of=/swapfile bs=2048 count=196608   (385M)
            dd if=/dev/zero of=/swapfile bs=2048 count=262144   (512M)
            dd if=/dev/zero of=/swapfile bs=2048 count=327680   (641M)
            dd if=/dev/zero of=/swapfile bs=2048 count=589824    (1.2G)
            dd if=/dev/zero of=/swapfile bs=2048 count=720896    (1.4G)

在root提示符下,键入下面的命令,其中count大小等于所要求的块大小:
dd if=/dev/zero of=/swapfile bs=1024 count=65536
记录了1024+0 的读入
记录了1024+0 的写出
1073741824字节(1.1 GB)已复制,21.6104 秒,49.7 MB/秒
步骤二:mkswap /swapfile
[root@iZ25dcp92ckZ ngx_fcgi_cache2]# mkswap swapfile
[root@iZ25dcp92ckZ ~]# mkswap /swapfile
正在设置交换空间版本 1,大小 = 262140 KiB
无标签,UUID=80386ab9-4ce9-4608-8bd6-3315e80a212e
步骤三:swapon /swapfile  立即生效
[root@iZ25dcp92ckZ ngx_fcgi_cache2]# swapon swapfile
[root@iZ25dcp92ckZ ~]# swapon /swapfile
swapon: /swapfile:不安全的权限 0644,建议使用 0600。
[root@iZ25dcp92ckZ ~]# chmod 0600 /swapfile
步骤四:/swapfile    swap    swap    defaults    0 0
在每次开机的时候自动加载swap文件, 需要在 /etc/fstab 文件中增加一行:
/swapfile    swap    swap    defaults    0 0
步骤五:检查是否成功
cat /proc/swaps 或者free命令的输出来查看swap是否已打开。
[root@iZ25dcp92ckZ ~]# cat /proc/swaps
Filename                                Type            Size    Used    Priority
/swapfile                               file            262140  0       -1
步骤六:建立错位置了,先停止swap分区并删除掉
1)先停止swap分区:
swapoff  /swapfile
2)删除掉分区:
rm -Rf /swapfile
3)从fstab里删除掉:
修改/etc/fstab文件,把/swapfile    swap    swap    defaults    0 0 这行删除。这样就能把手动增加的分区删除了。


请使用RHEL/CentOS 6.4及更新版本内核的MySQL同志们注意,vm.swappiness = 0的默认行为修改了,如果继续设置vm.swappiness = 0,有可能导致系统内存溢出,从而导致MySQL被意外kill掉。
扩展swap分区:http://blog.sina.com.cn/s/blog_779eecd8010124ta.html
在ubuntu 里面,swappiness的值的大小对如何使用swap分区是有着很大的联系的。swappiness=0的时候表示最大限度使用物理内存,然后才是 swap空间,swappiness=100的时候表示积极的使用swap分区,并且把内存上的数据及时的搬运到swap空间里面。两个极端,对于ubuntu的默认设置,这个值等于60,建议修改为10。具体这样做:
1.查看你的系统里面的swappiness
$ cat /proc/sys/vm/swappiness
不出意外的话,你应该看到是 60
2.修改swappiness值为10
$ sudo sysctl vm.swappiness=10
但是这只是临时性的修改,在你重启系统后会恢复默认的60,所以,还要做一步:
$ gksudo gedit /etc/sysctl.conf
在这个文档的最后加上这样一行:
vm.swappiness=10

来自:http://blog.csdn.net/tianlangxiaoyue/article/details/7249484

http://blog.csdn.net/zhsh87/article/details/8954493

_________________________________________________________________________________________________________

1.kswapd0
Linux uses kswapd for virtual memory management such that pages that have been recently accessed are kept in memory and less active pages are paged out to disk.
(what is a page?)…Linux uses manages memory in units called pages.
So,the kswapd process regularly decreases the ages of unreferenced pages…and at the end they are paged out(moved out) to disk
系统每过一定时间就会唤醒kswapd,看看内存是否紧张,如果不紧张,则睡眠,在kswapd中,有2个阀值,pages_hige和pages_low,当空闲内存页的数量低于pages_low的时候,kswapd进程就会扫描内存并且每次释放出32个free pages,直到free page的数量到达pages_high.


内存16G,但buffer就占了11G之多,cache很少,不仅这样,swap也被占用了一部分,而且总在交换(kswapd0一直占cpu90%以上)。
服务器上只有apache和nfsd服务。用作图片服务器。
buffer占的内存无法回收(用命令:echo 3 >/proc/sys/vm/drop_caches)
Linux下清理内存和Cache方法,Linux下清理内存和Cache方法,修改/etc/sysctl.conf 添加如下选项后就不会内存持续增加,这个设置有问题导致nginx和Php出现问题别千万直接粘贴:

如何让/etc/sysctl.conf修改永久生效:
写入到/etc/sysctl.conf就已经永久生效了,如果要让刚写入的立即也生效可以执行以下sysctl -p.
更多值:http://www.linuxidc.com/Linux/2010-03/24939.htm

天下午网站宕了两次机,发工单给阿里云,发现原因是服务器的CPU 100%了。

重启服务器后,使用 top 命令看看是哪些进程消耗那么大的 CPU 使用。盯了有好十几分钟,主要消耗 CPU 的进程有两个,一个是 mysql,另一个是 apache。下面的图可以看到,mysql 占用了很大部分的 CPU 使用。apache 单个进程虽然占得不多,但有不少个 apache 进程同时存在,也消耗了不少 CPU 的使用。


当然,这些不足以让服务器的 CPU 直接跑满挂掉,后来发现了两个大家伙:


当 mysql 的 CPU 消耗降下来之后,出现了两个奇怪的进程:kswapd0 和 events/0。

1. kswapd0

Linux uses kswapd for virtual memory management such that pages that have been recently accessed are kept in memory and less active pages are paged out to disk.

(what is a page?)…Linux uses manages memory in units called pages.

So,the kswapd process regularly decreases the ages of unreferenced pages…and at the end they are paged out(moved out) to disk

kswapd0进程的作用:它是虚拟内存管理中,负责换页的,操作系统每过一定时间就会唤醒kswapd ,看看内存是否紧张,如果不紧张,则睡眠,在 kswapd 中,有2 个阀值,pages_hige 和 pages_low,当空闲内存页的数量低于 pages_low 的时候,kswapd进程就会扫描内存并且每次释放出32 个free pages,直到 free page 的数量到达pages_high。

查看内存使用率,发现内存确实不够用,有时候已经使用到了swap。

2. events/0

另一个进程 events/0 是工作者线程,主要是用来执行delay work的。先简单介绍一下。

我们都知道中断的底半部机制有三种:软中断、tasklet和工作队列。其中软中断很少使用,内核中只有网络在使用,它的延时是最小的。

tasklet是软中断的一个应用,所有线程注册的tasklet都会顺序被执行。因此tasklet的执行环境是软中断上下文,所以不能阻塞或者睡眠。一般情况下,tasklet的延迟也很小,可以满足大部分需求。

要是底半部中可能睡眠,那么只好使用工作队列了。工作队列其实是把要做的底半部的函数交给内核的专门线程去调用。这样工作队列就运行于线程环境了,不怕睡眠。当然,睡眠会影响注册到同一线程的其它底半部的执行,但不会引起大的问题。每个CPU都有一个线程(events/n,n是编号)负责执行工作队列,第一个CPU的线程是events/0,如果是双核的,还会有一个events/1线程。程序使用了工作队列,所以每次执行都会多出一个events/0(第一个CPU上工作线程)。

内核的软中断辅助处理线程ksoftirqd/n(n是CPU编号),它们负责出发软中断中触发的软中断。它们将重新触发软中断放在系统空闲时调用,而不是马上。这样用户空间不至于饥饿,重新触发的软中断也得以尽快执行。(《Linux内核设计与实现》85页)

宕机原因显而易见了,physical mem 不足,引起 swap 频繁。其实这也是 VPS 使用上的一个常见的问题了,通常是由 Apache 占用内存过多引起的。kswapd0 是系统的虚拟内存管理程序,如果物理内存不够用,系统就会唤醒 kswapd0 进程,由 kswapd0 分配磁盘交换空间作缓存,因而占用大量的 CPU 资源。重启Apache,释放内存,问题就会消失。但这不是长久之计,最好的方法还是花点钱升级下内存。我也知道随着访问量的不断上涨,肯定要升级下内存,但是没想到这个问题这么快就来了……

吐槽一下,虽然网站现在的规模也不算很大,但是慢慢也开始吃服务器的硬件了。CPU和内存接下来也需要升级,一个人维护这么一个站点还真的各种操心。



来自:http://www.nowamagic.net/librarys/veda/detail/2539
http://q.cnblogs.com/q/62784/

作者:jackxiang@向东博客 专注WEB应用 构架之美 --- 构架之美,在于尽态极妍 | 应用之美,在于药到病除
地址:http://jackxiang.com/post/8529/
版权所有。转载时必须以链接形式注明作者和原始出处及本声明!


最后编辑: jackxiang 编辑于2016-10-31 17:23
评论列表
发表评论

昵称

网址

电邮

打开HTML 打开UBB 打开表情 隐藏 记住我 [登入] [注册]