性能提升之CPU

这篇文章来自同事加哥们阿福同学以前写在csdn博客里的，因为我经常需要搜索，这里就直接copy过来了，由于他就坐我旁边，肯定不会涉及到侵权问题，来瓶雪花就打发了，不过他csdn已经没维护了，有兴趣的可以前往他个人主页：http://www.hiyoufu.com/

我们知道现在服务器都是多核，最新的intel Sandybridge是NUMA IO结构，以网卡为例，也就是说PCI插槽并不像westmere一样，通过一个bridge连接到cpu上，目前SNB是直接pci链接到cpu上。

有时候我们测试performance的时候会看到性能忽高忽低的现象，原因比较难找，一头雾水，下面我根据自己的实际经验列出下面几个cpu对性能的影响：

多核并行编程cpu的亲和性以及frequence对性能的影响可能比较大，如果设置不好cpu的affinity，通过跨QPI 来访问另一个CPU上的内存，那么性能差距经过测试，会有10倍的差距（两个10G网口收包，平均包长256，最坏的情况2.5Gbps，最好的情况19.8Gbps， 64byte小包在L4 上能达到16.5Gbps）。

首先我们保证在硬件cpu上不受影响，在这里暂时不考虑cache一致性的问题：

1.保证cpu运行最高的频率，目前默认基本都是ondemand，也就是根据cpu的空闲程度来自动调节频率， C state，为了保证CPU 运行在P状态，也就是performance状态（当然耗电会大一些），可以通过下面的脚本做如下设置：

#!/bin/bash
for f in /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor
do
echo performance > $f
done
exit 0

这样可以保证cpu运行在最佳状态，通过lscpu可以看出， cpu的频率已经是最高的频率了。

2.cpu的set affinity或者taskset仅仅对用户层的程序有用，陷入内核后就无法保证当前线程运行在哪个cpu上了，我们要保证在内核上分配内存时通过vmalloc_node来指定正确的socket。

3.linux 内核目前提供了offline cpu的功能，当然cpu core 0目前是无法进行offline的（我认识的一个内核大师正在做cpu 0 offline的功能，估计很快内核会支持），所以我们为了排除cpu NUMA的影响，可以将socket 1上的所有的core进行logical offline，这样内核就看不到socket 1上的所有的cpu core了，内存分配会自动到node 0上。

我们运行下面命令：

cd /sys/devices/system/cpu/

cd online

可以看到online的cpu的编号，就是说内核可以使用的cpu编号。

我们以offline cpu11 为例，这里的编号是core的编号

cd cpu11

cat online

echo 0 > online

这样就可以offline cpu11了，我们在top命令或者别的一些观察cpu的命令中就无法看到cpu11了，这里面的具体实现机制比较复杂，感兴趣的可以去看内核源代码。

性能提升之CPU

赞过：

发表回复取消回复

分享到：

赞过：

发表回复 取消回复

发表回复取消回复