中国2015DPDK开发者大会主页

简述

有幸全程参与了基于DPDK¹下一代高性能CloudXNS²服务器开发，从未知到慢慢熟悉，其中也走了些弯路也踩过一些坑，一路走来有些感受与心得体会，在此进行梳理下，以对这一阶段做下些小的总结，也可以与同僚们进行交流学习。

背景

上一代XNS服务器是基于Linux内核进行开发，单机性能达到数百万级别QPS³，相对于BIND⁴来说已经高了很多,平常处理正常毫无压力，但在受大量DDOS攻击时服务质量大大降低,虽然我们采用了远端清洗与近地防御的安措施，与受攻击时调度其他应急服务器来抗，但增加了服务器与人工干预成本。为了更好的抗DDOS攻击与服务更多的用户，需求单机处理千万级别的替代方案呼之欲出。

目标设定

单机处理能力千万级别。
性能，性能，性能。(重要的事重复三遍)
稳定压倒一切。(此话不是我说的)
社区活跃，已有商用案例。

需求调研

　　按照上述的目标设定需求，要达到单机处理千万级别的只能采用轮询而非中断方式，在市面上的可实现技术方案有DPDK/pf_ring/netmap等. 其中DPDK为Intel公司主推，并有BAT之类的大型公司进行商用，而且也比较适合处理UDP类型协议。经过权衡之下，我们决定采用DPDK进行下一代XNS的替代方案。

优点

性能高
用户态开发
死后易重启

缺点

无网络协议栈
开发困难，周期长
参考资料相对还匮乏

DPDK核心思想

组织结构

　　DPDK 的组成架构如下图所示,相关技术原理概述如下: DPDK组织架构图

　　在最底部的内核态(Linux Kernel)DPDK 有两个模块:KNI 与 IGB_UIO。其中,KNI 提供给用户一个使用 Linux 内核态的协议栈,以及传统的 Linux 网络工具(如ethtool, ifconfig)。IGB_UIO(igb_uio.ko 和 kni.ko. IGB_UIO)则借助了 UIO 技术,在初始化过程中将网卡硬件寄存器映射到用户态。

　　DPDK 的上层用户态由很多库组成,主要包括核心部件库(Core Libraries)、平台相关模块(Platform)、网卡轮询模式驱动模块(PMD-Natives& Virtual)、QoS 库、报文转发分类算法(Classify)等几大类,用户应用程序可以使用这些库进行二次开发.

用户态模式下的PMD Driver

去除了中断影响，减少了操作系统内核的开销，消除了IO吞吐瓶颈；
避免了内核态和用户态的报文拷贝；用户态下软件崩溃，不会影响系统的稳定性；
Intel提供的PMD驱动，充分利用指令和网卡的性能；

HugePage和m_buf管理

提供2M和1G的巨页，减少了TLB Miss，TLB Miss严重影响报文转发性能；
高效的m_buf管理，能够灵活的组织报文，包括多buffer接收，分片/重组，都能够轻松应对；

Ring

无锁化的消息队列，实际验证，性能充足；

82599 SR-IOV NIC

实现虚拟化下高速吞吐；

Vector Instance /向量指令

明显的降低内存等待开销，提升CPU的流水线效率。

项目规划

　　为了使DPDK更好的在我司使用与发扬光大，我大致规划了初期、中期与长期三步走策略实现目标。

初期目标

实现一个最简单的DNS demo.

需求：

网络可达。
Dig示例域名可正确响应。

中期目标

实现一个高性能高并发的DNS服务

需求:

单机性能提高5倍以上。
形成完整DNS产品服务(XNS、public DNS)。
平台与服务逻辑分离。

长期目标

实现高性能高并发的网络加速平台与应用体系

需求：

平台具有可移植性。
可透明承载多种业务(UDP/TCP)服务。
平台与服务物理分离。
可承载其他高级语言与虚拟化。

开发初试

　　为了验证其的可行性，我们对它进行了最小原型开发，实现了一个最简单的DNS服务程序，使其网络可达，dig能正确响应。

　　由于刚开始对DPDK一无所知，为了网络可达首先要面对的问题是服务器IP在哪儿配置的问题(这也许是一些初学者会面对的幼稚问题)，还好已有前辈在QQ大致网上了解一些原理与其源码示例，采用其源码examples目录下l3fwd为基础进行最小原型开发demo。

　　为了使网络可达，我们做了如下开发：

先在simpleDNS服务端中临时配置一个服务IP进行过滤.
在DNS客户端通过手工配置ARP表使得客户端ping/dig操作的请求包可达服务端，
在simpleDNS服务端做解析请求包，如果是DNS请求构造响应包，其他类型如ARP/ICMP请求则通过KNI入接口ingress()重入Linux内核由其来处理后再通过KNI的egress()接口响应给客户端。

经过上述编码调试后，最简单的原型验证通过了，为下面的全面开发提供了参考依据。

架构设计

　　由于此项目是在基于DPDK进行二次开发，我一般对开源项目的使用原则是：

应使开源项目融入到项目工程中，而不是项目工程融入到开源项目中

因此我对它们进行分3层设计与实现：

内核层主要为Linux内核本身与插入igb_uio.ko与rte_kni.ko.
平台层
- 分为DPDK原生库与fastNP扩展库，分别在不同目录进行隔离。
- DPDK源码树本身，没有任务的修改，是为了更好的升级、开发与维护。
- 对DPDK某些接口进行二次封装与业务所需的公共库，一般各种业务应用调用。
业务层业务应用的各种实现，可直接调用fastNP平台层与DPDK原生层的API。

全面开发

源码组织管理

为了所有源码可以一键编译、一键打包，编写一套符合所需的Makefile进行源码管理。

fastNP扩展库开发

　　扩展库源码不在DPDK源码目录中，需要很好的理解DPDK下面mk/目录下的各种Makefile原理，使其的各种编译选项与属性能够传递到扩展库中。

扩展库主要实现如下部分功能：

基础数据结构库。如：高效双链表、用户态RCU接口等。
轻量级用户态协议栈目前主要实现轻量级简易型UDP协议栈，以实现二三层转发为主。
HOOK挂载与处理机制仿造了Linux netfilter框架实现5个点钩子挂载与处理。
高性能日志库参考了目录主流高性能日志与线程安全，实现了一个数百万行打印的高性能日志系统。等等…

业务层开发

第一个应用主要是把原有内核版本的KANS源码移植到用户态的SANSD中。

控制查看命令开发

为了方便对平台与业务层的查看与控制，我们基于Libcmdline库开发了sansctl命令，可支持命令补全等。

发包工具开发

为了能进行千万级别的高性能测试，基于pktgen-dpdk进行开发使其可以构造DNS请求与控制发送速率功能的spktgen，主界面如下图： spktgen发包主界面

抓包工具开发

由于现有tcpdump不能抓取DPDK接管的网卡数据，也在其基础上开发可在DPDK下抓包的spktdump，以便调试与定位。

其他开发

从略。

踩过的坑

架构模式选择

　　DPDK提供了两种模式可供选择：Run-to-completion与pipeline模式。在官网文档与DPDK开发者大会中都提到了这两种模式，但都没说哪种模式更好，要看场景而定。我们在最初设计时，不仅考虑DNS服务器还考虑以后负载均衡设备的使用，选择了可支持这两种模式。

在测试性能时，发现某种情况下不同模式都有优缺点，经常在这两种模式中来回切换测试，造成了一些干扰与浪费了点时间。

编译选项一致

在测试性能时一定使用-O3选项并且编译选项需与DPDK本身app编译选项一致。否则会影响很大的性能。

DPDK本身app编译选项可以在编译目录下的.XXX.o.cmd文件查看到。

变量percore化

　　所用的全局变量尽量percore化，这样可以防止cache miss。例如统计部分要用percore化，计算或显示时再把他们加到一起，这个也影响不小的性能。

代码逻辑简化

　　由于业务层代码是从内核版本中移植过来的，老早功能就通过了，但性能一直上不来，后来经过代码review发现很多影响性能点，又重新优化或精简了下代码逻辑，去掉了不少冗余代码。

RCU锁占用性能

扩大RCU临界区

域名压缩占用性能

应答区中的域名不压缩。

master lcore不要作为收发处理

如果master lcore作为收发处理，如有数据下方或打印统计时将严重丢包，大大影响收发性能。

有待完善

DPDK

缺少配置文件

　　现在DPDK代码与核数越来越多,依然使用命令行参数的方式进行启动，可配置与阅读性比较差，应该有自己的配置文件进行解析即可。尤其是网卡、队列、逻辑核配置序列太难配置了，尤其是使用核数比较多的情况。

例如：(0,0,2),(0,1,4),(0,2,6),(0,3,8),(0,4,10),(0,5,12),(0,6,14),(0,7,16),(0,8,18),(0,9,20),(0,10,22),(0,11,24),(0,12,26),(0,13,28)

不知道各位同学知不道有什么国际规范的缩写方式配置,请麻烦告知一下，OK？

pktgen-dpdk驱动bug

　　当使用pktgen-dpdk进行测试时，频繁的启停可能会使万兆光纤网卡处于DOWN状态，重启命令或reboot系统都不管用，必须对服务器进行冷重启才行，这对测试比较浪费时间或者远程调试操作堪忧。

examples下编码质量参差不齐

　　DPDK库本身的编码质量还是比较规范统一的，而其examples下的示例代码编码质量参差不齐。

fastNP本身

BOND与多网卡有待支持。
邻居发现与路由功能有待支持。
TCP协议栈有待支持。
虚拟化功能有待支持。
更高级语言功能有待支持。
Libc与系统调用劫持功能有待支持。

总结

经过这一段时间的开发，使得我对DPDK、内存、CPU、用户态网卡驱动有了更深的了解，使得性能达到了万兆网卡线速水平，单机抗攻击能力为1300万QPS，收发平衡能力为1000万QPS的预期目标，总之DPDK框架代码写得还是挺不错的，值得仔细研究，现在我只是对它怎么使用与部分源码有了一定的认识，很多精华部分有待深入剖析。

Footnotes

DPDK: intel dpdk(Data Plane Development Kit,数据面开发套件)是 intel 公司发布的一款数据包转发处理套件； ^[return]
CloudXNS: 面向云计算的权威智能DNS。 ^[return]
QPS: 每秒查询率(Query Per Second). ^[return]
BIND: Bind是一款开放源码的DNS服务器软件,Bind由美国加州大学Berkeley分校开发和维护的,全名为Berkeley Internet Name Domain, 它是目前世界上使用最为广泛的DNS服务器软件. ^[return]

微信扫一扫

作者：mospan
微信关注：墨斯潘園
本文出处：http://mospany.github.io/2016/03/14/xns-on-dpdk/
文章版权归本人所有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。