陈继承 赵雅倩 李一韩 王恩东 史宏志 唐士斌
(高效能服务器和存储技术国家重点实验室(浪潮集团有限公司) 北京 100085)
(chenjch@inspur.com)
摘要大规模高速缓存一致性非均匀存储访问(cache coherence non-uniform memory access, CC-NUMA)系统通常采用两级一致性域方法来降低缓存一致性协议维护开销,提升系统性能.两级一致性域系统中,多个处理器互连,形成结点内一致性域;多个结点互连,形成结点间一致性域.然而,受限于处理器直连能力与处理器可识别ID数,系统的单结点规模有限,系统规模的扩展不得不依靠增加结点数来实现,使得大规模CC-NUMA系统的结点间互连复杂度上升,跨结点访问带宽和延迟急剧增长,影响了系统性能的有效扩展.MPD系统通过在结点内构建多个并行缓存一致性域,突破了处理器直连能力与可识别ID数对单结点规模的限制,能够大幅减少结点数量,并将部分结点间访问转化为结点内访问,实现系统性能的有效扩展.理论分析和实验结果表明:采用同规格处理器的32路系统中,结点内4个并行缓存一致性域的MPD系统可实现结点数目减少75%、一致性目录存储开销节省40%以上、平均访问延迟降低约27.9%、系统整体性能提升约14.4%.
关键词CC-NUMA系统;两级一致性域;并行缓存一致性域;一致性协同芯片;系统可扩展性

Fig. 1 CC-NUMA system with multiple clumps
图1 多结点CC-NUMA系统
缓存一致性维护是影响高速缓存一致性非均匀存储访问(cache coherence non-uniform memory access, CC-NUMA)系统性能的关键因素.早期的CC-NUMA系统中,处理器数量较少,各处理器间直接互连,系统采用单级一致性域设计即可满足系统性能需求.但随着系统规模的扩展,单级一致性域系统的处理器互连结构越来越复杂,消息全局性传播引发的网络阻塞延迟越来越大,缓存一致性维护开销急剧增长,严重影响系统性能与扩展性.因此,8路以上的CC-NUMA系统通常采用两级一致性域设计抑制缓存一致性维护开销,即:多个处理器互连组成结点后形成结点内一致性域,多个结点互连组成系统后形成结点间一致性域,两级一致性域间的协议转换通过一致性协同芯片(coherence chip, CC)实现[1-3].该方法可将一致性维护操作尽量限制在局部区域以避免一致性消息的全局传播,避免了单级一致性域造成的系统互连结构复杂、跨处理器访问跳步数多、高负载下阻塞延迟急剧增长等难题[4],从而使系统性能得到有效扩展.
受限于处理器的直连能力和处理器可识别的ID数,CC-NUMA系统所能构建的单结点规模有限,系统扩展只能通过增加结点数目来实现.但是,结点数目的增加会导致一致性目录存储开销上升、跨结点访问跳步数和延迟增大、系统规模无法进一步有效扩展.针对上述问题,当前CC-NUMA系统采用目录优化[5]、片外缓存扩展[6-8]、缓存数据预取[9-11]、一致性协议优化[12-14]等方法来降低跨结点访问频度,减少一致性开销.
然而,上述优化方法都是通过减少跨结点访问频度间接减少平均访问延迟,对系统拓扑结构没有改变,没有缩短跨结点访问路径和跳步数.针对该问题,本文提出了一种可任意配置结点内处理器规模的CC-NUMA系统——多并行缓存一致性域(multiple parallel cache coherency domain, MPD).该系统通过在结点内构建多个并行缓存一致性域来扩大单结点规模,使其不再受限于处理器直连能力和处理器可识别ID数,从而减少系统结点数量,简化系统拓扑结构,缩短访问路径和跳步数,直接减少系统平均访问延迟.同时,由于结点内的多个缓存一致性域之间是并行关系,连接至1个一致性协同芯片,共同构成结点内一致性域,所以,与传统CC-NUMA系统相比,MPD系统并未增加缓存一致性域的层级.
为减少缓存远端访问频率,降低缓存一致性维护开销,CC-NUMA系统通常将缓存资源划分为2个一致性同步域,使用两级缓存一致性协议对各一致性域进行一致性管理.图1是一个典型的多结点CC-NUMA系统,包含结点内一致性域和结点间一致性域的两级缓存一致性域.
1) 结点内一致性域.n个处理器与1个一致性协同芯片互连,构成结点内一致性域,维护的是本结点内n个处理器间的缓存一致性.
2) 结点间一致性域.M个结点通过一致性协同芯片互连,构成结点间一致性域,维护的是系统内各结点间的缓存一致性.
两级一致性域系统中,一致性协同芯片用于维护两级一致性协议的转换和维护,该芯片通常包含远端代理(remote proxy, RP)和本地代理(local proxy, LP)两个处理单元.
1) RP.结点一致性协同芯片的远端内存代理,存储远端地址数据在本地结点内处理器的一致性状态,监控本地处理器对远端地址的请求,可与本地处理器及远端结点一致性协同芯片的LP单元进行通信.
2) LP.结点一致性协同芯片的本地内存代理,存储本结点地址的数据在其他远端结点的一致性状态,监控远端结点对本地地址的请求,可与本地根目录及远端结点一致性协同芯片的RP单元进行通信.
侦听与目录是对缓存一致性信息的2种处理方式[15].由于侦听协议可扩展性差,所以,CC-NUMA系统多采用基于目录的缓存一致性协议.结点一致性协同芯片的缓存一致性目录记录了各缓存行的一致性状态(State)、共享列表(Share List)和写权限拥有者(Owner),按缓存数据地址的不同,分别由RP与LP单元维护与更新.
RP目录存储了远端数据在本结点的一致性状态信息,目录项如图2所示:

Fig. 2 RP directory entry in CC-NUMA system
图2 CC-NUMA系统结点一致性协同芯片RP目录项
1) State——状态位,记录远端数据在本结点的一致性状态,其长度与协议有关,如MI协议占用1 b,MESI协议占用2 b;
2) Share List——共享列表,记录远端数据在本地结点内处理器的一致性状态,其长度与目录实现技术有关,如全映射目录[3]的共享列表长度为n;
3) Owner——写权限拥有者,记录远端数据在本结点内处于M
E态的处理器ID,其长度为n.
LP目录存储了本地数据在远端结点的一致性状态信息,目录项如图3所示:

Fig. 3 LP directory entry in CC-NUMA system
图3 CC-NUMA系统结点一致性协同芯片LP目录项
1) State——状态位,记录本地数据在本结点的一致性状态;
2) Share List——共享列表,记录本地数据在本结点i之外的所有远端结点的一致性状态,全映射目录的共享列表长度为M-1;
3) Owner——写权限拥有者,记录本地数据在远端结点处于M
E态的远端结点ID,其长度为M-1.
MPD系统是一个结点内包含多个并行缓存一致性域的CC-NUMA系统.如图4所示,n个处理器与结点一致性协同芯片紧耦合互连,构成1个缓存一致性域(cache coherence domain, CCD);k个缓存一致性域并行连接至1个结点一致性协同芯片,共同构成结点内一致性域;m个结点通过结点一致性协同芯片互连,构成结点间一致性域,m=M
k.与图1的CC-NUMA系统相比,图4的MPD系统结点数量缩减为原系统的1
k.
MPD系统中,结点内的多个缓存一致性域并行连接至1个一致性协同芯片,并由该协同芯片统一维护其结点内的缓存一致性,也就是说,这些并行的缓存一致性域并不单独维护一致性域.所以,MPD系统的一致性域设计与CC-NUMA系统相同,都是结点内
结点间两级一致性域架构,使用两级缓存一致性协议,两级一致性域间的协议转换通过一致性协同芯片实现.
1) 结点内一致性域.k个缓存一致性域与1个一致性协同芯片互连,构成结点内一致性域,由本结点的一致性协同芯片统一维护结点内nk个处理器间的缓存一致性.

Fig. 4 MPD system with multiple clumps
图4 多结点MPD系统
2) 结点间一致性域.m个结点通过一致性协同芯片互连,构成结点间一致性域,由各结点的一致性协同芯片共同维护系统各结点间的缓存一致性.
与CC-NUMA系统类似,MPD系统的结点一致性协同芯片也包括远端代理RP和本地代理LP这2个处理单元,但逻辑功能和通信单元略有差异,主要是对LP进行了功能扩展,以同时维护结点内所有处理器的缓存一致性.
1) RP.结点一致性协同芯片的远端内存代理,存储远端地址数据在本地结点内(含本结点内所有缓存一致性域)处理器的一致性状态,监控本结点内所有处理器对远端地址的请求,可与本结点内处理器或远端结点一致性协同芯片的LP单元进行通信.
2) LP.结点一致性协同芯片的本地内存代理,存储结点内各缓存一致性域的本地数据在本结点内其他缓存一致性域各处理器以及系统内所有远端结点的一致性状态,监控各缓存一致性域对结点内其他缓存一致性域的请求以及远端结点对本地地址的请求,可与本结点内处理器、根目录以及远端结点一致性协同芯片的RP单元进行通信.
从CC-NUMA与MPD系统中RP与LP的逻辑功能对比来看,MPD系统中的RP与LP单元需要存储更多处理器的一致性状态信息,所以需要对CC-NUMA系统的一致性协同芯片目录的共享列表进行扩展.
RP目录存储了远端数据在本结点内所有并行缓存一致性域的一致性状态信息,目录项如图5所示.
1) State——状态位,记录远端数据在本结点的一致性状态;
2) Share List——共享列表,记录远端数据在本地结点所有缓存一致性域内处理器的一致性状态,全映射目录的共享列表长度为nk;
3) Owner——写权限拥有者,记录远端数据在本结点内处于M
E态的处理器ID,其长度为lb(nk).

Fig. 5 RP directory entry in MPD system
图5 MPD系统RP目录项
LP目录存储了本结点各缓存一致性域的本地数据在结点内其他并行缓存一致性域以及系统远端结点的一致性状态信息,目录项如图6所示.
1) State——状态位,记录本地数据在本结点的一致性状态;
2) Share List——共享列表,记录本地数据在远端结点及本地其他缓存一致性域的一致性状态,全映射目录的共享列表长度为![]()
3) Owner——写权限拥有者,记录本地数据在远端结点处于M
E态的远端结点ID,或缓存一致性域本地数据在结点内其他缓存一致性域处于M
E态的处理器ID,长度为![]()

Fig. 6 LP directory entry in MPD system
图6 MPD系统LP目录项
虽然MPD系统与CC-NUMA系统的缓存一致性域层次相同,但两者的系统架构不同,因此,2种系统的缓存一致性交互流程略有不同.
1) 缓存一致性域内访问
MPD系统与CC-NUMA系统的缓存一致性域结构相同,都是由多个处理器与一致性协同芯片互连而成,因此,两者的缓存一致性域内访问流程相同,均为CPU与根目录直接交互,如图7所示:

Fig. 7 Access within the same CCD in CC-NUMA or MPD system
图7 CC-NUMA系统与MPD系统的缓存一致性域内访问
2) 缓存一致性域间访问
CC-NUMA系统内,结点内一致性域由单个缓存一致性域构成,所以,缓存一致性域间访问即为结点间一致性访问,如图8所示:

Fig. 8 Access between different CCDs in CC-NUMA system
图8 CC-NUMA系统的缓存一致性域间(结点间)访问
MPD系统内,单个结点一致性域内包含多个缓存一致性域,因此,MPD系统的缓存一致性域间访问包含了结点内的缓存一致性域间访问和结点间的缓存一致性域间访问2种类型,如图9所示:

Fig. 9 Access between CCDs in MPD system
图9 MPD系统的缓存一致性域间访问
图9(a)描述了MPD系统独有的结点内跨缓存一致性域访问,它将CC-NUMA系统中的远端跨结点访问转换为近端结点内跨域访问,仅与本地一致性协同芯片进行交互;图9(b)描述了与CC-NUMA系统相同的结点间的缓存一致性域间访问,需与本地一致性协同芯片及远端一致性协同芯片进行交互.
从2种系统的缓存一致性交互流程描述来看,MPD系统中的缓存一致性访问分为3类:
1) 结点内的缓存一致性域内访问.该类访问对应CC-NUMA系统的结点一致性内访问(即缓存一致性域内访问),两者开销相同.
2) 结点内的缓存一致性域间访问.该类访问对应CC-NUMA系统中的结点间访问,前者仅通过本地CC即可进行交互,而后者需要通过本地CC与远端CC才可进行交互,前者开销小于后者.
3) 结点间的缓存一致性域间访问.该类访问对应CC-NUMA系统中的结点间访问,两者开销相同.
因此,与CC-NUMA系统相比,MPD系统并未产生额外的一致性开销,并将部分结点间访问转换为结点内访问,直接缩短了访问路径与跳步数,从而降低系统平均访问延迟,减少一致性维护开销,提升系统性能.
MPD系统通过在结点内构建多个并行缓存一致性域突破了单结点规模限制,减少了结点数量,从而降低了结点规模和结点间网络复杂度.
假设某系统规模(即处理器总数)为N,单个缓存一致性域内最多容纳处理器数量为n,那么,传统CC-NUMA系统和MPD系统的结点数Num_C以及结点间全互连的连接数T分别为
Num_CCC-NUMA=N
n,
(1)
TCC-NUMA=N(N-n)
2n2,
(2)
Num_CMPD=N
nk,
(3)
TMPD=N(N-nk)
2(nk)2,
(4)
其中,k为MPD系统中单个结点内包含的并行缓存一致性域个数.
由式(1)~(4)可以得出,同等系统规模下,传统CC-NUMA系统和MPD系统的结点数量的比值ηNum_C为
(5)
结点间全互连的连接数比值ηT为
(6)
因此,与传统CC-NUMA系统相比,MPD系统的结点规模可缩减至1
k,结点间全互连的连接数可降低到1
k2以下.例如,当N=64,n=4,k=2时,MPD系统的结点规模降低50%,结点间全互连的连接数降低77%;而当N=64,n=4,k=4时,MPD系统的结点规模降低75%,结点间全互连的连接数降低95%.
由于同一结点内不同缓存一致性域间的近端跨域访问延迟远小于不同结点间的远端跨结点访问延迟,所以MPD系统的平均访问延迟低于CC-NUMA系统,如图10所示:

Fig. 10 Clump architecture in different systems built with different CPU
图10 不同规格处理器搭建的系统单结点架构
假设MPD系统中同一缓存一致性域内的平均访问延迟为l,同一结点内不同缓存一致性域间的平均访问延迟为3l,不同结点间的平均访问延迟为7l,缓存一致性域内的缓存次数占比为α,近端结点内跨域的访问次数占比为β,那么,MPD系统的远端跨结点的访问次数占比为1-α-β,而相同规模的CC-NUMA系统的远端跨结点的访问次数占比为1-α.因此,同规模的MPD系统与CC-NUMA系统的平均访问延迟L分别为
LMPD=l×α+3l×β+7l×(1-α-β)=
l×(7-6α-4β),
(7)
LCC-NUMA=l×α+7l×(1-α)=l×(7-6α).
(8)
① 该结论仅针对大规模CC-NUMA系统,单结点等小规模系统不保证不等式结论成立.
由式(7)(8)可得2种系统平均访问延迟的比值为
(9)
假设α=10%,β=30%,则2种系统的平均访问延迟之比为13
16=0.812 5,即MPD系统的平均访问延迟降低了近2成,有效提高了系统性能.
CC-NUMA系统中,每个缓存一致性域单独维护1个结点一致性目录,结点数量较多,系统的结点一致性目录开销较大;而MPD系统中,多个并行缓存一致性域共同维护1个结点一致性目录,结点数量较少,系统的结点一致性目录开销较小.
以MESI(modified,exclusive, shared or invalid)协议的全映射目录结构为例,假设MPD系统规模为N,单个缓存一致性域内最多容纳处理器数量为n,每个结点内共有k个缓存一致性域,内存容量为B,缓存项大小为b,则该系统内单个结点一致性目录开销为

(10)
该MPD系统内所有结点的一致性目录总开销为
DMPD=Num_CMPD×dMPD=![]()
![]()
(11)
同等规模的传统CC-NUMA系统内单个结点目录开销为
![]()
![]()
![]()
(12)
该CC-NUMA系统内所有结点的一致性目录总开销为
DCC-NUMA=Num_CCC-NUMA×dCC-NUMA=![]()
(13)
由式(11)(13)可得,传统CC-NUMA系统与MPD系统的结点一致性目录总开销的差值ΔD为
ΔD=DCC-NUMA-DMPD=![]()
![]()
![]()
![]()
因为在大规模CC-NUMA系统中,
![]()
![]()
所以,
因此,对于大规模CC-NUMA系统,同等规模的MPD系统的结点目录开销更小,而且,内存容量越大,目录开销降低的幅度越大.
以64颗处理器组成的CC-NUMA系统为例,假设每个缓存一致性域内最多可容纳2颗处理器,系统内存容量为16 GB,单个缓存项大小为128 KB.那么传统CC-NUMA系统共需32个结点一致性协同芯片,目录开销为[8×(1 027+31×lb 31)]Mb,约为9.223 Gb;而单结点内含2个并行缓存一致性域的MPD系统仅需16个结点一致性协同芯片,目录开销为[8×(293+15×lb 17)]Mb,约为2.768 Gb,不到CC-NUMA系统目录开销的1
3;单结点内含4个并行缓存一致性域的MPD系统仅需8个结点一致性协同芯片,目录开销为[8×(118+7×lb 13)]Mb,约为1.124 Gb,不到CC-NUMA系统结点目录开销的1
8.
MPD系统中,单结点规模不再受处理器直连能力的限制,因此,可以选用直连能力较弱的处理器代替直连能力较强的处理器搭建同等结点规模的系统,以降低系统成本与功耗.不同直连能力的处理器价格和功耗差异较大.支持8路直连的处理器有3个一致性互连端口,功耗约为130 W,单价约为2 500美元;支持4路直连的处理器有2个一致性互连端口,功耗为115 W,单价为2 000美元;而支持2路直连的处理器仅有1个一致性互连端口,功耗为100 W,单价为1 500美元.
假设要搭建8结点的32路系统,传统CC-NUMA系统需要32颗具有8路直连能力的处理器,结点内结构如图10(a)所示;而结点内含2个并行缓存一致性域的MPD1系统则只需要32颗具有4路直连能力的处理器,结点内结构如图10(b)所示;结点内含4个并行缓存一致性域的MPD2系统仅需要32颗具有2路直连能力的处理器,结点内结构如图10(c)所示.
假定一致性协同芯片的单价为1 000美元,那么,CC-NUMA,MPD1,MPD2这3种8结点32路系统的硬件成本和处理器功耗如表1所示.相比于传统CC-NUMA系统,单结点内含2个并行缓存一致性域的MPD1系统可降低功耗11.5%,降低成本20%;单结点内含4个并行缓存一致性域的MPD2系统可降低功耗23.1%,降低成本40%.
Table1ComparisonofPowerandCostAmongDifferentSystems
表1不同系统功耗与成本对比

① 本文实验设置较小的内存容量是为了避免部分缓存密集访问,以便更好地模拟大规模系统的多结点间的缓存一致性维护.
本文选用gem5[16]对两级缓存一致性域的MPD系统和CC-NUMA系统进行模拟,模拟系统中,系统结点无结点缓存功能,对接收的消息均做转发处理.各级访问延迟比为∶缓存域内访问延迟∶结点内访问延迟∶结点间访问延迟=1∶3∶7.实验的主要系统参数如表2所示.实验测试程序选用了SPLASH2[17]的1个内核程序和3个应用程序,以及PARSEC[18]中的3个应用程序,各配置如表3所示.
Table2ParametersofSystemConfiguration
表2系统参数配置

Table3BenchmarkSPLASH2andPARSEC
表3测试集SPLASH2与PARSEC

为验证MPD系统对系统性能有效扩展能力的提升,以及低功耗低成本MPD系统构建的可行性,本节分别对16路、32路和64路的传统CC-NUMA系统与不同配置的MPD系统进行了对比测试.测试实验数据显示,不同处理器规模的系统对比结果类似.因此,为了避免重复,本节仅选用32路系统的对比测试数据进行说明.另外,为便于数据比较的直观性,各组数据均以传统CC-NUMA的系统性能为标准进行了归一化处理.
4.2.1 平均访问延迟对比
图11显示了CC-NUMA系统与各MPD系统中不同类型访问的数量占比.图11中的横坐标m×k代表了系统的缓存一致性域规模:m代表结点数,k代表单结点内缓存一致性域数量.因此,m×1就代表了结点数为m的CC-NUMA系统.从图11中各类访问占比来看,由于MPD系统扩大了单结点处理器规模,有效减少了结点数量,部分结点间远端访问转换为结点内跨域近端访问,而且,单结点处理器规模越大,转换为结点内跨域访问的结点间访问量越多.图11中结点间访问量减少最多的是OCEAN_NS.当单结点内有8个并行缓存一致性域时,OCEAN_NS有58%的结点间访问转换为结点内跨域访问.

Fig. 11 Comparison of the access ratio among different 32-way systems
图11 32路CC-NUMA系统与MPD系统的各类型访问量对比
因为结点内跨域访问延迟远小于结点间访问延迟,所以结点间访问数量的减少直接降低了系统平均访问延迟.例如,单结点内有8个并行缓存一致性域时,OCEAN_NS的系统平均访存延迟降低32%.从图12的对比结果来看,系统平均访问延迟的变化趋势与结点间访问占比类似,均随结点内缓存一致性域数量k的增加而减少.当k=2时,与CC-NUMA系统相比,MPD系统的平均访问延迟降低3.9%;当k=4时,与CC-NUMA系统相比,MPD系统的平均访问延迟降低11.7%;当k=8时,与CC-NUMA系统相比,MPD系统的平均访问延迟降低27.9%.

Fig. 12 Comparison of the average access latency among different 32-way systems
图12 32路CC-NUMA系统与MPD系统的平均访问延迟对比
4.2.2 指令平均执行周期对比
相较于系统平均访问延迟,CC-NUMA系统和MPD系统的指令平均执行周期(cycles per instruction,CPI)差异较小,但仍是MPD系统性能较优,且系统CPI随结点内缓存一致性域数量k的增加而减少.这主要是因为,系统平均访问延迟仅与访问类型占比有关,而CPI还与程序指令数、指令类型等有关.图13中各程序的CPI变化幅度不同也是因为这个原因.尽管各测试程序的CPI降幅不同,但MPD系统整体平均性能仍呈现较明显的线性下降趋势:当k取值为2,4,8时,MPD系统比传统CC-NUMA系统的CPI分别降低3.6%,7.6%,12.6%,即MPD系统性能提升3.5%,8.2%,14.4%.
本文3.4节所述,MPD系统中可采用直连能力较弱的处理器代替直连能力较强的处理器搭建同等规模的系统,以降低功耗、节约成本.但是,MPD系统采用的是单结点内多缓存一致性域架构;原CC-NUMA系统中的部分缓存一致性域内访问将转换为结点内跨一致性域访问,从而导致系统平均访问延迟增加,性能下降.

Fig. 13 Comparison of CPI among different 32-way systems
图13 32路CC-NUMA系统与MPD系统的CPI对比
为测试这种低功耗低成本的MPD系统与传统CC-NUMA系统的性能差异度,本节对不同规格处理器搭建的4结点16路系统、8结点32路系统和16结点64路系统进行了性能测试.各组测试数据均表明,与传统CC-NUMA系统相比,采用较低规格处理器搭建的MPD系统性能下降有限.以图14中的32路系统为例,当处理器为4路直连时,每个结点内有2个缓存一致性域,系统CPI上升1.7%;当处理器为2路直连时,每个结点内有4个缓存一致性域,系统CPI上升2.6%,上升幅度变小.
与表1中处理器硬件成本的下降程度相比,这种MPD系统的性能下降幅度较小,因此,使用低规格处理器搭建的MPD系统具有更高的性价比.如图15所示,与8路直连处理器搭建的CC-NUMA系统相比,4路直连处理器搭建的32路MPD系统性价比提升1.20倍,2路直连处理器搭建的32路MPD系统性价比提升1.53倍.

Fig. 14 Comparison of CPI among 8 clumps 32-way systems built by different processors
图14 不同处理器搭建的8结点32路系统的CPI对比

Fig. 15 Cost-effective of different systems
图15 不同处理器系统的性价比
处理器直连能力和处理器可识别ID数的有限性限制了CC-NUMA系统的单个结点规模,导致系统规模的扩张只能通过结点数量的增加来实现.而结点数量的增加致使缓存一致性维护开销增大,结点间互连结构复杂,降低了系统性能的有效扩展.本文提出的MPD系统突破了单结点的处理器规模限制,能够任意设置单结点规模,大幅减少结点数量.与其他系统性能优化方法相比,这种扩大单结点规模的方法直接缩短了系统平均访问路径和跳步数,从而降低了平均访问延迟,实现了系统性能的有效扩展.另一方面,由于MPD系统的单结点规模与处理器直连能力无关,MPD系统还可用于构建低功耗低成本系统,提升系统性价比.实验数据表明,32路系统中,采用同规格处理器时,结点内4个并行缓存一致性域的MPD系统平均访问延迟降低27.9%,系统性能提升14.4%;采用不同规格处理器时,与8路直连处理器搭建的CC-NUMA系统相比,2路直连处理器搭建的MPD系统性价比提升1.53倍.
未来的工作中,我们将增加结点缓存功能,进一步优化MPD系统的一致性协议实现,提升大规模系统性能.
参考文献
[1]Laudon J, Lenoski D. The SGI Origin: A ccNUMA highly scalable server[J]. ACM SIGARCH Computer Architecture News, 1997, 25(2): 241-251
[2]Lameter C. Numa (non-uniform memory access): An overview[J]. Queue, 2013, 11(7): 40-51
[3]Wang Endong, Hu Leijun, Zhang Dong, et al. Design and Implementation of High-End Fault-Tolerant Computer[M]. Beijing: Tsinghua University Press, 2015 (in Chinese)(王恩东, 胡雷钧, 张东, 等. 高端容错计算机设计与实现[M]. 北京: 清华大学出版社, 2015)
[4]Wang Endong, Chen Jicheng, Hu Leijun, et al. Design of high-end server based on tightly-coupled single-hop multi-plane architecture[J]. High Technology Letters, 2014, 24 (2): 111-116 (in Chinese)(王恩东, 陈继承, 胡雷钧, 等. 基于紧耦合单跳步多平面架构的高端服务器设计[J]. 高技术通讯, 2014, 24 (2): 111-116)
[5]Zhang Lunkai, Song Fenglong, Wang Da, et al. Improving the performance of sparse directories[J]. Journal of Computer Research and Development, 2014, 51(9): 1955-1970 (in Chinese)(张轮凯, 宋风龙, 王达, 等. 提升稀疏目录缓存一致性系统性能的方法[J]. 计算机研究与发展, 2014, 51(9): 1955-1970)
[6]Loh G H, Hill M D. Efficiently enabling conventional block sizes for very large die-stacked DRAM caches[C]
Proc of the 44th Annual IEEE
ACM Int Symp on Microarchitecture. New York: ACM, 2011: 454-464
[7]Sim J, Loh G H, Kim H, et al. A mostly-clean DRAM cache for effective hit speculation and self-balancing dispatch[C]
Proc of the 45th Annual IEEE
ACM Int Symp on Microarchitecture. Piscataway, NJ: IEEE, 2012: 247-257
[8]Starke W J, Stuecheli J, Daly D M, et al. The cache and memory subsystems of the IBM POWER8 processor[J]. IBM Journal of Research and Development, 2015, 59(1): 3:1-3:13
[9]Vanderwiel S P, Lilja D J. Data prefetch mechanisms[J]. ACM Computing Surveys, 2000, 32(2): 174-199
[10]Somogyi S, Wenisch T F, Ailamaki A, et al. Spatial memory streaming[J]. ACM SIGARCH Computer Architecture News, 2006, 34(2): 252-263
[11]Zhang Jun, Tian Ze, Mei Kuizhi, et al. Node predicting based direct cache coherence protocol for chip multi-processor[J]. Chinese Journal of Computers, 2014, 37(3): 700-720 (in Chinese)(张骏, 田泽, 梅魁志, 等. 基于节点预测的直接 Cache 一致性协议[J]. 计算机学报, 2014, 37(3): 700-720)
[12]Papamarcos M S, Patel J H. A low-overhead coherence solution for multiprocessors with private cache memories[J]. ACM SIGARCH Computer Architecture News, 1984, 12(3): 348-354
[13]Culler D E, Singh J P, Gupta A. Parallel Computer Architecture: A Hardware
Software Approach[M]. San Francisco, CA: Morgan Kaufmann, 1999
[14]Beers R H,Hum H H J,Goodman J R. Non-speculative distributed conflict resolution for a cache coherency protocol: US,US 6954829B2[P]. 2005-10-11
[15]Sorin D J, Hill M D, Wood D A. A primer on memory consistency and cache coherence[J]. Synthesis Lectures on Computer Architecture, 2011, 6(3): 1-212
[16]Binkert N, Beckmann B, Black G, et al. The gem5 simulator[J]. ACM SIGARCH Computer Architecture News, 2011, 39(2): 1-7
[17]Woo S C, Ohara M, Torrie E, et al. The SPLASH-2 programs: Characterization and methodological considerations[J]. ACM SIGARCH Computer Architecture News, 1995, 23(2): 24-36
[18]Bienia C, Kumar S, Singh J P, et al. The PARSEC benchmark suite: Characterization and architectural implications[C]
Proc of the 17th Int Conf on Parallel Architectures and Compilation Techniques. New York: ACM, 2008: 72-81
Chen Jicheng, Zhao Yaqian, Li Yihan, Wang Endong, Shi Hongzhi, and Tang Shibin
(StateKeyLaboratoryofHigh-EndServer&StorageTechnology(InspurGroupCompanyLimited),Beijing100085)
AbstractLarge-scale CC-NUMA system usually employs two-tier architecture to reduce the overhead of cache coherence and enhance the performance of system. In a two-tier system, various processors and a coherence chip are located in an intra-clump cache coherency domain, and various coherence chips are interconnected by a system interconnection network so as to form an inter-clump cache coherency domain. Since every processor occupies at least one processor ID number in the cache coherency domain, and the number of processor ID numbers that can be distinguished by every processor is limited, CC-NUMA system expands the scale only by increasing the number of clumps, not by increasing the scale of clump. This leads to the over-large number of clumps and complicated topology structure in a multi-processor system, thereby increasing the bandwidth and latency of cross-clump memory access. To solve this problem, we propose a new method to construct multi-processor system, called MPD, in which a clump has multiple parallel cache coherency domains. This method solves the problem of limited clump scale brought about by limited number of processor supportable by a processor in a domain. Compared with traditional CC-NUMA system, MPD system not only significantly reduces the system topological complexity, but also effectively improves the system performance. Theoretical analysis and simulation results show: compared with 32-way CC-NUMA system, MPD system constructed by same processors can achieve 75% reduction in the number of nodes, more than 40% savings in consistency directory storage, 27.9% average reduction in access latency and about 14.4% improvement in system performance.
KeywordsCC-NUMA (cache coherence non-uniform memory access) system; two-tier architecture; multiple parallel cache coherency domain (MPD); coherence chip (CC); system scalability
This work was supported by the National High Technology Research and Development Program of China (863 Program) (2013AA011701).
通信作者:赵雅倩(zhaoyaqian@inspur.com)
基金项目:国家“八六三”高技术研究发展计划基金项目(2013AA011701)
修回日期:2016
05
25
收稿日期:2016
03
11;
中图法分类号TP303

ChenJicheng, born in 1976. Received his PhD degree from Zhejiang University. Associate professor. Member of CCF. His main research interests include computer architecture, cache coherence and integrated circuit design.

ZhaoYaqian, born in 1981. Received her PhD degree from Beihang University. Her main research interests include computer architecture and machine learning.

LiYihan, born in 1985. Received his PhD degree from Beihang University. His main research interests include computer architecture and software debugging (liyihan@inspur.com).

WangEndong, born in 1966. Received his MSc degree from Tsinghua University. Professor. Fellow member of CCF. His main research interests include computer architecture, hybrid storage system and interconnect protocols for scalable system (wangendong@inspur.com).

ShiHongzhi, born in 1988. Received his BEn degree from Xidian University. His main research interests include computer architecture and cache coherence (shihzh@inspur.com).

TangShibin, born in 1986. Received his PhD degree from the Institute of Computing Technology, Chinese Academy of Sciences. His main research interests include computer architecture, cache coherence and on-chip memory system (tangshb@inspur.com).