# 一种 VLSI 高层综合低功耗设计方案及实现

温东新 杨孝宗 王 玲

(哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001)

(wdongxin@hit.edu.cn)

## A High Level Synthesis Scheme and Its Realization for Low Power Design in VLSI

Wen Dongxin, Yang Xiaozong, and Wang Ling

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001)

**Abstract** Power consumption is one of the most important problems used in electronic systems today. High level synthesis can quickly trade off different objectives for complex designs during architecture optimization. A design at high level synthesis in VLSI includes two important tasks : scheduling and interconnection. In order to lower power in design , the two aspects can be considered simultaneously. In this paper , a high level synthesis scheme based on multiple voltages is proposed for low power design in VLSI under the timing and the resource constraints. In this scheme both scheduling and interconnection are considered to reduce power. First , for a given control and data flow graph , scheduling is done in Gain. Then the buses are allocated by interconnection consumption. The register transfer level graph can be optimized by the scheme in the end. In Gain scheduling , the priority function includes the power gain , the mobility , and the computation density of an operation which are three main factors in VLSI design. In interconnection , the transition activities on the signal lines and the coupling capacitances of the lines are considered simultaneously based on RS model. This scheme is implemented in CDFG Toolkits. Experiments with a number of DSP benchmarks show that the proposed scheme achieves an effective energy reduction.

Key words low power ; high level synthesis ; multiple voltages ; scheduling ; interconnection

摘 要 提出 VLSI 高层综合设计方案,该方案基于多电压在时间及资源约束条件下,综合考虑了调度 及互连,从调度互连两个角度达到低功耗的目的.该方案提出了基于 Gain 大小搜索的调度,将功耗增 益、灵活度和行为执行密度因素作为折中函数,考虑操作的属性更加全面.在互连中基于分布式的 RS 互连模型得出互连单元在执行时段里的动态功耗,同时考虑单根总线上的翻转和邻线的耦合.该方案 在 CDFG 工具包中实现并证明了它的有效性.

关键词 低功耗 高层综合 渗级电压 调度 运连

中图法分类号 TP302.2

当工艺发展到深亚微米时,功耗对电路的影响 使之成为继面积、延时后的另一令人关注的目标,因 此高层综合中的低功耗技术已经引起广泛重视.在 VLSI 高层次综合中首先要把行为级硬件描述语言的描述转化为方便处理的控制/数据流图(control and data flow graph,CDFG),然后通过对 CDFG 的

收稿日期 2006-08-28 ;修回日期 2007-04-12

基金项目:黑龙江省自然科学基金项目(F2004-17)

一系列处理,包括操作调度、资源分配、运算器绑定、 连线网络和控制器生成等,最后得到RTL级电路, 如图1所示.高层综合设计中的操作调度是指把行 为描述分成具体的时间段来完成的过程,资源分配 是指每个时钟周期分派芯片上资源类型和数量的过 程,绑定是指在一定的时钟周期内将操作任务和存 储通道分配给合适的硬件单元的过程.在这3个任 务中,操作调度是最重要的任务,它决定了数字系统 处理速度与硬件代价耗费之间的折中.





目前高层综合设计已成为 VLSI 设计的重要研 究方向. 文献[1]针对高层次综合中时间约束下的 调度问题,提出了对功能单元的两种下限估算算法: 单位长度调度法和最大网络流法. 文献[2]针对高 层次综合中的多电压调度问题的不同的前提:功能 单元电压的静态配置和动态配置对操作的调度和电 压分配产生不同的影响,提出了整数线性规划描述.

同时,我们也应该认识到任务之间的交互性和 彼此独立的裁决应服从于整体设计的重要性,当今 高层综合设计中将各阶段任务综合考虑成为研究的 主流<sup>[3]</sup>.

众所周知充放电功耗在 CMOS 电路中起着决 定作用,其表达式为

$$P_{\rm sw.\,cap.} = rac{1}{2}C_{\rm L} imes V_{\rm dd}^2 imes N imes f$$
 , (1)

*P*<sub>sw.cap.</sub> 是充放电功耗,时钟频率为*f*,*N* 是每 个时钟周期内 CMOS 反相器输出信号的平均翻转 率,又称为信号活性,*C*<sub>L</sub>为负载电容.由于电源电 压与功耗的二次方关系,可以将减小电源电压作为 降低功耗最有效的方法.但同时带来电路延迟的增 加,影响电路的性能,因此引入并行结构或流水结构 解决了上述问题.基于资源约束、时间约束及时间 和资源约束3类调度算法,文献[4-9]提出了多种多 电压调度方法.本文提出了一种基于 Gain 的多电压 调度方法,其优点在于同时考虑了操作行为节点的 灵活性(mobility),功耗与延迟比和行为执行密度, 决策调度结果的因素更加全面.

大多数先期工作是减小数据通路中的功耗忽略 了互连方面的问题. 文献[10]中提到互连的功耗占 电路总功耗的相当大的比例. 这说明互连部分的功 耗是值得研究的又一新领域. 文献[11]提出一种综 合考虑集成电路电学性能指标以及热效应影响的布 局优化方法,很好地改善了芯片表面的热分配情况. 文献[12]于高层综合设计中考虑物理层设计信息, 在 CDFG 中描述各边的转换用于优化模块间的数 据传输功耗,还可以通过保持输入行为的位置和均 匀度来优化总线结构. 文献[13]通过绑定数据总线 传输数据优化总线功耗. 在文献[14]中考虑了总线 的耦合电容,分析了因信号的转换和线间的耦合电 容引起的总线功耗散失,并由分布式的 RS 互连模 型得出功耗公式.

目前,我们已在基于多电压降低功耗研究方面 做了一些工作<sup>[15-16]</sup>,本文又做了进一步深入研究, 在多电压调度后,同时考虑了互连总线的功耗.互 连总线上的功耗源主要包括两部分<sup>[14]</sup>:1)单根总线 上信号的翻转 2)互邻线的耦合电容上信号的翻转. 并提出的一种基于多电压调度的综合方案,方案如 如图 2 所示:



Fig.2 High level synthesis scheme. 图 2 高层综合设计方案

### 1 基于 Gain 大小搜索的调度算法

在多电压调度过程中,首先要解决的问题是如 何分配操作的工作电压,即如何按照一定的顺序分 配工作电压使最后功耗最小.众所周知,节点的功 耗增益、灵活度和行为执行密度因素都是在搜索过 程中需要考虑的因素<sup>[17]</sup>.如果在搜索过程中,按照 先后次序独立地考虑这些因素,虽然会有较好的调 度效果,但是必然增加算法的复杂度,于是找到一种 比较好的折中关系势在必行.本算法正是充分利用 了上述因素的折中函数 Gain 作为搜索优先函数.

$$D(O_i) = (C_{\text{total}} - M(O_i))/C_{\text{total}}, \qquad (4)$$

其中  $P(O_{i.})$ , $M(O_{i.})$ 和  $D(O_{i.})$ 分别表示操作的功 耗增益、灵活度和执行密度.  $V_{cur}$ 是操作  $O_{i.}$ 的当前 电压 , $V_{lower}$ 操作  $O_{i.}$ 的低一级电压.  $M(O_{i..})$ 是操作  $O_{i.}$ 的 ALAP 和 ASAP 调度得到的控制步差 ,系数 a,b,c 由设计者的设计侧重点决定 ,其值的大小关 系表明设计时考虑该因素优先度的关系. 在实验中 基于基准实验电路设定的 a = 10,b = 1,c = 1 是将 功耗增益、灵活度和执行密度的优先度比定为10:1: 1. 若 a,b,c 的值不同会产生不同的优化结果,但 不影响方案的有效性.

由于多级电压在数据通路中要增加级间转换器,所以目标函数定义如式(5),*m* 与*n* 分别为功能 模块和级间转换器的数目.

$$\sum_{L=1}^{n} p_{$\frac{1}{2}, k} p_{$\frac{1}{2}, k}$$

Step1. 初始条件下分配每个操作以最高的电压,设定时间和资源约束值以及算法迭代次数;

Step2. 在所有的操作中找到 Gain 最高的操作 (如果存在多个相同的最大值,任意选择一个即可), 降低该操作电压后进行 list-based 调度<sup>[18]</sup>;

Step3. 如果 list-based 调度结果满足时间约束, 重新计算每个节点的 Cain,转向 Step4;如果不满足 时间约束,则将操作恢复到改变前的电压值,并将该 操作 Gain 标记为 0,转向 Step4;

Step4. 如果算法迭代次数超出要求,算法结束;如果没有,则转Step2.

在图 3 中的 CDFG 图经该算法调度后生成一系 列工作在多级电压的操作序列.



Fig.3 Control and data flow graph and its scheduling results. 图 3 CDFG 图与调度后的结果图

#### 2 操作模块的互连

由文献 14 ]中分布式的 RS 互连模型得出互连 单元在 T 个时钟步的执行时段里的动态功耗,可由 以下公式表示,

 $P_{dyn} = (X_T \times (C_s + C_1) + Y_T \times C_c)) \times V_{dd}^2$ , (6) 其中  $C_s$  和  $C_1$ 是自身电容 , $C_c$  是耦合电容 , $V_{dd}$ 是电 源电压.  $X_T$  和  $Y_T$  分别是在 T 个时钟步里的自身 电容翻转活动次数和耦合电容翻转活动次数.  $X_T$ 和  $Y_T$  可由以下方法计算:

$$X_{T}(i,j) = \sum_{t=1}^{T} p_{0,i}(i,j,t). \quad (7)$$

自身电容  $C_s$ 和  $C_1$ 的转变活动与互连单元出现 的电压上升沿次数成正比. 用  $p_{r,s}(i, j, t)$ 表示在时 钟步 t内,总线 i中的位线 j的信号值由状态  $r \in$ {0,1}变为状态  $s \in$  {0,1}的几率. 既然电容  $C_s$ 和  $C_1$ 只有在出现从低到高的信号翻转时才会被充满, 那么,在 T个执行时钟步中,总线 i 位线 j 的自身翻 转活动总数  $X_T(i, j)$ 可表示成:

$$X_{T}(i,j) = \sum_{t=1}^{T} p_{0,i}(i,j,t). \quad (8)$$

那么  $X_T(i) = \sum_{t=0}^{W-1} X_T(i, j)$ 即是总线 *i* 的所有位线 的翻转活动总数. 我们用 *B* 表示总线集. 于是 ,在 总线集中所有总线在 *T* 个时钟步内的所有翻转活 动总数为  $X_T$ . 计算公式为

$$X_T = \sum_{\forall i \in \beta} X_T (i).$$
 (9)

另一方面,耦合翻转活动总数  $Y_T$ 的计算要基于物理上邻接位线的翻转关系. 文献[14]给出了4种可能的翻转形式:

1)两根线中均没有信号翻转.由此,在 C<sub>c</sub>上, 没有动态充电耗散;

2) 仅有其中的一个信号使 C<sub>c</sub> 充电到 αC<sub>c</sub> V<sub>dd</sub>
 (α 是常数因子);

3)两个信号都做同样的翻转(均从低到高或者 从高到低),这样导致 C<sub>c</sub>没有被充电;

4) 一个信号从低翻转至高,而另一个信号从高翻转至低,使得 $C_c$ 充电到 $\beta C_c V_{d}$ ( $\beta$ 为常数因子).

4 )中的有效电容要比 2 )中的大 ,β 值通常是  $\alpha$ 值的两倍.(可取  $\beta = 2$  , $\alpha = 1$  ),用  $p_{pq}$  ,,s( i , $j_1$  , $j_2$  ,t ) 表示总线 i 中 ,位线  $j_1$  在 t = 1 时钟步状态为 p ,在 t 时钟步状态为r,而位线 $j_2$ 在t-1时钟步状态为 q,在t时钟步状态为s的几率(p,q,r, $s \in \{0,1\}$ ). 那么T个时钟步内,总线i中的一对位线 $j_1$ 和 $j_2$ 的耦合翻转活动总数为 $Y_T(i,j_1,j_2)$ ,表示如下:

$$Y_{T}(i, j_{1}, j_{2}) = \sum_{t=1}^{1} (\alpha \times (\sum_{s=0, i} (p_{ss,0}i(i, j_{1}, j_{2}, t)) + p_{ss,10}(i, j_{1}, j_{2}, t))) + \beta \times (p_{01,10}(i, j_{1}, j_{2}, t)) + p_{10,01}(i, j_{1}, j_{2}, t))), \quad (10)$$

则,B中所有总线在T个时钟步内总的耦合翻转活 动总数为,

$$Y_T = \sum_{\forall i \in \beta} \sum_{j=1}^{w^{-2}} Y_T (i \ j \ j + 1), \qquad (11)$$

w 是位线数目. 互连部分算法设计描述如图 4
 所示:





图 5(a)中是一个调度后的 DFG 图,在每个控制步骤中的数据传输情况如图 5(b),在进行数据总线的绑定时要尽量减小数据传输的功耗.



| • |   | ١ |
|---|---|---|
|   | а | ) |

| Control Step | Data Transfers |
|--------------|----------------|
| 1            | a , b , c , d  |
| 2            | c , d , e , f  |
| 3            | a , g , h      |
|              |                |

(b)

Fig.5 Data flow graph and data transfer after scheduling.图 5 调度后的 DFG 图及数据传输

由其代价表(表1)及互连算法选定代价最小的 绑定结果:*a* 绑定于 *B*<sub>2</sub>,*g* 绑定于 *B*<sub>3</sub>,*h* 绑定于 *B*<sub>1</sub> (图 6).

 Table 1
 Data Buses Binding Cost List

 表 1
 数据总线绑定代价表

| Data | $B_1$ | $B_2$ | $B_3$ | $B_4$ |
|------|-------|-------|-------|-------|
| A    | 156   | 137   | 58    | 184   |
| G    | 145   | 154   | 46    | 178   |
| Н    | 155   | 147   | 48    | 182   |



Fig.6 Optimal interconnection results.

图 6 互连部分的优化结果

可见,在 VLSI 高层综合设计中不同的互连方 法会产生不同的功耗,是值得研究的新领域.

#### 3 综合方案的实验结果

实验中设定操作节点的初始电压为 5V,可用电 压级别为 5.0V,3.6V,2.4V 和 1.5V,其中设定参 数 a = 10,b = 1,c = 1,时间约束为最高电压下 ASAP 调度时间的 4 倍,资源约束为 2,级间转换器 的功耗数据参考文献[4].实验在 CDFG 工具包<sup>[18]</sup> 集成环境中用 VC++ 实现.实验结果如表 2 所示. 其中 Tc 代表时间约束值,Rc 代表资源约束值, $E_{fun}^{5}$ 代表当所有的功能单元运行在最高电压 5V 时随机 绑定所消耗的能量, $E_{fun}$ 代表采用综合方案所消耗 的能量,Reduce 为功耗降低的百分率.从数据中可 以计算出平均功耗降低百分比为 64.98%.

| No | Benchmark<br>( DFG ) | Tc  | Rc      | E <sup>5</sup> <sub>fun</sub> ( PJ )<br>( Single Voltage<br>Randomly Binding ) | $E_{ m fun}\!({ m PJ}$ ) ( The Synthesis Scheme ) | Reduce<br>(%) |
|----|----------------------|-----|---------|--------------------------------------------------------------------------------|---------------------------------------------------|---------------|
| 1  | biquad               | 44  | (2+,2*) | 18236                                                                          | 4995.3                                            | 72.61         |
| 2  | dct                  | 56  | (2+,2*) | 43132                                                                          | 22768.2                                           | 47.21         |
| 3  | ellipf               | 104 | (2+,2*) | 23100                                                                          | 4436.2                                            | 80.80         |
| 4  | fir7                 | 44  | (2+,2*) | 18236                                                                          | 4978.7                                            | 72.70         |
| 5  | fir11                | 60  | (2+,2*) | 28724                                                                          | 8428.1                                            | 70.66         |
| 6  | Iir7                 | 88  | (2+,2*) | 39212                                                                          | 10080.3                                           | 74.29         |
| 7  | lattice              | 84  | (2+,2*) | 23598                                                                          | 4331.9                                            | 81.64         |
| 8  | nc                   | 100 | (2+,2*) | 82960                                                                          | 44771.4                                           | 46.03         |
| 9  | volterra             | 68  | (2+,2*) | 43748                                                                          | 18842.2                                           | 56.93         |
| 10 | wavelet              | 72  | (2+,2*) | 73180                                                                          | 46086.2                                           | 37.02         |
| 11 | wdf7                 | 108 | (2+,2*) | 49464                                                                          | 12427.7                                           | 74.88         |

| Fable 2 | The Experimenta | l Results of Benchmarks |
|---------|-----------------|-------------------------|
|         | 売っ 其准由          | 路实验结里                   |

#### 4 结 论

在高层综合设计研究中提出了综合考虑调度及 互连的研究方案,从调度互连两个方面达到低功耗 的目的.提出的基于 Gain 大小搜索的调度,将功耗 增益、灵活度和行为执行密度因素作为优先函数,考 虑操作的属性更加全面,在互连中同时考虑单根总 线上的翻转和邻线的耦合.该方案在 CDFG 工具包 中使用 VC 编程实现,实验结果证明该方案行之有 效,研究工作将继续在高层综合的其他方面展开.



Xu Junjuan , Cheng Xu . Lower-bound estimation of functional units in time-constrained scheduling [ J ]. Journal of Computer-Aided Design & Computer Graphics , 2006 , 18(4): 532-537 (in Chinese)

(许俊娟,程旭.时间约束调度中功能单元的下限估算[J]. 计算机辅助设计及图形学学报,2006,18(4):532-537)

[2] Xu Junjuan , Cheng Xu. Comparison of multi-voltage scheduling under two different assumptions [J]. Journal of Computer-Aided Design & Computer Graphics , 2006 , 18(4): 545 – 550 ( in Chinese )

(许俊娟,程旭.两种不同前提下的多电压调度对比[J].计 算机辅助设计及图形学学报,2006,18(4):545-550)

[3] A Dasgupta, R Karri. Simultaneous scheduling and binding for power minimization during microarchitecture synthesis [C]. ISLPED, Dana Point, CA, 1995

- [4] Jui-Ming Chang, Massoud Pedram. Energy minimization using multiple supply voltages [J]. IEEE Trans on VLSI, 1997, 5 (4):157-162
- [5] W Shiue, C Chakrabarti. Low power scheduling with resources operating at multiple voltages [J]. IEEE Trans on Circuits System II, 2000, 47(6):536-543
- [6] Ashok Kumar, Magdy Bayoumi. A multiple voltage-based scheduling methodology for low power in the high level synthesis
   [C]. International Symp on Circuits and Systems, 1999, 1: 371-374
- [7] M Sarrafzadeh, S Raje. Scheduling with multiple voltages under resource constraints [C]. ISCAS '99, Orlando, FL, 1999
- [8] A Manzak, C Chakrabarti. A lower power scheduling scheme with resources operating at multiple voltages [J]. IEEE Trans on VLSI, 2002, 10(1):6-14
- [9] Ashok Kumar, Magdy Bayoumi, Mohamed Elgamel. A methodology for low power scheduling with resources operating at multiple voltages[J]. The VLSI Journal, 2004, 37(1):29 -62
- [10] Lin Zhong, Niraj K Jha. Interconnect-aware high-level synthesis for low power[C]. ICCAD 2002, San Jose, CA, 2002
- [11] Wang Nailong, Dai Hongyu, Zhou Runde. VLSI thermal placement optimization using simulated annealing [J]. Chinese Journal of Semi-Conductors, 2003, 24(4): 427 - 432 (in Chinese)

(王乃龙,戴宏宇,周润德.用模拟退火算法实现集成电路热 布局优化[J].半导体学报,2003,24(4):427-432)

- [12] P R Panda, N D Dutt. Low-power memory mapping through reducing address bus activity [J]. IEEE Trans on VLIS Systems, 1999, 7(3): 309-320
- [13] S Hong, T Kim. Bus optimization for low power data path synthesis based on network flow method [C]. ICCAD, San Jose, CA, 2001

- [14] Chun-Gi Lyub. Coupling-aware high-level interconnect synthesis for low power[C]. Int 'l Conf on Computer-Aided Design, San Jose, CA, 2002
- [15] Ling Wang, Yingtao Jiang. A scheme for low power designs with multiple voltages under timing constraints [C]. NASA 11th VLSI Conf, Idaho, USA, 2003
- [16] Wang Ling, Wen Dongxin, Yang Xiaozong. Synthesis scheme for low power designs under timing constraints [J]. Chinese Journal of Semi-Conductors, 2005, 26:287-293(in Chinese) (王玲,温东新,杨孝宗.时间约束下低功耗的综合方案[J]. 半导体学报,2005,26:287-293)
- [17] Yann-RueLin. Scheduling techniques for variable voltage low power designs [J]. ACM Trans on Design Automation of Electronic System, 1997, 2(2):81-97
- [18] Jinhwan Jeon, Yongjin Ahn, Kiyoung Choi. CDFG Toolkit User 's Guide. School of Electronic Engineering, Seoul National University, 2002



Wen Dongxin, born in 1971. Ph. D. candidate in computer architecture at HIT. She received her B. S. degree in electronic technology from Harbin Normal University in 1992 and M. S. degree in computer science from Harbin Institute of Technology,

in 2003. Her main research interests include VLSI design including high-level synthesis and low-power system design. 温东新 ,1971 年生 ,博士研究生 ,主要研究方向为计算机体 系结构、高层综合设计.



Yang Xiaozong, born in 1939. Professor and Ph. D. supervisor. His main research interests include computer architecture, fault tolerant computing, fault injection, and mobile computing.

杨孝宗,1939年生,教授,博士生导师,主要研究方向为计算 机体系结构、容错技术.



Wang Ling, born in 1973. Associate professor. Received her Ph.D. degree in electrical engineering from University of Nevada, Las Vegas, USA, in 2003. Her main research interests include high-level

synthesis, low-power system design and embedded systems. 王 玲,1973年生,博士,副教授,主要研究方向为高层综合 设计、嵌入式系统.

#### **Research Background**

With today's increasingly large and complex digital integrated circuit (IC) and system-on-chip designs, power dissipation has emerged as a primary design consideration. Reduction of power consumption in VLSI designs can be achieved at various levels of the design hierarchy, ranging from processing technology, circuit, logic, architectural and algorithmic (behavioral) levels, up to system levels. It has also been long recognized that the most dramatic power saving is achievable at the algorithm and architecture levels, where computations are normally described using data/control flow graph. Thus, in this paper, a multiple supply voltage IC is synthesized at the behavior level. A scheme of low power design in VLSI high level synthesis is also provided in this paper. Our synthesis scheme considers both scheduling and interconnections to reduce power consumption.