FPGA设计原则总结

2020-06-30 11:26:25 浏览数 (1)

1.面积与速度的平衡与互换

这里的面积指一个设计消耗 FPGA/CPLD 的逻辑资源的数量,对于 FPGA 可以用消耗的 FF(触发器)和 LUT(查找表)来衡量,更一般的衡量方式可以用设计所占的等价逻辑门数。

速度指设计在芯片上稳定运行,所能达到的最高频率,这个频率由设计的时序状况来决定,和设计满足的时钟要求,PAD to PAD time ,clock Setup TIme,Clock Hold TIme,Clock-to-Output Delay 等众多时序特征量密切相关。

面积和速度这两个指标贯穿 FPGA/CPLD 设计的时钟,是设计质量的评价的终极标准。

面积和速度是一对对立统一的矛盾体。要求一个同事具备设计面积最小,运行频率最高是不现实的。更科学的设计目标应该是在满足设计时序要求(包括对设计频率的要求)的前提下,占用最小的芯片面积。或者在所规定的面积下,是设计的时序余量更大,频率跑的更高。这两种目标充分体现了面积和速度的平衡的思想。

作为矛盾的两个组成部分,面积和速度的地位是不一样的。相比之下,满足时序、工作频率的要求更重要一些,当两者冲突时,采用速度优先的准则。

从理论上讲,如果一个设计时序余量较大,所能跑的速度远远高于设计要求,那么就通过功能模块的复用来减少整个设计消耗的芯片面积,这就是用速度的优势换取面积的节约。反之,如果一个设计的时序要求很高,普通方法达不到设计频率,那么一般可以通过将数据流串并转换,并行复制多个操作模块,对整个设计采取乒乓操作和串并转换的思想运行。

2. 硬件原则

硬件原则主要针对 HDL 代码编写而言

Verilog 是采用了 C 语言形式的硬件的抽象,它的本质作用在于描述硬件!它的最终实现结果是芯片内部的实际电路。所以评判一段 HDL 代码的优劣的最终标准是:其描述并实现的硬件电路的性能。包括面积和速度两个方面。评价一个设计的代码水平较高,仅仅是说这个设计是由硬件想 HDL 代码这种表现形式的转换更加流畅、合理。而一个设计最终性能,在更大程度上取决于设计工程师所构想的硬件实现方案的效率以及合理性。(HDL 代码仅仅是硬件设计的表达形式之一)

初学者,片面追求代码的整洁、简短,是错误的。是与 HDL 的标准背道而驰的。正确的编码方法,首先要做到对所需实现的硬件电路胸有成竹,对该部分的硬件的结构和连接十分清晰,然后再用适当的 HDL 语句表达出来即可。

另外,Verilog 作为一种 HDL 语言,是分层次的。系统级 -- 算法级 -- 寄存器传输级 -- 逻辑级 -- 门级 -- 开关级。

构建优先级树会消耗大量的组合逻辑,所以如果能够使用 case 的地方,尽量使用 case 代替 IF.....else......

3. 系统原则

系统原则包含两个层次的含义:更高层面上看,是一个硬件系统,一块单板如何进行模块花费和任务分配,什么样的算法和功能适合放在 FPGA 里面实现,什么样的算法和功能适合放在 DSP,CPU 里面实现,以及 FPGA 的规模估算数据接口设计等。具体到 FPGA 设计就要对设计的全局有个宏观上的合理安排,比如时钟域,模块复用,约束,面积,速度等问题。在系统上模块的优化最为重要。

一般来说实时性要求高,频率快的功能模块适合 FPGA 实现。而 FPGA 和 CPLD 相比,更适合实现规模较大,频率较高、寄存器较多的设计。使用 FPGA/CPLD 设计时,应该对芯片内部的各种底层硬件资源,和可用的设计资源有一个较深刻的认识。比如 FPGA 一般触发器资源丰富,CPLD 的组合逻辑资源更加丰富。FPGA/CPLD 一般是由底层可编程硬件单元,BRAM,布线资源,可配置 IO 单元,时钟资源等构成。底层可编程硬件单元一般由触发器和查找表组成。xilinx 的底层可编程硬件资源较 SLICE,由两个 FF 和 2 个 LUT 构成。altera 的底层硬件资源叫 LE,由 1 个 FF 和 1 个 LUT 构成。

使用片内 RAN 可以实现单口 RAM,双口 RAM,同步、异步 FIFO,ROM,CAM 等常用单元模块。

一般的 FPGA 系统规划的简化流程

4. 同步设计原则

异步电路

电路的逻辑核心是用组合逻辑电路实现。比如异步的 FIFO/RAM 读写信号,地址译码等电路。电路的主要信号、输出信号等并不依赖于任何一个时钟性信号,不是由时钟信号驱动 FF 产生的。

异步时序电路的最大缺点是容易产生毛刺。在布局布线后仿真和用逻辑分析仪观测实际信号时,这种毛刺尤其明显。

同步时序

电路的核心逻辑用各种各样的触发器实现

电路的主要信号、输出信号都是由某个时钟沿驱动触发器产生出来的。

同步时序电路可以很好的避免毛刺。布局布线后仿真,和用逻辑分析仪采样实际工作信号都没有毛刺。

是否时序电路一定比异步电路使用更多的资源呢?

从单纯的 ASCI 设计来看,大约需要 7 个门来实现一个 D 触发器,而一个门即可实现一个 2 输入与非门,所以一般来说,同步时序电路比异步电路占用更大的面积。(FPGA/CPLD 中不同,主要是因为单元块的计算方式)

如何实现同步时序电路的延时?

异步电路产生延时的一般方法是插入一个 Buffer,两级与非门等。这种延时调整手段是不适用同步时序设计思想的。首先要明确一点 HDL 语法中的延时控制语法,是行为级的代码描述,常用于仿真测试激励,但是在电路综合是会被忽略,并不能启动延时作用。

同步时序电路的延时一般是通过时序控制完成的。换句话说,同步时序电路的延时被当做一个电路逻辑来设计。对于比较大的和特殊定时要求的延时,一般用高速时钟产生一个计数器,通过计数器的计数控制延迟;对于比较小的延时,可以用 D 触发器打一下,这种做法不仅仅使信号延时了一个时钟周期,而且完成了信号与时钟的初次同步,在输入信号采样和增加时序约束余量中使用。

同步时序电路的时钟如何产生?

时钟的质量和稳定性直接决定着同步时序电路的性能。

输入信号的同步

同步时序电路要求对输入信号进行同步化,如果输入数据的节拍和本级芯片的处理时钟同频,并且建立保持时间匹配,可以直接用本级芯片的主时钟对输入数据寄存器采样,完成输入数据的同步化。如果输入数据和本级芯片的处理时钟是异步的,特别是频率不匹配的时候,则要用处理时钟对输入数据做两次寄存器采样,才能完成输入数据的同步化。

是不是定义为 Reg 型,就一定综合成寄存器,并且是同步时序电路呢?

答案的否定的。Verilog 中最常用的两种数据类型 Wire 和 Reg,一般来说,Wire 型指定书数据和网线通过组合逻辑实现,而 reg 型指定的数据不一定就是用寄存器实现。

5. 乒乓操作

乒乓操作是一个常常应用于数据流控制的处理技巧。

数据缓冲模块可以为任何的存储模块,比较常用的存储模块为双口 RAM(DPRAM),单口 RAM(SPRAM),FIFO 等。在等一个缓冲周期,将输入的数据流缓存到数据缓存模块 1,在第二个缓冲周期,通过输入数据流选择单元,将输入的数据流缓存到数据缓冲模块 2. 乒乓操作的最大特点是,通过输入数据选择单元和输出数据选择单元,进行运算和处理。把乒乓操作模块当成一个整体,站在两端看数据,输入数据和输出数据流都是连续不断的,没有任何停顿,因此非常适合对数据流进行流水线式处理。所以乒乓操作常常应用于流水线式算法,完成数据的无缝缓冲和处理。

乒乓操作的第二个优点是可以节约缓冲区空间。比如在 wcdma 基带应用中,1 帧是由 15 个时隙组成的,有时需要将 1 整帧的数据延时一个时隙后处理,比较直接的方法就是将这帧数据缓存起来,然后延时一个时隙,进行处理。这时缓冲区的长度为 1 帧的数据长,假设数据速率是 3.84Mb/s,1 帧 10ms,此时需要缓冲区的长度是 38400bit,如果采用乒乓操作,只需定义两个缓冲 1 时隙的数据 RAM,当向一个 RAM 写数据时,从另一块 RAM 读数据,然后送到处理单元处理,此时每块 RAM 的容量仅需 2560bit,2 块加起来 5120bit 的容量。

巧妙的运用乒乓操作,还可以达到低速模块处理高速数据流的效果。

6. 串并转换

7. 流水线操作

流水线处理是高速设计中一个常用的设计手段。如果某个设计的处理流程分为若干步骤,而且整个数据处理是单流向的。则可以考虑采用流水线设计方法提高系统的工作频率。

其基本结构为:将适当划分的 n 个操作步骤单流向串联起来。流水线操作的最大特点和要求是,数据在各个步骤的处理,从时间上是连续的,如果将每个操作步骤简化假设为一个通过 D 触发器(就是用寄存器打一个节拍),那么流水线操作就类似一个移位寄存器组,数据流依次流经 D 触发器,完成每个步骤的操作。流水线设计时序图如下:

流水线设计的关键在于,整个设计时序的合理安排。要求每个操作步骤的划分合理。如果前级操作时间恰好等于后级操作时间,设计最为简单,前级的输出直接汇入后级的输入即可。如果前级操作时间大于后级操作时间,则需要进行适当缓存。如果前级操作时间小于后级操作时间,则必须通过复制逻辑,将数据流分流,或在前级对数据采用存储、后处理的方式。否则会造成后级数据的溢出。

8. 数据接口的同步方法

数据接口的同步在 FPGA/CPLD 设计中一个常见问题。很多设计工作不稳定都是源于数据接口的同步问题。

1. 输入输出的延时不可测,或者可能有变动,如何完成数据的同步?

对于数据延迟不可测或者变动,就需要建立同步机制。或者用一个同步使能,或者同步指示信号。另外使数据通过 RAM 或者 FIFO 的存取,也可以达到数据同步的目的。

把数据存放在 RAM 或 FIFO 的方法如下,将上级芯片提供的数据随路时钟作为写信号,将数据写入 RAM 或者 FIFO,然后使用本级时钟的采样时钟(一般是数据处理的主时钟),将数据读出来即可。这种做法的关键是数据写入 RAM 或者 FIFO 要可靠,如果使用同步 RAM 或者 FIFO,就要求有一个与数据延迟相对关系固定的随路指示信号。

0 人点赞