第一种分解的方法我也想过,但是如果只是输入输出还好办,可是我在CI里面还要同时对那6个输入进行逻辑操作。而这种操作不可能被分解到几个CI里面去。所以基本上不太可行。 我还听过一种方法是顺序读入6个输入,也就是用一个CI读三遍,直到收到6个输入后才开始逻辑操作。但这就需要CI能暂时存储读入的数据直到操作结束。听说读写internal register file可以实现这个目的。但是目前为止我还没能解决这个问题。而且这种方法的执行效率也比较低,输入的数目越多,浪费的运行时间也越多。 版主说的第二种方法我也听过,应该就是hardware acceleration了吧。这种方法也是硬件加速,不过不像CI只能2in1out,它处理可以多入多出的操作,一般来说如果函数执行时间不多于2-3个clock cycle就用CI,多于这个数目就推荐用这个方法了。而且现在altera提供了 nio C2H可以自动生成代码,还是很方便的。我就正准备试试这个方法。(就是那个C2H软件好像很贵很贵的,^_^) |