ARM嵌入式开发中代码优化（2）

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2017-9-24 19:13 | 只看该作者

ARM嵌入式开发中代码优化（2）

函数调用
o 尽量限制函数的参数，不要超过4个。可以将几个相关参数组织在一个结构体中；
o 把较小的被调函数和调用函数放在一个文件中，并先定义再调用；
o 对性能影响较大的重要函数可使用_inline进行内联；
• 指针别名
o 建立一个新的局部变量来保存包含存储器访问的表达式，这样可以保证只对这个表达式求一次值，例如int a=data[n]；b+=a；c+=a; 比b+=data[n]；c+=data[n]；好
o 避免使用局部变量的地址，否则对这个变量的访问效率会比较低；
• 结构体安排
o 结构体元素要按照元素从小到大排序；
o 避免使用很大的结构体，可以用层次化的小结构体来代替；
注：针对ARMv4以上版本
======================================================变量定义
32位ARM处理器的指令集支持有符号/无符号的8位、16位、32位整型和浮点型变量类型，这不仅可以节省代码，而且可以提高代码的运行效率。按照作用范围的不同，C语言的变量可以划分为全局变量和局部变量。ARM编译器通常将全局变量定位在存储空间中，局部变量分配给通用寄存器。

在全局变量声明时，需要考虑最佳的存储器布局，使得各种类型的变量能以32位的空间位基准对齐，从而减少不必要的存储空间浪费，提高运行效率。如:

这里定义的四个变量形式相同，只是次序不同，却导致了在最终映像中不同的数据布局，如图1所示。显然第二种方式节约了更多的存储器空间。

图1 变量在数据区中的布局

对于局部变量，要尽量不使用32位以外的变量类型。当一个函数的局部变量数目不多时，编译器会把局部变量分配给内部寄存器，每个变量占一个32位的寄存器。这样short和char类型的变量不但起不到节省空间的作用，反而会耗费更多的指令周期来完成short和char的存取操作。C语言代码及其编译结果如下所示:

条件执行
条件执行是程序中必不可少的基本操作。典型的条件执行代码序列是由一个比较指令开始的，接下来是一系列相关的执行语句。ARM中的条件执行是通过对运算结果标志位进行判断实现的，一些带标志位的运算结果中，N和Z标志位的结果与比较语句的结果相同。尽管在C语言中没有带标志位的指令，但在面向ARM的C语言程序中，如果运算结果是与0作比较，编译器会移去比较指令，通过一条带标志位指令实现运算和判断。例如:

因此，面向ARM的C语言程序设计的条件判断应当尽量采用“与0比较”的形式。C语言中，条件执行语句大多数应用在if条件判断中，也有应用在复杂的关系运算(<，==，>等)及位操运算(&&，!，and等)中的。面向ARM的C语言程序设计中，有符号型变量应尽量采取x<0、x>=0、x==0、x!=0的关系运算;对于无符号型的变量应采用x==0、x!=0(或者x>0)关系运算符。编译器都可以对条件执行进行优化。

对于程序设计中的条件语句，应尽量简化if和else判断条件。与传统的C语言程序设计有所不同，面向ARM的C语言程序设计中，关系表述中类似的条件应该集中在一起，使编译器能够对判断条件进行优化。

循环
循环是程序设计中非常普遍的结构。在嵌入式系统中，微处理器执行时间在循环中运行的比例较大，因此关注循环的执行效率是非常必要的。除了在保证系统正确工作的前提下尽量简化核循环体的过程以外，正确和高效的循环结束标志条件也非常重要。按照以上所述的“与0比较”原则，程序中的循环结束条件应该是“减到0”的循环，结束条件尽量简单。应尽可能在关键循环中采取上述的判断形式，这样可以在关键循环中省去一些不必要的比较语句，减少不必要的开销，提高性能。如下面二个示例:

fact1和fact2中通过定义局部变量a来减少对n的load/store操作。fact2函数遵循了“与0比较”原则，省去了fact1编译结果中的比较指令，并且，变量n在整个循环过程不参与运算，也不需要保存。由于省去了寄存器分配，从而给其他部分程序的编译带来了方便，提高了运行效率。

“减到0”的方法同样适用于while和do语句。如果一个循环体只循环几次，可以用展开的方法提高运行效率。当循环展开后，不需要循环计数器和相关的跳转语句，虽然代码的长度有所增加，但是得到了更高的执行效率。
除法和求余
ARM指令集中没有提供整数的除法，除法是由C语言函数库中的代码(符号型_rt_sdiv和无符号型的_rt_udiv)实现的。一个32位数的除法需要20～140个周期，依赖于分子和分母的取值。除法操作所用的时间是一个时间常量乘每一位除法所需要的时间:

Time(分子/分母)=C0+C1×log2(分子/分母)
=C0+C1×(log2(分子)-log2(分母))
由于除法的执行周期长，耗费的资源多，程序设计中应当尽量避免使用除法。以下是一些避免调用除法的变通办法:

(1)在某些特定的程序设计时，可以把除法改写为乘法。例如x/y)>z，在已知y是正数而且y×z是整数的情况下，就可以写为x>(z×y)。

(2)尽可能使用2的次方作为除数，编译器使用移位操作完成除法，如128就比100更加适合。在程序设计中，使用无符号型的除法要快于符号型的除法。

(3)使用求余运算的一个目的是为了按模计算，这样的操作有时可以使用if的判断语句来完成，考虑如下的应用:

uintcounter1(uintcount)uintcounter2(uintcount)

{{return(++count`);if(++count>=60)}count=0;
return(count);}

(4)对于一些特殊的除法和求余运算，采用查找表的方法也可以获得很好的运行效果。

在除以某些特定的常数时，编写特定的函数完成此操作会比编译产生的代码效率高很多。ARM的C语言库中就有二个这样的符号型和无符号型数除以10的函数，用来完成十进制数的快速运算。在toolkit子目录的examples\explasm\div.c和examples\thumb\div.c文件中，有这二个函数的ARM和Thumb版本。
=======================================================
1 程序运行速度优化
程序运行速度优化的方法可分为以下ARM几大类。
1.1 通用的优化方法
(1)减小运算强度

利用左/ 右移位操作代替乘/ 除2 运算：通常需要乘以ARM或除以2 的幂次方都可以通过左移或右移n 位来完成。实际上乘以任何一个整数都可以用移位和加法来代替乘法。ARM 7 中加法和移位可以通过一条指令来完成，且执行时间少于乘法指令。例如： i = i × 5 可以用i = (i<<2) + i 来代替。
利用乘法代替乘方运算：ARM7 核中内建有32 ×8 ARM乘法器，因此可以通过乘法运算来代替乘方运算以节约乘方函数调用的开销。例如： i = pow(i, 3.0) 可用 i = i×i × i 来代替。
利用与运算代替求余运算：有时可以通过用与（AND ）指令代替求余操作（% ）来提高效率。例如：i = i % 8 可以用 i = i & 0x07 来代替。
(2)优化循环终止ARM条件
在一个循环结构中，循环的终止条件将严重影响着循环的效率，再加上ARM 指令的条件执行特性，所以在书写循环的终止条件时应尽量使用count-down-to-zero结构。这样编译器可以用一条BNE （若非零则跳转）指令代替CMP （比较）和BLE （若小于则跳转）两条指令，既减小代码尺寸，又加快了运行ARM速度。

(3)使用inline 函数
ARM C 支持 inline 关键字，如果一个函数被设计ARM成一个inline 函数，那么在调用它的地方将会用函数体来替代函数调用语句，这样将会彻底省去函数调用的开销。使用inline 的最大缺点是函数在被频繁调用时，代码量将增大。

1.2 处理器相关的优化ARM方法
(1)保持流水线畅通
从前面的介绍可知，流水线延迟或阻断会对处理器的性能造成影响，因此应该尽量保持流水线畅通。流水线延迟难以避免，但可以利用延迟周期进行其它ARM操作。

LOAD/STORE 指令中的自动索引（auto-indexing）功能就是为利用ARM流水线延迟周期而设计的。当流水线处于延迟周期时，处理器的执行单元被占用，算术逻辑单元ARM（ALU ）和桶形移位器却可能处于空闲状态，此时可以利用它们来完成往基址寄存器上加一个偏移量的操作，
供后面的指令使用。例如：指令 LDR R1, [R2], #4 完成 R1= *R2 及 R2 += 4 两个操作，是后索引（post-indexing）的例子；而指令 LDR R1, [R2, #4]! 完成 R1 = *(R2 + 4) 和 R2 +=4 两个操作，是前索引（pre-indexing）的例子。

流水线阻断的情况可通过循环拆解等方法加以改善。一个循环可以考虑拆解以减小跳转指令在循环指令中所占的比重，进而提高代码效率。下面以一个内存复制函数加以ARM说明。

void memcopy(char *to, char *from, unsigned int nbytes)
{
while(nbytes--)ARM
*to++ = *from++;
}

为简单起见，这里假设nbytes 为16 的ARM倍数（省略对余数的处理）。上面的函数每处理一个字节就要进行一次判断和跳转，对其中的循环体可作如下拆解：

void memcopy(char *to, char *from, unsigned int nbytes)
{
while(nbytes) {
*to++ = *from++;
*to++ = *from++;ARM
*to++ = *from++;
*to++ = *from++;
nbytes - = 4;
}
}

这样一来，循环体中的指令数增加了，循环次数却减少了。跳转指令ARM带来的负面影响得以削弱。利用ARM 7 处理器32 位字长的特性，上述代码可进一步作如下调整：

void memcopy(char *to, char *from, unsigned int nbytes)ARM
{
int *p_to = (int *)to;
int *p_from = (int *)from;
while(nbytes) {
*p_to++ = *p_from++;
*p_to++ = *p_from++;
*p_to++ = *p_from++;
*p_to++ = *p_from++;
nbytes - = 16;
}
}
经过优化后，一次循环可以处理16 个字节。跳转指令带来的影响ARM进一步得到减弱。不过可以看出，调整后的代码在代码量方面有所增加。

(2)使用寄存器变量
CPU 对寄存器的存取要比对内存的存取快得多ARM，因此为变量分配一个寄存器，将有助于代码的优化和运行效率的提高。整型、指针、浮点等类型的变量都可以分配寄存器；一个结构的部分或者全部也可以分配寄存器。给循环体中需要频繁访问的变量分配寄存器也能在
一定程度上提高程序效率。

收藏分享评分

回复引用

订阅 TOP

返回列表