烧脑技术贴无法回避的字节对齐问题,从八个方向深入探讨(变量对齐,栈对齐,DMA对齐,结构体成对齐,Cache, RTOS双堆栈等)

Posted 安富莱电子

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了烧脑技术贴无法回避的字节对齐问题,从八个方向深入探讨(变量对齐,栈对齐,DMA对齐,结构体成对齐,Cache, RTOS双堆栈等)相关的知识,希望对你有一定的参考价值。

【本文为安富莱电子原创】

本期的知识点要稍微烧点脑细胞,因为字节对齐问题涉及到的地方太多,且无法规避,必须硬着头皮上。

下面要说的每个技术点,其实都可以专门开一个帖子说,所以我们这里的讨论,争取言简意赅,并配上官方文档和实验数据,力求有理有据。如果讲解有误的地方,欢迎大家指正,我们主要讨论M0,M0+,  M3,M4和M7内核。



一、引出问题:

字节对齐的含义:4字节对齐的含义就是变量地址对4求余数为0; 8字节对齐就是地址对8求余等于0,依次类推:

比如
uint32_t *p;
p=(uint32_t *)0x20000004; 这个地址是4字节对齐。

如果让p去访问0x20000001, 0x20000002,0x20000003这都是不对齐访问。



二、背景知识:

对于M3和M4而言,可以直接访问非对齐地址(注意芯片要在这个地址有对应的内存空间),  因为M3和M4是支持的,而M0/M0+/M1是不支持的,不支持内核芯片,只要非对齐访问就会触发硬件异常。

M7内核也支持非对齐访问,在M7的TRM中描述如下:




三、全局变量对齐问题:

基本上用户定义的变量是几个字节就是几字节对齐,这个比较好理解。

uint8_t定义变量地址要1字节对齐。
uint16_t定义变量地址要2字节对齐。
uint32_t定义变量地址要4字节对齐。
uint64_t定义变量地址要8字节对齐。

指针变量是4字节对齐。




四、结构体成员对齐问题:

首先明白一点,结构体里面的变量是什么类型,此变量的位置就是至少要几字节对齐,所以就存在结构体实际占用大小不是这些变量之和。

typedef struct
{
        uint8_t a;
        uint16_t b;
        uint32_t c;
        uint64_t d;        
}info;

这种定义,info占用了16字节,a单字节对齐,b是两字节对齐,而c要是4字节对齐,从出现b定义完毕后空出来1个字节未被使用。d是8字节对齐,这样就是16字节。而我们切换下变量定义顺序:
typedef struct
{
        uint16_t b;
        uint32_t c;
        uint64_t d;        
        uint8_t  a;
}info;

这种定义就要占用24字节,b占用2字节对齐,c需要4字节对齐,这样就空出来2两个字节未使用,d占用8字节,最后一个a占用了8字节。

如果想定义几个变量就几个字节,变量前面加前缀__packed即可。

不管是上面那种定义方式,都是占用15个字节。

__packed typedef struct
{
        uint8_t a;   1个
        uint16_t b; 2个
        uint32_t c; 4个
        uint64_t d; 8个        
}info;



五、局部变量对齐问题:

局部变量使用的是栈空间(除了静态局部变量和编译器优化不使用栈,直接用寄存器做变量空间),也就是大家使用在xxxx.S启动文件开辟的stack空间。

在M内核里面,局部变量的对齐问题如果研究起来是最烧脑的,这个涉及到AAPCS规约(Procedure Call Standard for the Arm Architecture,  Arm架构的程序调用标准)。

 

 

上面这个贴图最重要,仅需理解上面这两条就可以,意思是说,栈地址是全程至少保持4字节对齐的,因为M内核的硬件长做了处理,SP最低两个bit,bit0和bit1直接固定为0了。

但是在程序调用入口处必须满足8字节对齐,对于C语言,不需要用户去管,编译器都帮我们处理好了,先来个简单的示例压压惊:

 

而汇编文件是需要用户去处理的。以xxx.S启动文件为例,通过伪指令PRESERVE8来保证

 

那么问题来了,我们搞个4对齐是不是会出问题,一般情况下也没问题的,但特殊情况下不行,特别调用C库的sprintf和printf函数,直接给你输出个不知所以然的结果来。比如我在H7上做如下测试:

 

输出结果:




六、中断服务程序的栈对齐问题:

先来看两个图:

 

 

通过这两个图我们了解到:M0/M0+/M7的栈地址是固定8字节对齐,M3/M4的栈地址是对齐是可以通过SCB->CCR寄存器编程的为4字节或者8字节对齐。

比如我们设置的8字节对齐,那么中断发生的时候,如果SP指针位置在4字节对齐,那么硬件自动插入4字节来保证8字节对齐,之后就是硬件自动入栈的寄存器开始存入栈中。

另外就是不同的M内核硬件版本,这个地方略有不同,这个大家作为了解即可,早期的内核硬件版本应该没什么人用来做芯片了。

 

七、硬件浮点对齐问题

如果使用的是带FPU硬件浮点单元的M内核芯片就要注意对齐访问了,访问单精度浮点数访问一定要4字节对齐,双精度要8字节对齐。

比如我们使用支持单精度浮点的M4内核芯片,测试代码如下:

 

MDK直接给你来个不对齐硬件异常:





八、RTOS的任务栈:

RTOS的任务栈涉及到双栈指针问题,SP(R13寄存器)有两个栈指针,MSP主栈指针和PSP进程栈指针。简单的说,我们在中断服务程序里面都是用的MSP,而任务里面用的PSP。

优势是方便任务和中断栈空间分别管理,了解了这点知识就够了。

RTOS任务栈的关键依然是8字节对齐问题,如果仅仅是满足4字节对齐,就会出现我们前面printf和sprintf浮点数或者64bit数据的错误问题,早年各种RTOS移植案例还不是那么发达的时候(现在问题依旧),经常在这个地方入坑,加上硬件浮点寄存器入栈出栈后更是玩不转了。

比如大家搜索关键词 uCOS printf 或者uCOS 浮点数,一堆的问题,平时不用浮点不知道,一用浮点,各种问题就来了,特别是多任务都使用浮点计算,更是懵。

根本原因是底层移植文件的堆栈8字对齐有问题,很多人都是采用的指令__align(8)来设置堆栈对齐问题,其实修改底层port文件才是解决问题的根本。

为什么会造成这个问题,根本原因依然是前面AAPCS规约的要求,RTOS的移植都有个汇编的port文件,这个port文件的关键是实现任务切换,任务切换的关键就是进入任务前保证PSP是8字节对齐。



九、DMA对齐问题:

DMA对齐指的是源数据地址和目的数据对齐问题。这个问题最容易出错的地方就是网上倒腾SD卡移植FatFS的SDIO DMA方式。

大家网上搜关键词FatFS SDIO DMA,也是一瓢的问题,特别是BMP等格式图片显示的时候,这种问题就来了,因为很难保证每次的读取都是4字节对齐的。

以STM32F4的DMA为例,我们的底层移植无需再单独开一个缓冲做4字节对齐,本质是F4 DMA支持了源地址和目的地址的数据宽度可以不同,但是数据地址必须要跟其数据类型对齐。

比如使用SDIO DMA从SD卡读取数据,我们就可以设置源地址依然是4字节对齐(外设访问要4字节对齐),而目的地址设置为字节对齐,就可以方便的解决4字节对齐问题。

 

其实不仅是通用的DMA,像图形加速DMA2D,SDMMC自带的IDMA等都有这种问题。



十、配置MPU造成的对齐问题:

这个问题主要是对于M7内核芯片来说,以STM32H7 TCM以外空间为例:AXI RAM(0x2400 0000),
SRAM1(0x3000 0000),
SRAM2(0x3002 0000),
SRAM3(0x3004 0000),
SRAM4(0x3800 0000),
SDRAM等做非对齐访问都会有硬件异常,而开启Cache就不会有问题。

这个问题的关键就是M7的TRM中这句话:

意思是,如果用户使用MPU将H7的AXI总线下的内存空间配置为Device 或者 Strongly-ordered模式,用户采用非对齐方式访问,将会触发UsageFault

 

 

实际测序下,果然会触发这个异常

 

配置内存空间的MPU属性为Device 和 Strongly-ordered以外的属性就可以解决此问题了。

微信公众号:armfly_com 安富莱论坛:www.armbbs.cn 安富莱淘宝:https://armfly.taobao.com

从八个方面解析网站收录忽高忽低

最近几天发现手头上管理的几个武术学校类网站收录很不稳定,一会儿一千多,一会儿两千多,为何会出现这种情况呢?很多人认为收录是衡量一个网站权重高低的因素之一,但是并不明白其中真正的含义,很多新手也会进入误区,所以得出的结论也是比较片面的。小编在此普及一点基础知识,通常说的收录影响网站权重,这个收录指的是收录率而非单纯的收录总量。举一个例子,假如一个网站A内容有十万条,收录一万条,另外一个网站B内容有两万条,收录一万条,那么单从收录上看,是一样的权重,但是从收录率上来说,差距是很大的,A网站收录率只有10%,而B网站的收录率则达到了50%,当然无论是收录总量还是收录率都只是网站权重高低的参考因素之一,并非全部。回到正题,为何最近收录量忽高忽低呢?
  第一:网站权重
  为何把网站权重放到第一名位置,相信大多数SEOER都会有先入为主想法,最担心最害怕的也是网站降权,所以如果发现收录变化特别大,特别是降低的非常厉害,那么首先想到的肯定和降权有关,当然收录突然增加非常多,也有可能是网站权重提升的表现。根据我们网站其他数据分析,最后得出结论,和权重无关。
  第二:文章质量
  影响收录的第二大因素莫过于文章的质量,内容的原创度和是否有价值。如果内容全是采集的,收录忽高忽低是很正常的,但是我们的网站内容每天坚持原创,虽不敢大言不惭的说每一篇都非常有价值,但至少是原创的,对于这种忽高忽低的情况,显然不是文章质量决定。
  第三:空间连通率
  最近发现查询收录或者相关域的时候,百度会给出连通率的数据报告,当然这个连通率代表的是网站空间或者服务器的稳定性。如果空间出现宕机的概率非常高或者说经常出现速度慢的情况,那么网站的收录量也可能忽高忽低。根据我们网站的实际情况分析,网站用的空间是独立IP的万网虚拟主机,并且一个IP下只有这一个网站,解析是用的DNSPOD,测试速度非常好,宕机情况基本没有,连通率还是非常好的,所以,这一条原因可以排除。
  第四:网站被挂马或者泛解析
  泛解析的话查询收录应该不带www,但是现在查询的是带www的收录,所以这一情况可以排除,那么是否是因为挂马产生大量的违法页面造成收录变化特别大呢?通过检测空间内容,发现并没有木马之类的,并且从百度site的数据翻页查看,也没有违法页面的存在,所以挂马原因也可以排除。
  第五:网站改版
  网站改版影响收录,但是影响的不是忽高忽低,基本上是直接清零,当然现实情况是没有改版,所以,也不可能是这个原因引起的。
  第六:外链发布频率
  移步外链的几种表现形式,外链引蜘蛛来网站抓取,也有可能引起收录不稳定情况,虚拟主机但这个因素更多的是针对新站,对于老网站来说,外链的因素能够影响收录是微乎其微的。并且我们网站的外链每一天都固定的发多少,所以这一原因也是不可能的。
  第七:连带惩罚
  网站一般都会交换大量的友情链接,但是友链网站的具体优化情况我们不得而知,所以对方网站在被惩罚的时候,也有可能连带惩罚自身网站,进而影响收录,所以遇到这种情况,要检测一遍友情链接。根据具体情况查询结果显示,网站的友情链接都是正常的,所以这种情况也可以排除。
  第八:百度吃饱撑的
  度娘抽风是经常性的,每个月总有那么几次,所以针对这种情况,大可不必理会。按照之前的方法坚持去做就行,不能受这个因素影响自己良好的心情。

以上是关于烧脑技术贴无法回避的字节对齐问题,从八个方向深入探讨(变量对齐,栈对齐,DMA对齐,结构体成对齐,Cache, RTOS双堆栈等)的主要内容,如果未能解决你的问题,请参考以下文章

从八个方面解析网站收录忽高忽低

字节大牛耗时八个月又一力作,最新整理

BetaFlight深入传感设计之十:传感器物理特性方向对齐

从 B 站崩溃报告看分布式系统的技术栈

从 B 站崩溃报告看分布式系统的技术栈

一文带你深入了解《C语言对齐与非对齐访问》(ARM指令集)