随机硬故障 - STM32F4 - FreeRTOS
Posted
技术标签:
【中文标题】随机硬故障 - STM32F4 - FreeRTOS【英文标题】:Random HardFaults - STM32F4 - FreeRTOS 【发布时间】:2018-05-27 16:38:24 【问题描述】:我有一块运行 FreeRTOS 的 STM32F4 板(上面有 3 个任务),我每使用 15-50 分钟就会出现一次硬故障。
我的硬件: 3 个编码器、6 个模拟输入、10 个数字输入和 3 个用于直流电机的 PWM 输出。
一开始,我以为是一些 ***,然后我为每个任务实现了 uxTaskGetStackHighWaterMark();
并检查它不是它。
然后我实现了一些 HardFault 处理程序:
void HardFault_Handler(void)
__asm volatile
(
" tst lr, #4 \n"
" ite eq \n"
" mrseq r0, msp \n"
" mrsne r0, psp \n"
" ldr r1, [r0, #24] \n"
" ldr r2, handler2_address_const \n"
" bx r2 \n"
" handler2_address_const: .word prvGetRegistersFromStack \n"
);
void prvGetRegistersFromStack( uint32_t *pulFaultStackAddress )
volatile uint32_t CFSRValue = SCB->CFSR;
volatile uint32_t HFSRValue = SCB->HFSR;
char stepError [100] = "";
if ((HFSRValue & (1 << 30)) != 0)
CFSRValue >>= 16;
if((CFSRValue & (1 << 9)) != 0) strcpy(stepError," Divide by zero");
if((CFSRValue & (1 << 8)) != 0) strcpy(stepError," Unaligned access");
if((CFSRValue & (1 << 3)) != 0) strcpy(stepError," No coprocessor UsageFault" );
if((CFSRValue & (1 << 2)) != 0) strcpy(stepError," Invalid PC load UsageFault");
if((CFSRValue & (1 << 1)) != 0) strcpy(stepError," Invalid state");
if((CFSRValue & (1 << 0)) != 0) strcpy(stepError," Undefined instruction");
volatile uint32_t r0;
volatile uint32_t r1;
volatile uint32_t r2;
volatile uint32_t r3;
volatile uint32_t r12;
volatile uint32_t lr; /* Link register. */
volatile uint32_t pc; /* Program counter. */
volatile uint32_t psr;/* Program status register. */
r0 = pulFaultStackAddress[ 0 ];
r1 = pulFaultStackAddress[ 1 ];
r2 = pulFaultStackAddress[ 2 ];
r3 = pulFaultStackAddress[ 3 ];
r12 = pulFaultStackAddress[ 4 ];
lr = pulFaultStackAddress[ 5 ];
pc = pulFaultStackAddress[ 6 ];
psr = pulFaultStackAddress[ 7 ];
GPIO_WriteLed(0,1);
for(int i=0;i<=10;i++)
PWM_Change_DutyCycle(i,0);
for(;;);
从这个实现中,我得到了那些结果(每个都是 HardFault,有时 PC 是 0),这似乎是非常随机的(对我来说):
1- if((CFSRValue & (1 << 1)) != 0) strcpy(stepError," Invalid state"); pc=0
2- if((CFSRValue & (1 << 0)) != 0) strcpy(stepError," Undefined instruction");
0800807d: ...IncrementTick+252 ldr r3, [r7, #8] - pc=134250621 - lr=2779096485
3- if((CFSRValue & (1 << 8)) != 0) strcpy(stepError," Unaligned access");
0800d63b: MX_ADC1_Init+290 ldr r3, [pc, #240] ; (0x800d72c <MX_ADC1_Init+532>)
4- if((CFSRValue & (1 << 1)) != 0) strcpy(stepError," Invalid state");
addr 0
5-080124c9: SysTick_Handler+8 bl 0x80072cc <osSystickHandler>
6- if((CFSRValue & (1 << 0)) != 0) strcpy(stepError," Undefined instruction");
08012521: SysTick_Handler+8 bl 0x80072cc <osSystickHandler>
问候,
【问题讨论】:
你认为在这里发布异常处理程序会比发布生成异常的代码更有益吗? 我将处理程序发布给您知道如何获取值(CFSR、pc 等),也许有人可以指出更好的替代方法来获取有关异常的更多详细信息。如果您阅读我的问题,每个异常都发生在代码的不同部分。 osSystickHandler、IncrementTick 等都是 FreeRTOS 的默认设置,我没碰过。 如果不是堆栈溢出,则可能是通过杂散指针写入,或缓冲区溢出,或其他原因。不看代码就说不出来。 只有应用程序代码有超过 5000 行.. :/ 我在这里尝试一些可能有帮助的东西.. 如果我拔掉我的直流电机(仍然发送 PWM 但没有编码器脉冲),它需要更多的时间崩溃(到现在为止已经有 5 个小时了,无一例外)。也许在上下文切换中有些东西? 恐怕只有你能找到高频的来源。如果不访问您的机器和硬件,就无法远程调试复杂代码 【参考方案1】:这个问题没有明确说明,但据我了解,这个线程不是关于硬故障来自哪里,而是如果显示的测试想法到目前为止还可以,并且还可以做些什么来定位错误。
这个问题现在已经很老了,但是这个板子是为了帮助其他有同样问题的人,所以让我们带着对这些问题的普遍兴趣来阅读问答。
为了追溯问题,以下策略可以提供帮助:
如果您可以应用跟踪硬件(因为硬件目标支持它并且您有足够的昂贵设备......),请使用它:片外 ETM 跟踪和硬故障处理程序中的经典断点,并且您的搜索可能会晚于 50 分钟。
我猜在本案中条件不满足。 尽管如此,在一些专业项目中,设计另一个 PCB 并购买一个好的调试/跟踪适配器比让一些开发人员搜索数周更便宜。 也许具有完全 JTAG/TPIU 访问权限的 STM32 评估板是您的部分解决方案...
有很多错误模型,其中硬故障处理程序报告给您的地址与错误源无关。 不过,通过检查(使用内存映射)地址属于哪个函数或变量/缓冲区,您可能会得到一些有用的想法。 通过在模块之间放置未使用的“间隔”缓冲区(一个或几个字可能就足够了)来修改错误环境,然后重新运行测试。 如果您在这些未使用的区域中写入一些魔术模式,则可以监视它们是否损坏并将它们用作“canaries”来检测错误发生在哪个上下文中。
如果这没有帮助,请逐步停用软件的不同组件,然后重新运行并检查硬故障何时消失。 如果之前还没有,您可能需要一些自动化的耐力测试环境,这样您的努力(和搜索时间)就不会爆炸。
据我所知,所有 STM32F4 有一个内存保护单元。 可以激活吗?
【讨论】:
以上是关于随机硬故障 - STM32F4 - FreeRTOS的主要内容,如果未能解决你的问题,请参考以下文章
STM32F030 启动时出现硬故障,__libc_init_array
NUCLEO STM32F334R8 上的 STMCubeIDE,新项目:FreeRTOS 硬故障