踩内存问题定位手段汇总

Posted DoubleLi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了踩内存问题定位手段汇总相关的知识,希望对你有一定的参考价值。

最近项目中遇到一个全局变量被莫名修改的问题,代码排查了好久居然没发现,确实有些惭愧,这时候使用一些辅助工具帮助定位就很有必要也比较快速精准!
全局变量被修改无非就三种原因:
1、自己写的代码修改的;
2、数组越界导致的;
3、变量定义的时候没有初始化;

排查手段:
手段一:踩内存周边地址排查
排查被踩内存周边地址的一些变量,看是否存在越界问题
例如,检测地址0xffff7fffe73949a0周边的变量如下,可对如下列出变量进行排查有没有问题。

# cat /proc/kallsyms | grep ffff7fffe73949                                                                                          
ffff7fffe7394960 b g_ulTest     [system]                                                                                           
ffff7fffe73949a0 b g_ulOk      [system]                                                                                           
ffff7fffe7394920 b g_uiErr    [system]                                                                                           
ffff7fffe73949e0 b g_ulSum      [system]                                                                                   
#

手段二:kdb下执行bph
可以使用 bph 和 bpha 命令(假如体系结构支持使用硬件寄存器)来应用读写断点。这意味着每当从某个特定地址读取数据或将数据写入该地址时,我们都可以对此进行控制。当调试数据/内存毁坏问题时这可能会极其方便,在这种情况中您可以用它来识别毁坏的代码/进程。
示例 :
每当将四个字节写入地址 0xc0204060 时就进入内核调试器:

[0]kdb> bph 0xc0204060 dataw 4

在读取从 0xc000000 开始的至少两个字节的数据时进入内核调试器:

[0]kdb> bph 0xc000000 datar 2

手段三:设置watchpoint0
对指定地址进行监控,如果对监控的地址进行访问,则会打印对应的调用栈。

$su
# ls /proc/debug/watchpoint0
/proc/debug/watchpoint0
# cat /proc/debug/watchpoint0
watchpoint address:0x00000000; type:W; mask:0x0
# echo  0x802100f8  > /proc/debug/watchpoint0
# cat /proc/debug/watchpoint0
watchpoint address:0x802100f8; type:W; mask:0x0 
 
参数说明:
Address: 监控的地址,该地址为虚拟地址,物理地址无法进行监控。
Type:监控的类型。可以支持三种监控类型:读内存(type:R),写内存(type:W),取指令(type:I)。系统默认监控的为写内存,
Mask:监控地址掩码,设置该掩码可以设置监控地址范围。最大支持4k范围地址监控。

手段四:使用kasan工具
kasan是一个动态监测内存错误的工具,集成在linux4.4之后的内核版本里。它可以监测全局变量、栈、堆分配的内存发生越界访问等问题。
http://t.zoukankan.com/linhaostudy-p-14028917.html

判断当前内核有没有支持kasan:

# cat /proc/kallsyms | grep asan
/*如果有类似如下这种打印,则代表内核支持了kasan功能*/
ffff800000281c50 T kasan_kmalloc                                                                                                    
ffff800000281cc8 T __asan_register_globals                                                                                          
ffff800000281e70 T kasan_alloc_pages                                                                                                
ffff800000281ec0 T kasan_free_pages                                                                                                 
ffff800000281f30 T kasan_poison_slab                                                                                                
ffff800000281fa8 T kasan_unpoison_object_data                                                                                       
ffff800000281fc8 T kasan_poison_object_data                                                                                         
ffff800000282010 T kasan_slab_alloc                                                                                                 
ffff800000282028 T kasan_slab_free                                                                                                  
ffff800000282080 T kasan_kmalloc_large                                                                                              
ffff800000282138 T kasan_krealloc                                                                                                   
ffff8000002821b8 T kasan_kfree

如果监测出内存访问错误问题会打印对应堆栈信息,例如:

[  125.622629] 1:==================================================================                                                 
[  125.728479] 1:BUG: KASAN: slab-out-of-bounds in pe_init_chip_host+0x110/0x358 [system] at addr ffff800044851000                  
[  125.847528] 1:Write of size 8 by task scmd/1                                                                                     
[  125.896662] 1:=============================================================================                                      
[  125.994835] 1:BUG dma-kmalloc-4096 (Tainted: G           O   ): kasan: bad access detected                                       
[  126.091961] 1:-----------------------------------------------------------------------------                                      
[  126.091961] 1:                                                                                                                   
[  126.207874] 1:Disabling lock debugging due to kernel taint                                                                       
[  126.271617] 1:INFO: Allocated in 0x6b6b6b6b6b6b6b6b age=10706345584330141132 cpu=1802201963 pid=1802201963                       
[  126.385442] 1:INFO: Freed in 0x6b6b6b6b6b6b6b6b age=6527005130130320958 cpu=1802201963 pid=1802201963                            
[  126.494051] 1:INFO: Slab 0xffff7bffc1121400 objects=7 used=1 fp=0xffff8000448564c0 flags=0x7ffe00000004080                       
[  126.607877] 1:INFO: Object 0xffff800044850000 @offset=0 fp=0x6b6b6b6b6b6b6b6b

参考链接:
全局变量被修改原因:https://blog.csdn.net/weixin_47221359/article/details/109390145
内核调试方法:https://www.lmlphp.com/user/16529/article/item/490681/

 

鸿蒙内核之内存调测:动态内存池信息统计

本文分享自华为云社区《鸿蒙轻内核-内存调测-内存信息统计》,作者:zhushy 。

内存调测方法旨在辅助定位动态内存相关问题,提供了基础的动态内存池信息统计手段,向用户呈现内存池水线、碎片率等信息;提供了内存泄漏检测手段,方便用户准确定位存在内存泄漏的代码行,也可以辅助分析系统各个模块内存的使用情况;提供了踩内存检测手段,可以辅助定位越界踩内存的场景。

本文分析下内存信息统计。

1、基础概念

内存信息包括内存池大小、内存使用量、剩余内存大小、最大空闲内存、内存水线、内存节点数统计、碎片率等。

  • 内存水线:即内存池的最大使用量,每次申请和释放时,都会更新水线值,实际业务可根据该值,优化内存池大小;

  • 碎片率:衡量内存池的碎片化程度,碎片率高表现为内存池剩余内存很多,但是最大空闲内存块很小,可以用公式(fragment=100-最大空闲内存块大小/剩余内存大小)来度量;

  • 其他参数:通过内存管理模块的调用接口,扫描内存池的节点信息,统计出相关信息。

2、功能配置

LOSCFG_MEM_WATERLINE:开关宏,默认打开;若关闭这个功能,在 target_config.h 中将这个宏定义为 0。如需获取内存水线,需要打开该配置。

3、开发指导

关键结构体介绍:

typedef struct {
    UINT32 totalUsedSize;       // 内存池的内存使用量
    UINT32 totalFreeSize;       // 内存池的剩余内存大小
    UINT32 maxFreeNodeSize;     // 内存池的最大空闲内存块大小
    UINT32 usedNodeNum;         // 内存池的非空闲内存块个数
    UINT32 freeNodeNum;         // 内存池的空闲内存块个数
#if (LOSCFG_MEM_WATERLINE == 1) // 默认打开,如需关闭,在target_config.h中将该宏设置为0
    UINT32 usageWaterLine;      // 内存池的水线值
#endif
} LOS_MEM_POOL_STATUS;
  • 内存水线获取

调用 LOS_MemInfoGet 接口,第 1 个参数是内存池首地址,第 2 个参数是 LOS_MEM_POOL_STATUS 类型的句柄,其中字段 usageWaterLine 即水线值。

  • 内存碎片率计算

同样调用 LOS_MemInfoGet 接口,可以获取内存池的剩余内存大小和最大空闲内存块大小,然后根据公式(fragment=100-最大空闲内存块大小/剩余内存大小)得出此时的动态内存池碎片率。

4、编程实例

本实例实现如下功能:

1.创建一个监控线程,用于获取内存池的信息;

2.调用 LOS_MemInfoGet 接口,获取内存池的基础信息;

3.利用公式算出使用率及碎片率。

代码实现如下:

#include <stdio.h>
#include <string.h>
#include "los_task.h"
#include "los_memory.h"
#include "los_config.h"

void MemInfoTaskFunc(void)
{
    LOS_MEM_POOL_STATUS poolStatus = {0};
    LOS_MemInfoGet(m_aucSysMem0, &poolStatus);
    /* 算出内存池当前的碎片率百分比 */
    unsigned char fragment = 100 - poolStatus.maxFreeNodeSize * 100 / poolStatus.totalFreeSize;
    /* 算出内存池当前的使用率百分比 */
    unsigned char usage = LOS_MemTotalUsedGet(m_aucSysMem0) * 100 / LOS_MemPoolSizeGet(m_aucSysMem0);
    printf("usage = %d, fragment = %d, maxFreeSize = %d, totalFreeSize = %d, waterLine = %d\\n", usage, fragment, poolStatus.maxFreeNodeSize, 
           poolStatus.totalFreeSize, poolStatus.usageWaterLine);
}

int MemTest(void)
{
    unsigned int ret;
    unsigned int taskID;
    TSK_INIT_PARAM_S taskStatus = {0};
    taskStatus.pfnTaskEntry = (TSK_ENTRY_FUNC)MemInfoTaskFunc;
    taskStatus.uwStackSize  = 0x1000;
    taskStatus.pcName       = "memInfo";
    taskStatus.usTaskPrio   = 10;
    ret = LOS_TaskCreate(&taskID, &taskStatus);
    if (ret != LOS_OK) {
        printf("task create failed\\n");
        return -1;
    }
    return 0;
}
  编译运行输出的结果如下:  
usage = 22, fragment = 3, maxFreeSize = 49056, totalFreeSize = 50132, waterLine = 1414
   

点击关注,第一时间了解华为云新鲜技术~

 

以上是关于踩内存问题定位手段汇总的主要内容,如果未能解决你的问题,请参考以下文章

鸿蒙内核之内存调测:动态内存池信息统计

鸿蒙轻内核的得力助手:带你掌握4种内存调试方法

鸿蒙轻内核的得力助手:带你掌握4种内存调试方法

记录一次用户态踩内存问题

内存泄露定位手段(c语言hook malloc相关方式)

RK3399平台开发系列讲解(内核调试篇)9.25USB设备掉口问题的定位方法汇总