Linux性能之DVFS/cpufreq

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Linux性能之DVFS/cpufreq相关的知识,希望对你有一定的参考价值。

参考技术A DVFS全称Dynamic Voltage and Frequency Scaling,即动态电压频率调整。这项技术可以根据芯片运行的应用程序的计算需求,动态调整电压和频率,从而达到节能的目的。

DVFS技术是一项需要软硬件结合的技术,硬件方面比如Intel的SpeedStep技术以及由此衍生的EIST技术,ARM的IEM和AVS技术等。软件方面对于Linux而言主要就是CPUfreq技术,下面我们着重分析一下这项技术。在开始之前,稍微讲一点硬件知识。

CMOS电路中分为动态功耗和静态功耗,公式为 power=Σ(CV²αf + VI)。 C 代表负载电容的容值,V 是工作电压,α 是当前频率下的翻转率,f为工作频率,I代表静态电流。公式中加号前面部分代表动态功耗,后半部分代表静态功耗。要想降低动态功耗的话,需要从C/α/V/f几个参数入手,而对于软件而言,通常可以调节的只有V和f。

好,基于上面的背景,对于Cpufreq技术其实也就是软件根据系统的负载,动态的去调整电压和频率来平衡性能和功耗。

总体而言,Cpufreq包含两部分内容,一是策略部分,该部分与具体CPU无关;而是driver部分,与具体平台实现策略有关系。这种设计的优点是实现了策略和实现机制的分离。首先看策略部分,目前Linux上通用的策略有五种,如下表所示:

对于安卓系统而言,还增加了一种interactive策略针对延时敏感的UI任务,当有UI任务时,改策略会采取更加激进的方式调节CPU频率。

对于用户空间而言,一般可通过/sys/devices/system/cpu/cpu[x]/cpufreq/xxx来查看CPU的调度策略或者进行设置。
主要有以下接口暴露给用户:

当切换不同调度策略时,还会出现一些新的接口。但通用接口如上表所示。

对于dirver而言,如果需要监控CPUfrq系统的变化,那么存在两种类型的通知,一种是CPUfreq的策略变化,另一种是CPU频率的变化。
策略变化总共有三种类型的通知:
CPUFREQ_ADJUST-只要有需要,所有的被通知者可以在此时修改policy的限制信息,比如温控系统可能会修改在大允许运行的频率。
CPUFREQ_INCOMPATIBLE-只是为了避免硬件错误的情况下,可以在该通知中修改policy的限制信息。
CPUFREQ_NOTIFY-真正切换policy前,该通知会发往所有的被通知者。
CPU频率变化会发出两种类型的通知:
CPUFREQ_PRECHANGE-调整前的通知
CPUFREQ_POSTCHANGE-完成调整后的通知
另外,系统休眠/唤醒如果CPU频率发生变化,还会发出CPUFREQ_SUSPENDCHANGE和CPUFREQ_RESUMECHANGE这两个通知。

需要注意的是,除了CPU之外,其他设备也可能存在DVFS的调整需求,可以关注devfreq,对应到driver/devfreq驱动目录。

内核在编译阶段就可以选择支持的governor以及默认governor。在menuconfig中可配置CONFIG_CPU_FREQ,CONFIG_CPU_FREQ_GOV_PERFORMANCE, CONFIG_CPU_FREQ_GOV_POWERSAVE, CONFIG_CPU_FREQ_GOV_USERSPACE, CONFIG_CPU_FREQ_GOV_ONDEMAND, CONFIG_CPU_FREQ_GOV_CONSERVATIVE
等来选择是否开启CPUfreq,以及选择哪种governor。

Linux 3.1之后内核将cpupower-utils集成进内核tools/power/cpupower目录,改工具集的cpufreq-bench工具可以用来分析不同策略对CPU性能的影响。该工具的原理是模拟系统运行的状态来对比其他策略相比于performance高频模式完成任务的时间比例。以ondemand策略为例,命令使用方式如下:
cpufreq-bench -l 50000 -s 100000 -x 50000 -y 100000 -g ondemand -r 5 -n 5 -v
一般达到目标90%左右的比例视为理想比例。

原创Linux cpufreq framework

背景

  • Read the fucking source code! --By 鲁迅
  • A picture is worth a thousand words. --By 高尔基

说明:

  1. Kernel版本:4.14
  2. ARM64处理器
  3. 使用工具:Source Insight 3.5, Visio

1. 介绍

  • cpufreq子系统负责在运行时对CPU频率和电压的动态调整,以达到性能和功耗的平衡,它也叫DVFS(Dynamic Voltage Frequency Scaling)
  • DVFS原理:CMOS电路中功耗与电压的平方成正比,与频率也成正比。此外,频率越高,性能也越强,相应的能耗就增大了,所以Tradeoff依旧是一门艺术。
  • cpufreq framework类似于cpuidle framework,提供机制(cpufreq driver)与策略(cpufreq governor),此外提供了cpufreq core来对机制和策略进行管理。

2. 框架

主要代码路径:
driver/cpufreq/cpufreq.c
include/linux/cpufreq.h
drivers/cpufreq/cpufreq_userspace.c

先上框架图:
技术图片

粗一看与cpuidle framework的图很像,但是有些差别如下:

  • 用户层与cpufreq framework的交互,主要是通过sysfs,这个可以在/sys下看到很多文件,而Kernel Module也可以使用某些接口来回调它;
  • 系统只允许有一个Platform Drivers,为全局变量cpufreq_drivercpufreq core通过它去回调驱动;
  • 驱动与硬件的交互,通过如set_clk_rate/regulator_set_voltage等接口去设置CPU的时钟和电压,而不再是cpu_ops
  • 有一个全局的governor链表cpufreq_governor_list,可以通过查找链表来选择合适的governor

3. 数据结构

核心的数据结构有三个:

  • struct cpufreq_policy:用于描述不同的policy,涉及到频率表、cpuinfo等各种信息,并且每个policy都会指向某个governor
  • struct cpufreq_governor:用于对policy的管理;
  • struct cpufreq_driver:用于描述具体的驱动程序;
    如下图:
    技术图片

4. 流程

4.1 cpufreq_driver注册

仔细观察上图中struct cpufreq_driver结构体,你会发现它与传统的设备模型中的驱动结构不一致,它并没有内嵌struct bus_typestruct device_driver类型,这就决定了它不属于“device<--->bus<--->driver”这种模型。
事实上,cpufreq_driver是一个全局的变量,不属于任何一个拓扑的结构。它的注册从cpufreq_register_driver开始。
流程如下图:
技术图片

4.2 governor注册

接口为:cpufreq_register_governor,这个操作实在是太简单了,添加到全局链表即可,完事!
顺带提一句吧,还有一个接口cpufreq_register_notifier,这个用于通知机制,具体不再深入分析了。

4.3 sysfs访问

cpufreq core会在/sys目录下创建相应的节点,如下图所示:
技术图片

用户态可以通过cat/echo命令来读取/设置相应的值。

对应结构体如下:

static struct attribute *default_attrs[] = 
    &cpuinfo_min_freq.attr,
    &cpuinfo_max_freq.attr,
    &cpuinfo_transition_latency.attr,
    &scaling_min_freq.attr,
    &scaling_max_freq.attr,
    &affected_cpus.attr,
    &related_cpus.attr,
    &scaling_governor.attr,
    &scaling_driver.attr,
    &scaling_available_governors.attr,
    &scaling_setspeed.attr,
    NULL
;

各个字段含义如下:

  • affected_cpus:需要软件调整频率的cpu列表;
  • related_cpus:需要软件或硬件来调整频率的cpu列表;
  • cpuinfo_max_freq:CPU能够支持的最高频率(khz);
  • cpuinfo_min_freq:CPU能够支持的最小频率(khz);
  • cpuinfo_transition_latency:CPU频率切换时的时间开销(ns);
  • scaling_available_governors:内核中支持的governor
  • scaling_driver:硬件驱动,比如cpufreq-dt
  • scaling_cur_freq:CPU工作频率;
  • scaling_max_freq:当前policy的频率上限;
  • scaling_min_freq:当前policy的频率下限;
  • scaling_governor:CPU调频策略,可以修改;
  • scaling_setspeed:设置CPU运行频率;
    如下图:
    技术图片

sysfs回调下来后,会进入xxx_store/xxx_show函数来进行具体的设置,至于设置的流程大体与cpufreq_driver注册图中类似,不再深入分析了。

驱动的实现变成了实现struct cpufreq_driver函数指针中的函数,并注册即可。目前的驱动开发大抵如此,变成了一道填空题,当然我们也需要去了解背后的原理。

以上是关于Linux性能之DVFS/cpufreq的主要内容,如果未能解决你的问题,请参考以下文章

原创Linux cpufreq framework

linux配置文件之/etc/passwd详解

JMeter 接口/并发/性能测试(详尽版)

原创一文掌握 Linux 性能分析之 I/O 篇

Linux系统和性能监控之CPU篇

性能工具之linux常见日志统计分析命令