手把手教你在昇腾平台上搭建PyTorch训练环境
Posted 华为云开发者社区
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了手把手教你在昇腾平台上搭建PyTorch训练环境相关的知识,希望对你有一定的参考价值。
摘要:在昇腾平台上运行PyTorch业务时,需要搭建异构计算架构CANN软件开发环境,并安装PyTorch 框架,从而实现训练脚本的迁移、开发和调试。
本文分享自华为云社区《手把手教你在昇腾平台上搭建PyTorch训练环境》,作者:昇腾CANN。
PyTorch是业界流行的深度学习框架,用于开发深度学习训练脚本,默认运行在CPU/GPU上。在昇腾AI处理器上运行PyTorch业务时,需要搭建异构计算架构CANN(Compute Architecture for Neural Networks)软件开发环境,并安装PyTorch 框架,从而实现训练脚本的迁移、开发和调试。
下面带大家了解如何在昇腾平台上快速安装驱动固件、CANN软件及PyTorch框架。
环境检查
在昇腾平台上安装驱动和固件前,首先需要检查安装环境的NPU是否正常在位,并确认操作系统版本与内核版本是否满足对应的版本配套要求。
以Atlas 800 训练服务器(型号:9010)(昇腾AI处理器型号Ascend 910)为例,检查NPU是否正常在位可执行lspci | grep d801命令,如果服务器上有 N路NPU,回显N行含“d801”字段,则表示NPU正常在位。
安装驱动和固件
1.创建驱动运行用户HwHiAiUser。
groupadd -g 1000 HwHiAiUser useradd -g HwHiAiUser -u 1000 -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash
2.安装驱动和固件。
在昇腾社区的“固件与驱动”下载页面下载配套产品的固件驱动软件,并上传到服务器任意目录,然后参考如下命令进行固件驱动软件包的安装,需要注意,需要以root用户进行安装。
a.为软件包增加可执行权限。
chmod +x Ascend-hdk-910-npu-driver_23.0.rc1_linux-x86-64.run chmod +x Ascend-hdk-910-npu-firmware_6.3.0.1.241.run
b.安装驱动。
./Ascend-hdk-910-npu-driver_23.0.rc1_linux-x86-64.run --full --install-for-all
默认安装路径为“/usr/local/Ascend”,出现类似如下回显信息,说明安装成功。
Driver package installed successfully!复制
您还可以通过执行npu-smi info命令查看,出现类似如下信息,说明驱动加载成功。
c.安装固件。
./Ascend-hdk-910-npu-firmware_6.3.0.1.241.run --full
出现类型如下回显信息,说明安装成功。
Firmware package installed successfully! Reboot now or after driver installation for the installation/upgrade to take effect
3.驱动固件安装完成后,重启系统。
reboot
安装CANN软件依赖
CANN软件安装过程需要下载相关依赖,请确保安装环境能够连接网络,并已配置软件源,以下步骤以root用户操作为例。
1. 安装第三方依赖
Ubuntu系统(Debian、UOS20、Linux等系统操作一致):
apt-get install -y gcc g++ make cmake zlib1g zlib1g-dev openssl libsqlite3-dev libssl-dev libffi-dev unzip pciutils net-tools libblas-dev gfortran libblas3
openEuler系统(EulerOS、CentOS、BCLinux等系统操作一致):
yum install -y gcc gcc-c++ make cmake unzip zlib-devel libffi-devel openssl-devel pciutils net-tools sqlite-devel lapack-devel gcc-gfortran
2. 安装Python及其依赖
以安装Python 3.7.5为例。
1)通过wget命令下载python3.7.5源码包。
wget https://www.python.org/ftp/python/3.7.5/Python-3.7.5.tgz
2)解压缩源码包
tar -zxvf Python-3.7.5.tgz
3)源码编译安装Python。
cd Python-3.7.5 ./configure --prefix=/usr/local/python3.7.5 --enable-loadable-sqlite-extensions --enable-shared make make install
以--prefix=/usr/local/python3.7.5路径为例进行说明。执行配置、编译和安装命令后,安装包在/usr/local/python3.7.5路径。
4)设置python3.7.5环境变量。
#用于设置python3.7.5库文件路径 export LD_LIBRARY_PATH=/usr/local/python3.7.5/lib:$LD_LIBRARY_PATH #如果用户环境存在多个python3版本,则指定使用python3.7.5版本 export PATH=/usr/local/python3.7.5/bin:$PATH
5)检查是否安装成功。
python3 --version
pip3 --version
返回相关版本信息,则说明安装成功。
6)安装pip依赖。
pip3 install attrs numpy decorator sympy cffi pyyaml pathlib2 psutil protobuf scipy requests absl-py
安装CANN开发套件包
1. 从昇腾社区“CANN”产品页,根据操作系统架构下载CANN开发套件包。
例如“Ascend-cann-toolkit_6.3.RC1_linux-x86_64.run”,并将其上传到安装环境任意目录。
2. 安装CANN开发套件包。
# 添加可执行权限 chmod +x Ascend-cann-toolkit_6.3.RC1_linux-x86_64.run # 校验软件包的一致性和完整性 ./Ascend-cann-toolkit_6.3.RC1_linux-x86_64.run --check # 执行安装命令 ./Ascend-cann-toolkit_6.3.RC1_linux-x86_64.run --install --install-for-all
安装完成后,若显示如下信息,则说明软件安装成功:
[INFO] xxx install success
xxx表示安装的实际软件包名。
安装PyTorch
CANN软件包安装完成后,就可以进行PyTorch的安装了。开发者可以选择PyTorch 1.8.1或PyTorch 1.11.0版本,PyTorch安装成功后再安装APEX混合精度模块。在安装Pytorch前,需要先安装以下依赖。
pip3 install wheel
pip3 install typing_extensions
安装PyTorch 1.8.1
1)安装官方torch包。
x86_64架构
wget https://download.pytorch.org/whl/cpu/torch-1.8.1%2Bcpu-cp37-cp37m-linux_x86_64.whl pip3 install torch-1.8.1+cpu-cp37-cp37m-linux_x86_64.whl
aarch64架构
wget https://repo.huaweicloud.com/kunpeng/archive/Ascend/PyTorch/torch-1.8.1-cp37-cp37m-linux_aarch64.whl pip3 install torch-1.8.1-cp37-cp37m-linux_aarch64.whl
2)安装昇腾提供的PyTorch适配插件torch_npu。
x86_64架构
wget https://gitee.com/ascend/pytorch/releases/download/v5.0.rc1-pytorch1.8.1/torch_npu-1.8.1.post1-cp37-cp37m-linux_ x86_64.whl pip3 install torch_npu-1.8.1.post1-cp37-cp37m-linux_ x86_64.whl
aarch64架构
wget https://gitee.com/ascend/pytorch/releases/download/v5.0.rc1-pytorch1.8.1/torch_npu-1.8.1.post1-cp37-cp37m-linux_aarch64.whl pip3 install torch_npu-1.8.1.post1-cp37-cp37m-linux_aarch64.whl
此处以5.0.rc1版本为例,实际请选择CANN配套的PyTorch插件版本进行安装。
3)安装对应框架版本的torchvision。
pip3 install torchvision==0.9.1
4)验证是否安装成功。
python -c "import torch;import torch_npu; a = torch.ones(3, 4).npu(); print(a + a);"
如果输出包含如下关键信息则说明PyTorch安装成功。
[[2., 2., 2., 2.], [2., 2., 2., 2.], [2., 2., 2., 2.]]
安装PyTorch 1.11.0
1)安装官方torch包。
x86_64架构
wget https://download.pytorch.org/whl/cpu/torch-1.11.0%2Bcpu-cp37-cp37m-linux_x86_64.whl pip3 install torch-1.11.0+cpu-cp37-cp37m-linux_x86_64.whl
aarch64架构
wget https://repo.huaweicloud.com/kunpeng/archive/Ascend/PyTorch/torch-1.11.0-cp37-cp37m-linux_aarch64.whl pip3 install torch-1.11.0-cp37-cp37m-linux_aarch64.whl
2)安装昇腾提供的PyTorch适配插件torch_npu。
x86_64架构
wget https://gitee.com/ascend/pytorch/releases/download/v5.0.rc1-pytorch1.11.0/torch_npu-1.11.0-cp37-cp37m-linux_ x86_64.whl pip3 install torch_npu-1.11.0-cp37-cp37m-linux_ x86_64.whl
aarch64架构
wget https://gitee.com/ascend/pytorch/releases/download/v5.0.rc1-pytorch1.11.0/torch_npu-1.11.0-cp37-cp37m-linux_aarch64.whl pip3 install torch_npu-1.11.0-cp37-cp37m-linux_aarch64.whl
3)安装对应框架版本的torchvision。
pip3 install torchvision==0.12.0
4)验证PyTorch是否安装成功。
python -c "import torch;import torch_npu; a = torch.ones(3, 4).npu(); print(a + a);"
如果输出包含如下关键信息则说明PyTorch安装成功。
[[2., 2., 2., 2.], [2., 2., 2., 2.], [2., 2., 2., 2.]]
安装APEX混合精度模块
APEX混合精度模块是一个集优化性能、精度收敛于一身的综合优化库,可以提供不同场景下的混合精度训练支持。
1. 获取昇腾适配的APEX源码以及原生APEX代码。
# 获取昇腾适配的APEX源码 git clone -b master https://gitee.com/ascend/apex.git # 在apex目录下获取原生APEX代码 cd apex git clone https://github.com/NVIDIA/apex.git
2. 切换到原生APEX代码对应分支。
cd apex
git checkout 4ef930c1c884fdca5f472ab2ce7cb9b505d26c1a
cd ..
3. 在昇腾适配APEX源码目录的scripts路径下生成昇腾适配全量代码。
cd scripts
bash gen.sh
4. 编译生成昇腾适配的APEX二进制安装包。
cd ../apex
python3 setup.py --cpp_ext --npu_float_status bdist_wheel
5. 安装APEX。
86_64架构
cd dist pip3 install apex-0.1_ascend-cp37-cp37m-linux_ x86_64.whl
aarch64架构
cd dist pip3 install apex-0.1_ascend-cp37-cp37m-linux_aarch64.whl
到此,PyTorch训练环境就搭建完毕了,开发者可以将PyTorch网络脚本迁移到昇腾平台执行训练,使用昇腾平台的强大算力。
关于更多文档介绍,可以在昇腾文档中心[1]查看,您也可在“昇腾社区在线课程[2]”板块学习视频课程,学习过程中的任何疑问,都可以在“昇腾论坛[3]”互动交流!
相关参考
[1]昇腾文档中心
[2]昇腾社区在线课程
[3]昇腾论坛
手把手教你在FPGA上搭建一个Cortex-M3软核
关注+星标公众号,不错过精彩内容
转自 | 电子电路开发学习
本文将手把手教你如何基于ARM DesignStart计划,在FPGA上搭建一个Cortex-M3软核处理器。
以Xilinx Artix-7™系列FPGA为例,介绍如何定制一颗ARM Cortex-M3 SoC软核,并添加GPIO和UART外设,使用Keil MDK环境开发应用程序,Jlink下载、调试ARM程序,最终的实现效果是LED闪烁,串口输出Hello World信息。
都有哪些内容?
必要的基础知识
Cortex-M3 FPGA IP核下载
硬件准备
软件准备
Cortex-M3软核搭建
-
-
新建Vivado工程
添加IP核搜索路径
创建BlockDesign设计
添加IP核,GPIO和UART外设
SWD接口引出
外设基地址分配
管脚分配
Bit流文件生成下载
-
Cortex-M3软核程序设计
-
-
新建Keil工程
GPIO输入输出控制实现
串口数据发送和接收实现
延时函数实现
Flash编程算法生成
下载运行
-
开源地址
参考资料
1.必要的基础知识
为了更快的完成在FPGA上实现ARM Cortex-M3软核,一些必要的基础知识还是要有的!
FPGA开发基础知识,如FPGA开发流程,设计、综合、布局、布线、约束、下载
Xilinx Vivado开发环境使用基础,如BlockDesign设计方式,管脚分配,Bit流文件生成与下载
ARM Cortex-M3内核的使用基础,如STM32、MM32、GD32、CH32等微控制器的开发。
Keil-MDK开发环境的使用基础,基本的工程建立、编译、下载流程。
如果以上知识都具备,那么,恭喜你!可以在2小时内完成ARM Cortex-M3软核在FPGA上的实现。
2.Cortex-M3 FPGA IP核下载
首先,我们需要从ARM官网上获取ARM Cortex-M3 FPGA软核IP包。
下载地址如下:
https://silver.arm.com/browse/AT426
文件名称:Cortex-M3 DesignStart FPGA-Xilinx edition(r0p1-00rel0)
文件大小:7.52MB
MD5SUM:cd67536c29023429cde47130d51b6f49
官网下载需要先注册账号,如果下载速度很慢,可以在公众号后台回复:220318,获取下载链接,复制到浏览器下载。
压缩包解压之后,共有4个文件夹:
各个文件夹存放的内容:
docs
存放ARM Cortex-M3处理器参考手册、DesignStart FPGA版本使用说明、基于Arty-A7开发板的顶层BlockDesign框图等文件。
hardware
存放基于Digilent Arty-A7开发板的Vivado工程,顶层BlockDesign文件,管脚约束文件,Testbench文件等。
software
存放Keil-MDK工程,SPI Flash的编程算法文件等。
vivado
包括DesignStart Cortex-M3 Xilinx FPGA版本的IP核文件,其中Arm_ipi_repository文件夹就是内核源文件了,IP文件内容已经加密,没有可读性。
3.硬件准备
为了完成DS CM3在FPGA上的搭建,我们至少需要以下硬件:
一块Artix-7™开发板,用于构建Cortex-M3软核SoC,我使用的是正点原子达芬奇Pro开发板,FPGA型号为XC7A100T。
Xilinx FPGA下载器,用于下载软核Bit流到FPGA,如Platform Usb Cable,JTAG-HS2/HS3等。
ARM Cortex-M3调试器,用于调试ARM核程序下载和调试,如JlinkV9,Jlink-OB等。
官方的DS CM3 IP核是基于Digilent的Arty-A7开发板,FPGA型号为XC7A35T/100T,Vivado版本为v2019.1,如果你手头正好有这块开发板,那么可以直接使用官方提供的示例工程。
Digilent Arty-A7开发板:
arty-a7开发板正点原子达芬奇Pro开发板:
4.软件准备
Xilinx Vivado开发环境,官方建议版本为2018.2以上,我使用的是2018.3版本
Keil MDK开发环境,如5.33版本
DS_CM3的Keil器件包
从Keil官网上下载DesignStart Cortex-M3所专用的器件支持包,下载链接如下:
https://keilpack.azureedge.net/pack/Keil.V2M-MPS2_DSx_BSP.1.1.0.pack
5.Cortex-M3软核搭建
准备好以上软硬件,就可以开始Cortex-M3软核的搭建了。
首先,新建一个文件夹,命名为cortex_m3_on_xc7a100t,用于存放本次示例所有的工程文件,并新建以下几个文件夹:
每个文件夹的功能:
bd文件夹
用来存放BlockDesign设计
cm3_core文件夹
用来存放的是ARM Cortex-M3内核IP核文件,
doc文件夹
用来存放设计文档
flash文件夹
用来存放生成的bit和mcs文件
rtl文件夹
用来存放用户设计的verilog源文件
xdc文件夹
用来存放管脚、时序约束文件
其中cm3_core文件夹,需要将官方压缩文件文件中的Arm_ipi_repository文件夹复制过来,路径为AT426-BU-98000-r0p1-00rel0\\vivado\\Arm_ipi_repository
以上文件夹准备好之后,就可以开始新建工程了。
5.1 新建Vivado工程
打开Vivado 2018.3,打开工程创建向导,输入工程名称,工程的存放路径为之前我们新建的文件夹。
选择FPGA芯片的完整型号:XC7A100TFGG484。
最终创建完成之后的工程目录
5.2 添加IP核搜索路径
为了能在BlockDesign中搜索到ARM Cortex-M3处理器IP核,我们需要把ARM 软核IP所在的路径添加到搜索路径。
5.3 创建BlockDesign设计
为了方便后续使用图形化的方式连接各IP核,我们采用BlockDesign图形化的设计方式,这样可以快速的搭建出一颗定制化的软核处理器。
新建BlockDesign,命名为cm3_core,保存到最初创建的bd文件夹中。
在画布中添加Cortex-M3处理器核:
双击Cortex-M3 IP核进行一些基本配置,我们不需要Trace功能,选择No Trace,使用SWD接口调试,禁用JTAG端口:
指令空间和数据空间大小,这里设置成64KB,都不进行初始化。
5.4 添加一些必要的IP核
时钟PLL
用于提供给内核、总线、外设时钟,这里我们配置成50MHz单端输入,PLL输出配置成50MHz,如果时钟频率设置更高,综合后会提示WNS,TNS时序不满足,可能会影响系统的正常运行。
处理器复位IP
用于提供内核、外设、互联组件所需要的复位信号,不需要进行定制,保持默认设置。
总线互联IP
Cortex-M3内核为AHB总线,而且内部已经转换成了AXI3总线,而Xilinx官方提供的GPIO/UART等外设IP核是AXI4-Lite总线,所以需要添加一个总线互联矩阵,用于将不同协议进行转换,从机数量配置为1,主机数量配置为2,连接到处理器的SYS总线。
基本逻辑门IP
Cortex-M3内核需要低电平复位,而复位IP输出为高电平复位,需要在中间插入一个非门来进行转换。
常量IP
本次软核搭建不涉及中断部分,所以IRQ和NMI都给定常量0即可,如果需要将中断接入处理器,可以通过Concat核将多个中断源合并成一个连接到IRQ。
将以上IP添加到BlockDesign画布中,并按照下图进行连接:
从官方手册中可以知道,ARM提供的软核IP中已经包括了ITCM和DTCM存储器,所以我们无需添加外部的BRAM来作为程序和数据的存储区。
内核中提供ITCM和DTCM都是基于RAM实现,这也就意味着后续我们使用Keil下载程序只是下载到RAM中,掉电数据会丢失。
至此,ARM Cortex-M3处理器内核就搭建完成了,下面来添加GPIO和UART外设。
5.5 添加GPIO和UART外设
一些常用的单片机,如STM32,芯片内部的TIM、UART、SPI、CAN等外设一般是固定数量的,而我们使用FPGA来搭建ARM软核SoC就比较灵活了,如果你不需要SPI,那就不用添加SPI外设,需要10个UART就添加10个UART,外设配置比较灵活,当然这些外设都是基于FPGA逻辑资源实现的,实际添加的数量会受限于FPGA芯片的逻辑资源大小。
下面以添加一组AXI GPIO和一组AXI UART为例,介绍如何使用ARM软核来控制这两个外设。
Xilinx官方提供的AXI GPIO外设具有以下特性:
内部有两个通道,通道1和通道2,每个通道最多支持32个管脚
每个管脚可以配置成输入或输出模式
每个管脚可以设置复位初值
支持中断输出
提供的AXI UART外设有以下特性:
全双工
支持5-8位数据位
支持奇偶校验
可配置波特率110-230400
这里我们将GPIO配置成双通道,通道1为输出模式,低4位用于连接LED,通道2为输入模式,低4位用于连接按键。
UART配置成115200波特率,8位数据位,无奇偶校验。
配置完成之后,将它们连接的到互联IP的主机接口上:
这两组IP的时钟可以和处理器使用同样的时钟,复位可以使用复位IP输出的外设复位信号。
关于AXI GPIO和AXI UART的详细使用,可以查看官方文档:
pg144-axi-gpio.pdf
https://www.xilinx.com/support/documentation/ip_documentation/axi_gpio/v2_0/pg144-axi-gpio.pdf
pg142-axi-uartlite.pdf
https://www.xilinx.com/support/documentation/ip_documentation/axi_uartlite/v2_0/pg142-axi-uartlite.pdf
5.6 SWD接口的引出
官方的DesignStart IP核资料中,除了Cortex-M3处理器,还有一个DAP-Link调试核,如果使用DAP-Link调试器需要添加这个IP核。
这里我们不使用DAP-Link调试器,而是使用Jlink SWD模式。SWD模式一共需要两根线,一个是SWCLK时钟信号,一个是SWDIO双向数据信号,处理器提供了3个管脚:SWDI,SWDO和SWDOEN,我们还需要实现一个双向端口模块。
基于IOBUF原语实现的双向端口模块,内容如下:
module swdio_tri_buffer(
//Inputs
input swd_o,
input swd_oe,
//Outputs
output swd_i,
//Inouts
inout swd_io
);
IOBUF swd_iobuf_inst(
.O(swd_i),
.I(swd_o),
.IO(swd_io),
.T(!swd_oe)
);
endmodule
将它添加到我们的设计中。
最终的BlockDesign设计如下图所示:
5.7 分配外设基地址
添加完外设IP之后,我们还需要对外设进行基地址和空间分配,在地址编辑框,右键选择自动分配。
分配完成之后,使用设计验证(Validate Design)功能,可以检查当前BlockDesign设计连接的合法性。
5.8 生成Wrapper并例化到顶层
为了方便后续添加自定义的FPGA逻辑模块,我们将Cortex-M3软核处理器作为一个处理器例化到顶层设计中。
在BlockDesign源文件上右键,先选择Generate Output Products
,耐心等待生成完成之后,选择Create HDL Wrapper
。
之后就会生成一个_wrapper的verilog文件。
新建顶层文件top_hdl.v并保存到rtl文件夹,将_wrapper例化到顶层。
module top_hdl(
//Inputs
input clk,
input rst_n,
input swclk,
input uart_rxd,
input [3:0] sw,
//Outputs
output [3:0] led,
output uart_txd,
//Inouts
inout swdio
);
cm3_core_wrapper cm3_core_wrapper_ut0(
//Inputs
.cm3_clk(clk),
.cm3_resetn(rst_n),
.cm3_gpio_in_tri_i(sw[3:0]),
.cm3_swclk(swclk),
.cm3_uart_rxd(uart_rxd),
//Outputs
.cm3_gpio_out_tri_o(led[3:0]),
.cm3_uart_txd(uart_txd),
//Inouts
.cm3_swdio(swdio)
);
endmodule //top_hdl end
5.9 管脚分配
综合(Synthesis)完成之后,使用Vivado的图形化工具进行管脚分配,尤其注意要将SWDIO和SWDCLK引出到排针管脚上,方便后续使用外接的Jlink调试器进行ARM程序下载。
或者直接新建XDC文件,使用约束语句进行管脚分配。
部分约束语句:
set_property PACKAGE_PIN R4 [get_ports clk]
set_property PACKAGE_PIN V13 [get_ports swclk]
set_property PACKAGE_PIN V14 [get_ports swdio]
set_property PACKAGE_PIN E14 [get_ports uart_rxd]
set_property PACKAGE_PIN D17 [get_ports uart_txd]
set_property PACKAGE_PIN U7 [get_ports rst_n]
set_property PACKAGE_PIN V9 [get_ports led[3]]
set_property PACKAGE_PIN Y8 [get_ports led[2]]
set_property PACKAGE_PIN Y7 [get_ports led[1]]
set_property PACKAGE_PIN W7 [get_ports led[0]]
set_property PACKAGE_PIN T4 [get_ports key[3]]
set_property PACKAGE_PIN T3 [get_ports key[2]]
set_property PACKAGE_PIN R6 [get_ports key[1]]
set_property PACKAGE_PIN T6 [get_ports key[0]]
如果你的板子和我的(正点原子达芬奇Pro)一样,那么可以直接使用以上管脚约束。
如果你分配的时钟管脚不是FPGA的全局时钟管脚,需要添加BUFG原语进行缓冲。
5.10 Bit流文件生成和下载
我的板子使用的是QSPI Flash,为了提高下载和启动速度,在生成Bit流时,配置生成选项:数据压缩、50M读取速度,4位数据线。
或者直接使用XDC语句进行约束:
set_property BITSTREAM.GENERAL.COMPRESS TRUE [current_design]
set_property BITSTREAM.CONFIG.CONFIGRATE 50 [current_design]
set_property CONFIG_VOLTAGE 3.3 [current_design]
set_property CFGBVS VCCO [current_design]
set_property BITSTREAM.CONFIG.SPI_BUSWIDTH 4 [current_design]
以上约束不是必须的,只是为了提高下载和配置速度。
耐心等待工程综合完成,生成Bit流文件,综合的速度和处理器主频、核心数有关。
和常规的FPGA下载方式一样,将生成的软核Bit文件通过Xilinx下载器下载到FPGA内部,先不要固化到外部SPI Flash 。
手头没有Xilinx下载器的,可以参考之前的文章,自己做一个JTAG-HS2下载器!
5.11 Jlink连接测试
下载完成之后,现在FPGA内部运行的就是一颗基于ARM Cortex-M3的软核处理器了,使用Jlink等调试工具可以连接到芯片。
将Jlink调试器的SWCLK和SWDIO连接到我们分配的管脚V13和V14上。
手头没有Jlink的,也可以参考之前的文章,自己做一个Jlink-OB!
使用Keil开发DesignStart Cortex-M3软核的程序,需要先安装一个DesignStart专用的器件包。
下载地址如下:
https://keilpack.azureedge.net/pack/Keil.V2M-MPS2_DSx_BSP.1.1.0.pack
打开一个STM32 Keil工程,器件修改为刚刚安装的ARM DS_CM3,在Option->Debug-Setting
界面中选择SWD方式,第一次连接会提示需要选择一个器件,这里选择Cortex-M3:
如果以上配置均正确,就能看到已经连接到的ARM Cortex-M3核心。如果没有,说明FPGA工程配置有错误,需要确认是否和以上配置流程一致。
至此,ARM Cortex-M3软核基本搭建完成,接下来我们使用Keil来编写ARM核的程序,实现GPIO和UART的控制。
6.Cortex-M3软核程序设计
和常规的ARM Cortex-M3内核单片机开发流程类似,使用Keil新建工程,源文件,根据外设使用手册,读写指定的寄存器实现GPIO的控制,UART数据写入,编译下载,调试。
在之前创建的cortex_m3_on_xc7a100t
文件夹下,新建mdk_prj文件夹,用于保存Keil-MDK的工程,并新建以下3个文件夹:
application //用户源文件
object //编译生成的文件
project //Keil的工程文件
6.1 新建Keil工程
打开Keil-MDK,选择Project->New Project
,新建一个工程,命名为ds_cm3_prj,保存到project目录下。
器件型号选择我们新安装的ARM Cortex-M3 DS_CM3内核。
组件管理界面中,添加CMSIS内核文件和Startup启动文件:
并按照如下结构组织文件:
6.2 设置RAM和ROM地址
在工程选项中设置片上ITCM的起始地址0x0、大小64K,片上DTCM起始地址0x20000000、大小64K:
起始地址来源于使用手册中图4-1系统内存地址映射,可以看到其中ITCM和DTCM的起始地址:
大小是我们在Cortex-M3内核配置中设置的大小:
设置完成之后,新建main.c文件,输入以下内容,编译工程,应该无错误输出。
#include "DS_CM3.h"
#include "system_DS_CM3.h"
int main(void)
while(1)
6.3 GPIO输入输出控制
通过查看AXI GPIO的使用手册,通道1的数据寄存器偏移地址为0,通道2的数据寄存器偏移地址为0x08,根据Vivado中的连接,LED连接到通道1,按键连接到通道2上,所以只需要对这两个寄存器地址进行读写,就可以实现LED的控制和拨码开关状态的读取。
在Vivado地址分配界面,可以看到GPIO和UART的基地址分别为:0x4000_0000和0x4060_0000。
LEL控制和拨码开关读取:
*(volatile uint32_t *) (0x40000000+0x0) = 0x0f; //GPIO通道1低4位写1
*(volatile uint32_t *) (0x40000000+0x0) = 0x00; //GPIO通道1低4位写0
uint32_t sw = 0;
sw = *(uint32_t *) (0x40000000+0x08); //获取GPIO通道2的32位输入状态
6.4 串口数据发送和接收
向串口发送FIFO写入一字节数据:
while((*(volatile uint32_t *)(0x40600000 + 0x08)) & 0x08 != 0x08); //等待发送FIFO不满
*(volatile uint32_t *) (0x40600000+0x04) = 0x41; //向串口发送FIFO写入字符'A'=0x41
从串口接收一字节数据:
uint8_t dat = 0;
if((*(volatile uint32_t *)(0x40600000 + 0x08)) & 0x01 == 1) //串口接收FIFO中有数据
dat = (*(volatile uint32_t *)(0x40600000 + 0x00)); //从接收FIFO中读取1字节数据。
关于AXI GPIO和AXI UART寄存器的详细说明,可以查看官方文档:
pg144-axi-gpio.pdf
https://www.xilinx.com/support/documentation/ip_documentation/axi_gpio/v2_0/pg144-axi-gpio.pdf
pg142-axi-uartlite.pdf
https://www.xilinx.com/support/documentation/ip_documentation/axi_uartlite/v2_0/pg142-axi-uartlite.pdf
6.5 延时函数实现
为了让LED的变化,可以被人眼所看到,需要使用延时函数对亮灭进行延时。
使用系统滴答定时器实现一个延时函数:
volatile uint32_t cnt = 0; //volatile类型
void SysTick_Handler(void)
cnt++;
void delay_ms(uint32_t t)
cnt = 0;
while(cnt-t>0);
为了让延时函数准确延时,我们还需要更改工程中的系统时钟频率,和FPGA中配置的内核时钟保持一致。
完成的main.c文件内容:
#include "DS_CM3.h"
#include "system_DS_CM3.h"
//C库
#include <stdarg.h>
#include <string.h>
#include <stdio.h>
#define BASEADDR_LED 0x40000000
#define BASEADDR_UART 0x40600000
#define CHANNEL_LED 1
#define CHANNEL_SW 2
#define XGPIO_CHAN_OFFSET 8
#define XGpio_WriteReg(BaseAddress, RegOffset, Data) Xil_Out32((BaseAddress) + (RegOffset), (uint32_t)(Data))
#define XGpio_ReadReg(BaseAddress, RegOffset) XGpio_In32((BaseAddress) + (RegOffset))
#define XUL_TX_FIFO_OFFSET 4 /* transmit FIFO, write only */
#define XUL_STATUS_REG_OFFSET 8 /* status register, read only */
#define XUL_SR_TX_FIFO_FULL 0x08 /* transmit FIFO full */
#define XUartLite_GetStatusReg(BaseAddress) XUartLite_ReadReg((BaseAddress), XUL_STATUS_REG_OFFSET)
#define XUartLite_ReadReg(BaseAddress, RegOffset) XGpio_In32((BaseAddress) + (RegOffset))
#define XUartLite_IsTransmitFull(BaseAddress) \\
((XUartLite_GetStatusReg((BaseAddress)) & XUL_SR_TX_FIFO_FULL) == \\
XUL_SR_TX_FIFO_FULL)
#define XUartLite_WriteReg(BaseAddress, RegOffset, Data) Xil_Out32((BaseAddress) + (RegOffset), (uint32_t)(Data))
volatile uint32_t cnt = 0;
void SysTick_Handler(void)
cnt++;
void delay_ms(uint32_t t)
cnt = 0;
while(cnt-t>0);
uint32_t XGpio_In32(uint32_t Addr)
return *(volatile uint32_t *) Addr;
void Xil_Out32(uint32_t Addr, uint32_t Value)
volatile uint32_t *LocalAddr = (volatile uint32_t *)Addr;
*LocalAddr = Value;
uint32_t XGpio_DiscreteRead(uint32_t Addr, uint8_t Channel)
return XGpio_ReadReg(Addr, (Channel-1)*XGPIO_CHAN_OFFSET);
void XGpio_DiscreteWrite(uint32_t Addr, uint8_t Channel, uint32_t Data)
XGpio_WriteReg(Addr, (Channel-1)*XGPIO_CHAN_OFFSET, Data);
void XUartLite_SendByte(uint32_t BaseAddress, uint8_t Data)
while (XUartLite_IsTransmitFull(BaseAddress));
XUartLite_WriteReg(BaseAddress, XUL_TX_FIFO_OFFSET, Data);
void cm3_print(const char *ptr)
while (*ptr != (char)0)
XUartLite_SendByte(BASEADDR_UART, *ptr);
ptr++;
void MyUartPrintf(char *fmt,...)
unsigned char UsartPrintfBuf[296];
va_list ap;
unsigned char *pStr = UsartPrintfBuf;
va_start(ap, fmt);
vsnprintf((char *)UsartPrintfBuf, sizeof(UsartPrintfBuf), (const char *)fmt, ap);
va_end(ap);
while(*pStr != 0)
XUartLite_SendByte(BASEADDR_UART, *pStr);
pStr++;
void led_blink(void)
XGpio_DiscreteWrite(BASEADDR_LED, CHANNEL_LED, 0);
delay_ms(500);
XGpio_DiscreteWrite(BASEADDR_LED, CHANNEL_LED, 0xf);
delay_ms(500);
int main(void)
uint32_t sw = 0;
SystemCoreClockUpdate();
SysTick_Config(SystemCoreClock/1000);
cm3_print("Hello DesignStart ARM Cortex-M3 on FPGA Xilnx Artix-7 XC7A100T \\r\\n");
MyUartPrintf("SystemCoreClock = %ld\\r\\n", SystemCoreClock);
while(1)
led_blink();
sw = XGpio_DiscreteRead(BASEADDR_LED, CHANNEL_SW);
MyUartPrintf("key state = %d-%d-%d-%d\\r\\n", sw>>3, sw>>2&1, sw>>1&1, sw&1);
实现的功能是,4颗LED每100ms闪烁一次,同时串口输出此时拨码开关的实时状态。
编译无误后,就可以进行程序下载了。
6.6 Flash编程算法生成
使用Jlink下载程序需要指定Flash编程算法,但是Keil自带的算法中并没有我们所需要的:
所以我们需要定制一份Flash编程算法,打开Keil安装目录下的\\ARM\\Flash
文件夹,将_Template
文件夹复制出一份,并命名为DS_CM3,
打开其中的Keil工程:
这个工程可以自己设置要编程的Flash起始地址、大小,擦除大小等。
FlashDev.c文件填入以下内容,和我们之前ITCM的配置保持一致,起始地址0x0,大小64K:
#include "..\\FlashOS.H" // FlashOS Structures
struct FlashDevice const FlashDevice =
FLASH_DRV_VERS, // Driver Version, do not modify!
"MyCM3onFPGA", // Device Name
ONCHIP, // Device Type
0x00000000, // Device Start Address
0x00010000, // 修改为64KB
1024, // Programming Page Size
0, // Reserved, must be 0
0xFF, // Initial Content of Erased Memory
100, // Program Page Timeout 100 mSec
3000, // Erase Sector Timeout 3000 mSec
// Specify Size and Address of Sectors
0x010000, 0x000000, // 只有一个扇区,起始地址为0
SECTOR_END
;
FlashPrg.c文件,实现一些存储区擦除的函数:
#include "..\\FlashOS.H" // FlashOS Structures
#include "string.h"
int Init (unsigned long adr, unsigned long clk, unsigned long fnc)
return (0); // Finished without Errors
int UnInit (unsigned long fnc)
return (0); // Finished without Errors
int EraseChip (void)
memset((unsigned char *)0, 0, 0x10000);
return (0); // Finished without Errors
int EraseSector (unsigned long adr)
memset((unsigned char *)adr, 0, 1024);
return (0); // Finished without Errors
int ProgramPage (unsigned long adr, unsigned long sz, unsigned char *buf)
memcpy((unsigned char *)adr, buf, sz);
return (0); // Finished without Errors
编译无误后,会在工程目录下生成一个FLM文件。
将它复制到上一级目录:
6.7 编译下载运行
再打开我们的ARM核Keil工程,添加DS_CM3 Flash编程算法:
点击下载按钮,把ARM程序下载到ARM核:
可以看到LED每500ms闪烁一次,串口数据每1s输出一次,同时按下按键,串口输出按键的状态。
和其他ARM内核芯片一样,也是支持在线调试的:
由于ARM程序是下载到Cortex-M3软核内的RAM存储区,所以掉电后程序会丢失。如何将程序下载到片外的SPI Flash中,我还没有成功实现。
7.开源地址
本篇文章的pdf文件,Vivado工程,Keil工程,Keil器件支持 包,Flash编程算法文件,外设IP的参考文档,ARM M3软核IP资料包等资料我已经开源到Github和Gitee,地址如下:
Gitee
git clone https://gitee.com/whik/cortex_m3_on_xc7a100t.git
Github
git clone https://github.com/whik/cortex_m3_on_xc7a100t.git
------------ END ------------
关注公众号回复“加群”按规则加入技术交流群,回复“1024”查看更多内容。
点击“阅读原文”查看更多分享。
以上是关于手把手教你在昇腾平台上搭建PyTorch训练环境的主要内容,如果未能解决你的问题,请参考以下文章
从零教你使用MindStudio进行Pytorch离线推理全流程