长期支持版本

    社区创新版本

      安装与部署

      本章介绍如何安装和部署GMEM。

      软硬件要求

      • 鲲鹏920处理器
      • 昇腾910芯片
      • 操作系统:openEuler 24.03

      环境准备

      • 使用和配置GMEM需要使用root权限。
      • GMEM的开关只能在系统层面开启或关闭。
      • 请管理员确保GMEM的配置安全、可用。

      安装GMEM

      • 文件准备

        CANN社区版历史版本-昇腾社区 (hiascend.com)

        固件与驱动-昇腾社区 (hiascend.com)

        来源软件包
        openEuler 24.03kernel-6.6.0-xxx.aarch64.rpm
        kernel-devel-6.6.0-xxx.aarch64.rpm
        libgmem-xxx.aarch64.rpm
        libgmem-devel-xxx.aarch64.rpm
        昇腾社区# CANN软件包
        Ascend-cann-toolkit-xxx-linux.aarch64.rpm
        # NPU固件与驱动
        Ascend-hdk-910-npu-driver-xxx.aarch64.rpm
        Ascend-hdk-910-npu-firmware-xxx.noarch.rpm
        联系GMEM社区维护人员
        @yang_yanchao email: yangyanchao6@huawei.com
        @LemmyHuang email: huangliming5@huawei.com
        gmem-example-xxx.aarch64.rpm
        mindspore-xxx-linux_aarch64.whl
      • 安装内核

        使用的openEuler内核版本,确认GMEM相关编译选项已打开(当前默认已经打开)。

        [root@localhost ~]# cat /boot/config-`uname -r` | grep CONFIG_GMEM
        CONFIG_GMEM=y
        CONFIG_GMEM_DEV=m
        
        [root@localhost ~]#  cat /boot/config-`uname -r` | grep CONFIG_REMOTE_PAGER
        CONFIG_REMOTE_PAGER=m
        CONFIG_REMOTE_PAGER_MASTER=m
        

        在启动项中添加gmem=on

        [root@localhost gmem]# cat /proc/cmdline
        BOOT_IMAGE=/vmlinuz-xxx root=/dev/mapper/openeuler-root ... gmem=on
        

        修改transparent_hugepage

        echo always > /sys/kernel/mm/transparent_hugepage/enabled 
        
      • 安装用户态动态库 libgmem。

        yum install libgmem libgmem-devel 
        
      • 安装CANN框架。

        安装版本配套的CANN,包括toolkit,driver以及firmware,根据指引完成安装后重启系统。

        rpm -ivh Ascend-cann-toolkit-xxx-linux.aarch64.rpm
        # 使用libgmem提供的工具安装npu-driver
        sh /usr/local/gmem/install_npu_driver.sh Ascend-hdk-910-npu-driver-xxx.aarch64.rpm
        rpm -ivh Ascend-hdk-910-npu-firmware-xxx.noarch.rpm
        

        通过Ascend目录下的环境配置脚本配置好环境变量。

        source /usr/local/Ascend/ascend-toolkit/set_env.sh
        

        查看NPU设备是否正常。

        [root@localhost ~]# npu-smi info
        +-------------------------------------------------------------------------------------------+
        | npu-smi 22.0.4.1                 Version: 22.0.4.1                                        |
        +----------------------+---------------+----------------------------------------------------+
        | NPU   Name           | Health        | Power(W)    Temp(C)           Hugepages-Usage(page)|
        | Chip                 | Bus-Id        | AICore(%)   Memory-Usage(MB)  HBM-Usage(MB)        |
        +======================+===============+====================================================+
        | 0     910B           | OK            | 79.4        82                0    / 0             |
        | 0                    | 0000:81:00.0  | 0           1979 / 15039      0    / 32768         |
        +======================+===============+====================================================+
        
      • 安装gmem-example软件包。

        gmem-example会更新host驱动、NPU侧驱动及NPU侧内核。安装完成后重启系统使驱动生效。

        rpm -ivh gmem-example-xxx.aarch64.rpm
        
      • 安装mindspore。

        获取正确的mindspore版本并安装,安装后可通过执行以下命令验证mindspore功能是否正常。

        python -c "import mindspore;mindspore.run_check()"
        MindSpore version:  x.x.x
        The result of multiplication calculation is correct, MindSpore has been installed on platform [Ascend] successfully!
        

      执行训练或推理任务

      基于mindspore的训练或推理任务,在完成以上安装流程后,可直接执行,不需要做任何适配。

      文档捉虫

      “有虫”文档片段

      问题描述

      提交类型 issue

      有点复杂...

      找人问问吧。

      PR

      小问题,全程线上修改...

      一键搞定!

      问题类型
      规范和低错类

      ● 错别字或拼写错误;标点符号使用错误;

      ● 链接错误、空单元格、格式错误;

      ● 英文中包含中文字符;

      ● 界面和描述不一致,但不影响操作;

      ● 表述不通顺,但不影响理解;

      ● 版本号不匹配:如软件包名称、界面版本号;

      易用性

      ● 关键步骤错误或缺失,无法指导用户完成任务;

      ● 缺少必要的前提条件、注意事项等;

      ● 图形、表格、文字等晦涩难懂;

      ● 逻辑不清晰,该分类、分项、分步骤的没有给出;

      正确性

      ● 技术原理、功能、规格等描述和软件不一致,存在错误;

      ● 原理图、架构图等存在错误;

      ● 命令、命令参数等错误;

      ● 代码片段错误;

      ● 命令无法完成对应功能;

      ● 界面错误,无法指导操作;

      风险提示

      ● 对重要数据或系统存在风险的操作,缺少安全提示;

      内容合规

      ● 违反法律法规,涉及政治、领土主权等敏感词;

      ● 内容侵权;

      您对文档的总体满意度

      非常不满意
      非常满意
      提交
      根据您的反馈,会自动生成issue模板。您只需点击按钮,创建issue即可。
      文档捉虫
      编组 3备份