分布式深度学习计算框架依赖环境——NCCL的安装

分布式深度学习计算框架依赖环境——NCCL的安装分布式深度学习计算框架(MindSpore,PyTorch)依赖环境——NCCL,NCCL提供多显卡之间直接进行数据交互的功能(可以跨主机进行)。注意:本文环境为Ubuntu18.04以mindspore1.2.1-gpu计算框架为示范NCCL的官方主页:https://develo

大家好,欢迎来到IT知识分享网。

分布式深度学习计算框架(MindSpore, PyTorch)依赖环境——NCCL, NCCL提供多显卡之间直接进行数据交互的功能(可以跨主机进行)。

 

 

注意:

本文环境为  Ubuntu18.04

 以mindspore1.2.1-gpu计算框架为示范

 

 

NCCL的官方主页:

https://developer.nvidia.com/nccl

 

 

 

NCCL的下载地址:

https://developer.nvidia.com/nccl/nccl-download

 (注意:下载需要进行会员注册,这里推荐使用微信或QQ登录)

 

 

 

====================================================

 

 

 

由于mindspore1.2.1-gpu 官方给出的版本要求:

确认安装NCCL 2.7.6-1版本(可选,单机多卡/多机多卡训练需要)

确认安装CUDA 10.1。

因此,我们需要安装nccl版本为:

Download NCCL 2.7.6, for CUDA 10.1, July 6,2020

 

 

分布式深度学习计算框架依赖环境——NCCL的安装

 

 

 

 

 

 

安装对应版本的nccl之前请注意:

参考nccl 安装官方手册:

https://docs.nvidia.com/deeplearning/nccl/install-guide/index.html#debian

 

分布式深度学习计算框架依赖环境——NCCL的安装

 

 

 

 

 

 

正确的  nccl   安装步骤:

1.  In the following commands, please replace<architecture>with your CPU architecture:x86_64,ppc64le, orsbsa, and replace<distro>with the Ubuntu version, for exampleubuntu1604,ubuntu1804, orubuntu2004.

根据刚才给出的软硬件平台, <architecture> 为 x86_64 , <distro> 为ubuntu1804 。

于是需执行命令:

sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/7fa2af80.pub

 

 

2.   安装刚才下载的  deb 文件:

sudo  dpkg  -i  nccl-repo-ubuntu1804-2.7.6-ga-cuda10.1_1-1_amd64

 

 

3.   更新 apt

sudo apt update

 

4.  Install thelibnccl2package with APT. Additionally, if you need to compile applications with NCCL, you can install thelibnccl-devpackage as well

安装  libnccl2 、  libnccl-dev

从刚才的官方nccl下载页面可以知道,对应的  libnccl2 、  libnccl-dev  版本。

分布式深度学习计算框架依赖环境——NCCL的安装

 

即:

sudo apt install libnccl2=2.7.6-1+cuda10.1 libnccl-dev=2.7.6-1+cuda10.1

 

 

 

 

安装结束。

 

 

 

 

 

配置环境变量:

 这里nccl都是安装在默认路径下,因此不需要再格外配置路径。

 

 

 

 

 

 

===============================================================

 

 

 

 

 

nccl  安装结束后可以使用  nccl-test  来测试是否安装成功,  具体的测试方法参看前文:

分布式深度学习计算框架依赖环境——NCCL的安装

 

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/28453.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信