环球实时：多卡训练-华南电脑网

环球实时：多卡训练

2023-06-21 16:14:27来源：博客园

1、前言

近期做到的一些工作涉及到多卡训练，不得不感慨深度学习真的是一个烧钱的活，顺便记录一下，主要记录用法，不涉及实现原理。

2、单机多卡并行

官方DDP文档：

(相关资料图)

GETTING STARTED WITH DISTRIBUTED DATA PARALLEL

Github 仓库:

Github 中文文档

GETTING STARTED WITH DISTRIBUTED DATA PARALLEL

DataParallel

使用 nn.Dataarallel() 将模型变换一下，一行搞定

model = nn.DataParallel(model)

根据

为方便说明，我们假设模型输入为(32, input_dim)，这里的 32 表示batch_size，模型输出为(32, output_dim)，使用 4 个GPU训练。nn.DataParallel起到的作用是将这 32 个样本拆成 4 份，发送给 4 个GPU 分别做 forward，然后生成 4 个大小为(8, output_dim)的输出，然后再将这 4 个输出都收集到cuda:0上并合并成(32, output_dim)。可以看出，nn.DataParallel没有改变模型的输入输出，因此其他部分的代码不需要做任何更改，非常方便。但弊端是，后续的loss计算只会在cuda:0上进行，没法并行，因此会导致负载不均衡的问题。

针对负载不均衡问题，一个缓解的方法是将 loss 放入模型内部计算，即在 forward 的时候计算 loss。

DistributedDatarallel

分布式数据并行方法，通过多进程实现。

1、从一开始就会启动多个进程(进程数等于GPU数)，每个进程独享一个GPU，每个进程都会独立地执行代码。这意味着每个进程都独立地初始化模型、训练，当然，在每次迭代过程中会通过进程间通信共享梯度，整合梯度，然后独立地更新参数。2、每个进程都会初始化一份训练数据集，通过DistributedSampler函数实现，即同样的模型喂进去不同的数据做训练，也就是所谓的数据并行。3、进程通过local_rank变量来标识自己，local_rank为0的为master，其他是slave。这个变量是torch.distributed包帮我们创建的，使用方法如下：

import argparse  parser = argparse.ArgumentParser()parser.add_argument("--local_rank", type=int, default=-1)args = parser.parse_args()

运行代码

python -m torch.distributed.launch --nproc_per_node=4 --nnodes=1 train.py

其中，nnodes 表示节点数量，单机，即为1，nproc_per_node 为每个节点的进程数量，与 GPU 数量一致。

模型保存与加载TODO

3、遇到的问题

1、DistributedDataarallel 方法，有时候会出现进程卡死的问题，现象上即为显卡的利用率卡在 100%，未启动进程组，根据tjds排查是IO 虚拟化（也称为 VT-d 或 IOMMU）启用了ACS导致，具体原因参考故障排除——NCCL2.16.2 文档。

方法一：排查原因是BIOS里IO虚拟化（VT-d）默认启动了PCI访问控制服务（ACS）导致GPU间无法直接通过P2P方式通信，需在BIOS关闭此功能，具体操作参考 tjds

1、查看ACS是否开启执行 lspci -vvv | grep -I acsctl 如果有显示SrcValid+说明已启用ACS功能2、添加iommu=pt参数到grub（此步骤应该可以跳过）编辑/etc/default/grub文件添加iommu=pt，再执行update-grub更新grub文件3、关闭BIOS里ACS功能重启操作系统开机时按 del 进入 BIOS 关闭 ACS 功能，不关 VT-d 只关闭 ACS 功能，具体路径：Path: Advanced -> Chipset Configuration -> North Bridge -> IIO Configuration -> Intel VT for Directed I/O (VT-d) -> ACS Control -> Enable / Disable.4、检查ACS是否关闭执行lspci -vvv | grep -I acsctl 如果全显示SrcValid-说明已关闭ACS功能

方法二：仍然使用 ‘nccl‘ 后端，禁用 GPU 的 P2P 通信。

torch.distributed.init_process_group(backend="ncll")

NCCL_P2P_DISABLE=1 CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.launch --nproc_per_node=4 train.py

嫌麻烦可以写入 bashrc 环境变量。

方法三：更换后端为 ‘gloo’ , shell命令运行程序，纵享丝滑。

torch.distributed.init_process_group(backend="gloo")

CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.launch --nproc_per_node=4 train.py

缺点就是 gloo 的通信在我用的时候要比 nccl 慢很多。

2、如果训练过程中使用了 Sampler 进行数据分发， dataloader 的 shuffle 不能设置为 True。

3、dataloader 设置 batch_size 时，注意尽量保证每次循环每张卡至少可以分到一个 sample，不然有时候会因某张卡等待输入卡死。

4、我在训练时，dataloader的 num_works 通过 CPU 帮助 GPU 加载数据能够提升 GPU 利用率，倒是没遇到报错。

5、dataloader 的 pin_memory (锁页内存) 按道理是可以锁住一部分内存，减少 CPU 内存拷贝的，但是我用的时候会极大降低 GPU 利用率，此处存疑。

待更新ing

关键词：

环球实时：多卡训练

2023-06-21 16:14:27

北京7宗地块揽金189亿元京投发展一日摘得3宗地世界微资讯

央广网北京6月20日消息（记者门庭婷）近期，北京土地市场进入快节奏。

2023-06-21

去除松油的方法_去除松油的方法如下

解答：1、使用汽油。汽油可以溶解松节油，松节油是一种天然的有机化合

2023-06-21

焦俊艳承认恋情高以翔（焦俊艳跟高以翔分手）

来为大家解答以下的问题，俊艳承认恋情高以翔，焦俊艳跟高以翔分手这个

2023-06-21

工程申请验收单表格_工程验收申请表格式-天天关注

1、一、项目建设依据简要说明项目建议书、可行性研究报告、初步设计等

2023-06-21

范慧娟_关于范慧娟的简介

音频解说1、范慧娟，女，上海市阳光社区青少年事务中心工作人员，首批

2023-06-21

推敲原文及翻译注音（推敲原文及翻译）

来为大家解答以上的问题。推敲原文及翻译注音，推敲原文及翻译这个很多

2023-06-21

官降3.69万！广汽新AION V售15.99万起动力大涨_全球热资讯

6月20日，广汽埃安2024款AION V Plus正式上市，售价区间为15 99万

2023-06-21

最新资讯：长沙鹅羊山社区：廉粽飘香迎端午清廉家风齐传承

新湖南客户端6月20日讯（通讯员黄佳）6月20日上午，长沙市开福区秀峰街

2023-06-21

上海立达学院继续教育学院怎么样？

上海立达学院继续教育学院致力于提供优质的教育资源和培养应用型人才的

2023-06-21

XD华熙生：6月20日融资买入1547.35万元，融资融券余额7.7亿元天天时讯

6月20日，XD华熙生（688363）融资买入1547 35万元，融资偿还1840 31万

2023-06-21

环球今亮点！富时A50期指连续夜盘收跌0.43%，报12667.000点

富时A50期指连续夜盘收跌0 43%，报12667 000点。本文到此结束，希望对

2023-06-21

谷歌浏览器怎么设置中文输入法_谷歌浏览器怎么设置中文全球球精选

精选内容1。打开谷歌Chrome2 单击I，点击右上角的展开按钮；3 单击设置

2023-06-21

每日观察!大摩：盈利衰退和流动性压力下，美股牛市恐难持续

来源：环球市场播报摩根士丹利警告称，当前美股的上涨势头正面临着一系

2023-06-21

全球新动态：隆基绿能：拟发行GDR募资不超过199.96亿元

隆基绿能公告，拟以境内新增A股股票为基础证券在境外发行全球存托凭证

2023-06-20

天天动态:Linux Mint 21.2“Victoria”Beta发布

IT之家6月20日消息，Beta版LinuxMint21 2“Victoria”于今天发布，用户

2023-06-20

环球热消息：太原：排查线路隐患确保中考期间可靠供电

太原：排查线路隐患确保中考期间可靠供电,保电,中考,恶劣天气

2023-06-20

黑旋风李逵绰号的由来_黑旋风李逵的主要事迹

1、关公斗李逵2 张顺浪中斗李逵3 黑旋风李逵劈宋公明4 李逵升堂判案5

2023-06-20

全球热消息：Peung Kanya_peung

大家好,小榜来为大家解答以上的问题。PeungKanya，peung这个很多人还不

2023-06-20

全球快报:国家励志奖学金是什么级别的荣誉_国家励志奖学金是什么级别

1、当然是国家的啦，和国家奖学金是同一级别的。2、只不过授予的对象有

2023-06-20

第25周钢坯市场. 情绪稳步回暖，利润快速扩大

周末国内钢材价格小幅走强，市场情绪继续稳步回暖，随着前期上下游对于

2023-06-20

新扬股份IPO前夕90后博士讲师突击高价入股，业绩“三连跳”毛利率连续下滑全球今头条

近日，江苏新扬新材料股份有限公司（以下简称“新扬股份”）披露了招股

2023-06-20

有关系购买入学名额？有人被骗25.5万元！警方紧急提醒

每年6月升学季，不少家长总是希望自己的孩子能读一个好点的学校，而这

2023-06-20

注册资金与实收资本一定相等吗_注册资金与实收资本的关系是什么_今日聚焦

1、注册资本与实收资本区别如下：一、首先，注册资本就是指在做工商登

2023-06-20

七彩化学：于海南投资设立新材料贸易公司_全球新消息

天眼查APP显示，近日，海南鲁宁新材料贸易有限公司成立，注册资本100万

2023-06-20

夫妻协议离婚房产分割应该怎样样处理

1、首先，必须是夫妻双方自愿签署，存在欺诈、胁迫情况的，协议无效；2

2023-06-20

笔记本

1多个国家拒绝共享天然气协议德国能源危机影响将再次扩大 21024用户共享10K超高清3D世界首款元宇宙服务器发布 3苹果iPhone SE3国行正式发售有什么亮点？ 4拼搏过，就没有遗憾！ | 画里有话 5为电动自行车拧紧“安全阀” 6哥斯达黎加总统新冠检测呈阳性 7南四湖专案300天，检察听证全网直播 8银牌中国雪上天团好样的 9“防疫版”冰墩墩是社区防控的有益尝试 10勇于挑战自我，终将收获更好的自己

环球实时：多卡训练

1、前言

2、单机多卡并行

3、遇到的问题

环球实时：多卡训练

北京7宗地块揽金189亿元 京投发展一日摘得3宗地 世界微资讯

去除松油的方法_去除松油的方法如下

焦俊艳承认恋情高以翔（焦俊艳跟高以翔分手）

工程申请验收单表格_工程验收申请表格式-天天关注

范慧娟_关于范慧娟的简介

推敲原文及翻译注音（推敲原文及翻译）

官降3.69万！广汽新AION V售15.99万起 动力大涨_全球热资讯

最新资讯：长沙鹅羊山社区：廉粽飘香迎端午 清廉家风齐传承

上海立达学院继续教育学院怎么样？

XD华熙生：6月20日融资买入1547.35万元，融资融券余额7.7亿元 天天时讯

环球今亮点！富时A50期指连续夜盘收跌0.43%，报12667.000点

谷歌浏览器怎么设置中文输入法_谷歌浏览器怎么设置中文 全球球精选

每日观察!大摩：盈利衰退和流动性压力下，美股牛市恐难持续

全球新动态：隆基绿能：拟发行GDR募资不超过199.96亿元

天天动态:Linux Mint 21.2“Victoria”Beta发布

环球热消息：太原：排查线路隐患 确保中考期间可靠供电

黑旋风李逵绰号的由来_黑旋风李逵的主要事迹

全球热消息：Peung Kanya_peung

全球快报:国家励志奖学金是什么级别的荣誉_国家励志奖学金是什么级别

第25周钢坯市场. 情绪稳步回暖，利润快速扩大

新扬股份IPO前夕90后博士讲师突击高价入股，业绩“三连跳”毛利率连续下滑 全球今头条

有关系购买入学名额？有人被骗25.5万元！警方紧急提醒

注册资金与实收资本一定相等吗_注册资金与实收资本的关系是什么_今日聚焦

七彩化学：于海南投资设立新材料贸易公司_全球新消息

夫妻协议离婚房产分割应该怎样样处理

笔记本

北京7宗地块揽金189亿元京投发展一日摘得3宗地世界微资讯

官降3.69万！广汽新AION V售15.99万起动力大涨_全球热资讯

最新资讯：长沙鹅羊山社区：廉粽飘香迎端午清廉家风齐传承

XD华熙生：6月20日融资买入1547.35万元，融资融券余额7.7亿元天天时讯

谷歌浏览器怎么设置中文输入法_谷歌浏览器怎么设置中文全球球精选

环球热消息：太原：排查线路隐患确保中考期间可靠供电

新扬股份IPO前夕90后博士讲师突击高价入股，业绩“三连跳”毛利率连续下滑全球今头条