Hi!请登陆

如何提高PyTorch“炼丹”速度?这位小哥总结了17种方法,可直接上手更改的那种

2021-1-15 45 1/15

如何提升 PyTorch" 炼丹 " 速度?

最近,有一位名叫 Lorenz Kuhn 的小哥,分享了他在炼丹过程中总结的17 种投入最低、效果最好的提升训练速度的方法,而且基本上都可以直接在 PyTorch 中进行更改,无需引入额外的库。

不过需要注意的是,这些方法都是假设是在 GPU 上训练模型。

这一分享在 Reddit 上得到了600的热度。

接下来,我们便从提速高低开始,依次对这些方法来做介绍。

1、选择合适的学习率时间表。

选择的学习率时间表对收敛速度以及模型的泛化性能有很大影响。

Leslie Smith 提出的周期性学习速率(CLR ) 以及 1cycle 策略可以令复杂模型的训练迅速完成。

比如在 cifar10 上训练 resnet-56 时,通过使用 1cycle,迭代次数可以减少 10 倍,得到与原论文相同的精度。

在最好的情况下,与传统的相比,这个时间表实现了大规模的提速。不过有一个缺点,它们引入了一些额外的超参数。

为什么这样做有效?一种可能的解释是,定期增加学习率有助于更快地穿越损失函数中的鞍点。

2、在 DataLoader 中使用多个工作程序并固定内存。

使用时 torch.utils.data.DataLoader,请设置 num_workers > 0,而不是默认值 0,和 pin_memory=True,而不是默认值 False。

英伟达高级工程师 Szymon Micacz 使用了 4 个工作程序和固定内存,在单个训练时期内将速度提高了两倍。

需要注意的是,在选择 worker 数量时,建议将设置为可用 GPU 数量的四倍。

worker 数量的多和少都会导致速度变慢,数量越多还会增加 CPU 内存消耗

3、批量最大化。

这一方法极具争议。但在通常情况下,使用 GPU 内存允许的最大批处理量可以加快训练速度。

如果要修改批量大小,还需要调整其他的超参数,比如,学习率。一般来说,将批量大小增加一倍,学习率也提高一倍。

此前有人进行了了一些不同批量大小的实验,通过将批量大小从 64 增加到 512 实现了 4 倍的加速。

4、使用自动混合精度(AMP)。

PyTorch 1.6 版本就包括了对 PyTorch 的自动混合精度训练的本地实现。

与其他地方使用的单精度(FP32)相比,某些操作可以在半精度(FP16)上运行得更快,并且不会损失准确性。

随后,让 AMP 自动决定应以什么样的格式执行操作,这样既可以加快训练速度,也可以减少内存占用。

有研究者发现,在 NVIDIA V100 GPU 上对一些常见的语言和视觉模型进行基准测试时,使用 AMP 要比常规的 FP32 训练的速度提升2 倍,最高可提升5.5 倍。

目前,只有 CUDA ops 可以通过这种方式进行自动广播。

5、使用不同的优化器

比如 AdamW,AdamW 是带有权重衰减(而不是 L2 正则化)的 Adam,它在错误实现、训练时间都胜过 Adam。

此外,还有一些非本地的优化器值得关注,比如,LARS 和 LAMB。

NVIDA 的 APEX 实现了一些常见优化器(比如 Adam)的融合版本,比如 Adam。与 Adam 的 PyTorch 实现相比,它避免了多次进出 GPU 内存的过程,产生了 5% 左右的速度提升。

6、打开 cudNN 基准测试。

如果你的模型架构保持固定,输入大小保持不变,则可以设置 torch.backends.cudnn.benchmark = True,启动 cudNN 自动调整器。

它将对 cudNN 中计算卷积的多种不同方法进行基准测试,以获得最佳的性能指标。

7、防止 CPU 和 GPU 之间频繁传输数据。

注意要经常使用 tensor.cpu ( ) 将 tensors 从 GPU 传输到 CPU,.item ( ) 和 .numpy ( ) 也是如此,使用 .detach ( ) 代替。

如果正在创建一个张量,就可以使用关键字参数 device=torch.device ( ‘ cuda:0 ’ ) 直接将其分配给你的 GPU。

如果到传输数据的情境下,可以使用 .to ( non_blocking=True ) ,只要你在传输后没有任何同步点。

8、使用梯度 / 激活检查点。

检查点的工作原理,是用计算换取内存。检查点部分不是讲整个计算图的所有中间激活都存储起来向后计算,而不是保存中间激活,在后传中重新计算。

它可以应用到模型的任何部分。

具体来说,在前向传递中,函数将以 torch.no_grad ( ) 的方式运行,即不存储中间的激活。相反,前向传递会保存输入元组和函数参数。

在后向传递中,检索保存的输入和函数,然后再次对函数进行前向传递计算,现在跟踪中间激活,使用这些激活值计算梯度。

虽然这可能会略微增加你在给定批量大小下的运行时间,但你会显著减少你的内存占用。这反过来又会让你进一步增加你所使用的批次大小,提高 GPU 的利用率。

9、使用梯度累积。

另一种增加批次大小的方法是在调用 optimizer.step ( ) 之前,在多个 .backward ( ) 通道中累积梯度。

这个方法主要是为了规避 GPU 内存限制而开发的,但不清楚是否有额外的 .backward ( ) 循环之间的权衡。

10、使用 DistributedDataParallel 进行多 GPU 训练。

加速分布式训练的方法可能需要单独写一篇文章,但一个简单的方法是使用 torch.nn.DistributedDataParallel 而不是 torch.nn.DataParallel。

这样做可以让每个 GPU 将由一个专门的 CPU 核驱动,避免了 DataParallel 的 GIL 问题。

11、将梯度设置为 None 而不是 0。

使用 .zero_grad ( set_to_none=True ) 而不是 .zero_grad ( ) 。

这样做会让内存分配器来处理梯度,而不是主动将它们设置为 0,这样会适度加速。

注意,这样做并不是没有副作用的。

12、使用 .as_tensor 而不是 .tensor ( )

torch.tensor ( ) 总是复制数据。如果你有一个要转换的 numpy 数组,使用 torch.as_tensor ( ) 或 torch.from_numpy ( ) 来避免复制数据。

13、如果不需要,请关闭调试 API。

Pytorch 提供了很多调试工具,例如 autograd.profiler,autograd.grad_check 和 autograd.anomaly_detection,确保在需要的时候使用它们,不需要时将其关闭,否则他们会拖慢你的训练速度。

14、使用梯度剪裁。

剪裁梯度,可以加速加速收敛。最初是用来避免 RNNs 中的梯度爆炸,可以使用 orch.nn.utils.clipgrad_norm 来实现。

目前尚不清楚哪些模型能靠梯度剪裁能够加速多少,但它似乎对 RNNs、基于 Transformer 和 ResNets 的架构以及一系列不同的优化器都非常有用。

15、在 BatchNorm 之前关闭偏置。

这是一个非常简单的方法,在 BatchNormalization 图层之前关闭图层的偏置。

对于二维卷积层,可以通过将 bias 关键字设置为 False:来完成 torch.nn.Conv2d ( … , bias=False, … )

16、在验证过程中关闭梯度计算。

在验证期间设置 torch.no_grad ( ) 。

17、使用输入和批次归一化。

额外提示,使用 JIT 来融合逐点操作。

如果你有相邻的逐点操作,可以使用 PyTorch JIT 将其合并成一个 FusionGroup,然后在单个内核上启动,这样可以节省一些内存读写。

不少网友在表达感谢的同时,还分享了自己训练时的小 Tips。

还有人提出了两点建议:

1、数据变换 ( 用于数据增强 ) 可成为速度提升的另一个来源。一些只使用简单 Python 语句的变换可以通过使用 numba 包来加速。

2、将数据集预处理成单个文件,对速度也有好处。

除了这些,你还有哪些可以提升训练速度的方法?欢迎与我们分享 ~

传送门:

https://efficientdl.com/faster-deep-learning-in-pytorch-a-guide/#1-consider-using-another-learning-rate-schedule

[D] Here are 17 ways of making PyTorch training faster – what did I miss?
byu/lorenzkuhn inMachineLearning

— 完 —

加入 AI 社群,拓展你的 AI 行业人脉

量子位「AI 社群」招募中!欢迎 AI 从业者、关注 AI 行业的小伙伴们扫码加入,与50000+ 名好友共同关注人工智能行业发展 & 技术进展:

量子位 QbitAI · 头条号签约作者

' ' 追踪 AI 技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关推荐