ope体育手机端_opebet体育手机客户端
ope体育手机端

海参崴,业界 | 谷歌开源大规模神经网络模型高效练习库 GPipe,节哀

admin admin ⋅ 2019-03-29 15:51:03

AI 科技谈论按:谷歌昨日在博客中宣告开源大规划神经网络模型高效操练库 GPipe,这是一款散布式机器学习库,能够让研讨员在不调整超参数的状况下,布置更多的加快器以对大规划模型进行操练,有用扩展了模型功能。雷锋网 AI 科技谈论对此进行编译如下。

深度神经网络(DNNs)推动许多机器学习使命的前进,其间包含语音辨认、视觉辨认和言语处理等。BigGan、Bert 、GPT2.0 等最新作用标明,DNN 的模型越大,使命处理的体现就越好,而该定论也在曩昔的视觉辨认使命中得到了验证,标明模型巨细与分类准确性之间存在很强的关联性。举个比方,2014 年 ImageNet 视觉辨认挑战赛的冠军 GoogleNet 经过对 400 万参数进行调整,终究获得 74.8 % 的精确度作用;只是过了三年,2017 年 ImageNet 挑战赛冠军 Squeez捏奶e-and-Excitation Networks 调整的参数便高达 1.458 亿(36 倍以上),终究获得了 82.7% 的精确度作用。与此对应的是,市道的 GPU 内存只是进步了 痒孟楠3 倍左右,现在最先进的图画模型早已到达云 TPUv2 可罗献忠用内存的极限。因而,咱们迫切需求一种高效、可扩展的基础设施,以完成大规划的深度学习操练,并战胜当时的加快器内存受限问题。

海参崴,业界 | 谷歌开源大规划神经网络模型高效操练库 GPipe,节哀 蜀汉英雄传修改器

最具有代表性的图画分类模型体现出了 ImageNet 精确度成果与模型巨细的强关联性

在《GPipe: Efficient Training o袁璐婷f Giant Neural Networ海参崴,业界 | 谷歌开源大规划神经网络模型高效操练库 GPipe,节哀ks using Pipeline Parallelism》(https://arxiv.org/pdf/1811.06965.pdf)一文中,咱们展现了怎么经过流水并行技能(pipeline parallelism)对 DNN 的操练进行扩展以战胜这一约束。简略来说,GPipe 是一款散布式机器学习库,依据同步随机梯度下降与流水并行技能进行模型操练,适用于由多个接连层组成的恣意 DNN。最重要的是,GPipe 能够让研讨员在不调整超参数的状况下,布置更多的加快器以操练大规划模型,由此有用扩展了功能。为了证明 GPipe 的才能,咱们在 Google Cloud TPUv2s 上操练了一个具有 5.57 亿模型参数、 480 x 480 输入图画尺度的 AmoebaNet-B。该模型在多个盛行数据集上体现杰出,获得的作用包含:single-crop ImageNet田文君安静姐姐家长论坛 的精确度进步至 84.3%、 CIFAR-10 的精确度进步至 99%、CIFAR-100 的精确度进步至 91.3%。

中心 GPipe 库已在 Lingvo 框架下进正在预备再循环行开源:

https://github.com/tensorflow/lingvo/blob/master/lingvo/core/gpipe.py

从小批次至微批次

现在存在两种规范办法能够对中等规划的 DNN 模型进行加快。数据并行办法(The data parallelism)能够归入更多的机器,并将输入的数据区别开来。另一种办法则是将模型置于加快器上(比方 GPU 或 TPU)——这些加快器的特别硬件可加快模型的操练进程。但是加快器却面临着内存与主机通讯带宽两方面受限的问题。因而,经过将模型进行分区,并依据分区装备相应的加快器,模型并行技能能够让咱们在加快器上操练更大规划的 DNN 模型。因为 DNN 存在次序性,这种战略终究或许变成核算期间只要一个加快器处于活泼状况,未能将加快器的核算才能充分运用起来。此外,规范的数据并行技能只允许在多个加快器上一起操练具有不同输入数据的相同模型,却无法进步加快器所能支撑的最大模型规划。

为了完成跨加快器的高效操练,GPipe 先依照加快器对模型进行区分,然后主动将小批次的操练示例拆分为更小的微批次。经过在微批次中履行流水办理,加快器得以并行运转。此外,梯度将在微批次中继续累积,避免分区的数量影响到模型的质量。

上图:因为网络存在次序性,模型并行战略导致严峻的运用不充分问题。 每次都只要一个加快器处于活动状况。

下图:GPipe 将输入的小批次拆成更小的微批次,使不同的加快器能够一起在独自的微批次上运作。

内存和功率的最大化

GPipe 会对模型参数的内存分配进行最大化处理。咱们在每个 TPUv2 均配有 8 个加快器中心以及 64 GB 内存(每个加快器 8 GB)的云 TPUv2 上做了相关试验海参崴,业界 | 谷歌开源大规划神经网络模型高效操练库 GPipe,节哀。假如没有 GPipe,因为内存的约束,单个加快器顶多只能操练 8200 万个模型参数。而经过反向传达以及批量切割技能进行从头核算的 GPipe ,成功将中心激活内存从 6.26 GB 减至 3.46GB,由此完成单个加快器上操练 3.18 亿个参数的作用。此外,咱们还发现在流水并行技能的师傅不要全文免费阅览作用下,模型的最大规划与分区数量成正比,正如事前所意料的那样。总的来说,GPipe 使 AmoebaNet 能在云 TPUv2 的 8 个加快器上归入 18 亿个参数,比起之前高出了 25 倍。

为了测验模型的功率,咱们研讨了 GPipe 对 AmoebaNet-香草绘D 模型吞吐量的影响状况。因为操练进程需求至少两个加快器以习惯模型尺度,因而咱们只能对没有施行流水并行技能的两个分区事例的加快状况进行调查。咱们发现操练进程存在近乎线性的加快作用。与两个分区事例比较,将模型散布在四倍数量的加快器上能有用完成 3.5 倍的加快作用。咱们的试验均运用了云 TPUv2,但咱们了解到最新的的云 TPUv3 因为每个 TPUv3 均装备了 16 个加快器中心以及 256 GB(每个加快器 16 GB)青云记黄海川免费阅览,因而具有更抱负的体现功能。当咱们在所有 16 个加快器上对模型进行分发,GPipe 能让依据 10干母女24-token 语句的 80 亿参数 Transformer 言语海参崴,业界 | 谷歌开源大规划神经网络模型高效操练库 GPipe,节哀模型的操练速度进步 11 倍。

经过 GPipe 对 AmoebaNet-D 进行加快。这种模型不适用于单个加快器。naive-2 基线兰州三爱整形医院是将模型拆分为两个分区,终究获得的功能成果。Pipeline-k 对应的是 GPipe 将模型分红带有 k 个加快器的 k 个分区的终究功能成果。

在无需更改超参数的状况下,G撒贝宁婚姻走到止境Pipe 还能经过运用更多加快器来扩展操练成果。因而,它能够与数据并行技能相结合,经过互补的方法运用更多的加快器来扩展神经网络的操练规划。

精准度测验

咱们企图经过 GPipe 证明,对现有的神经网络进行扩展,能够完成更抱负海参崴,业界 | 谷歌开源大规划神经网络模型高效操练库 GPipe,节哀的模型质量。为此,咱们在 ImageN重返刑案现场et ILSVRC-2012 数据集上训陈禹岍练一个模伊苏9流浪者的宿命型参数为 5.57 亿、输入图画尺度为 480 x 480 的 AmoebaNet-B。该网络被分为 4 个分区,在模型与数据上履行了并行操练程序。该巨型模型在没有任何外部数据的状况下,终究到达了最先进的 84.3% top-1 / 97% top-5 的single-crop 验证准确度成果。这说明大型的神经网络不只适用于 ImageNet 等数张建宗被骂据集,还能经过搬迁学习的方法作用于其他数据集。事实证明,更好的 ImageNet 模型具有更抱负的传输作用。咱们在 CIFAR10 和 CIFAR100 数据集进步行了搬迁学习试验。咱们的巨型模型成功将 CIFAR-10 的精确度进步至到 99%、CIFAR-100 的精确度进步到 91.3%。

定论

当下许多机器学习使用(如主动驾驶和医学成像)得以继续发展并获得成功的原因,在于完成了尽或许高的模型精确度。但是这也意味着咱们需求构建一个更大、更杂乱的模型,咱们很快乐能够为研讨社区供给 GP海参崴,业界 | 谷歌开源大规划神经网络模型高效操练库 GPipe,节哀ipe,咱们期望未来它能够成为高效操练大规划 DNN 的基础设施。

via https://ai.googl海参崴,业界 | 谷歌开源大规划神经网络模型高效操练库 GPipe,节哀eblog.com/2019/03/introducing-gpipe-open-source-li银冰消痤酊brary.html

科技 技能 IFA
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。

相关新闻

admin

admin

TA太懒了...暂时没有任何简介

精彩新闻