零样本学习超越CLIP！谷歌提出首个多模态稀疏化模型LIMoE

日期：2022-06-13 13:54:07 / 人气：295

多模态模型罕见，但是基于稀疏化的还是头一个。谷歌带来最新效果LIMoE，初次将稀疏化办法用在了图像文本混合模型上。要晓得，随着大模型参数呈指数级添加，训练本钱也是一路飙升。所以如何降低训练本钱，成爲了目前学界重点关注的一个成绩。谷歌想到的方法，不是拼硬件，而是从模型自身动手。应用稀疏化的办法，让每次输出只需激活局部网络就能完成义务。它们在模型外部设置了很多“专家”，每个“专家”只需处置对应局部的输出，依据义务状况按需运用“专家”就好。这样一来，虽然模型容量很大，但是计算本钱并没有暴增。而且还不会降低功能。新办法LIMoE零样本学习义务中，可是间接逾越了CLIP。怪不得网友高呼：快分享给我们API！让不同“专家”处置不同义务关于深度学习来说，能同时处置文本图像义务其实曾经不稀罕。不过过来罕见的多模态学习办法，往往是单个输出就需求激活整个网络。谷歌这次提出的新办法，最大亮点就是初次在这一范畴采用了稀疏化模型。稀疏化的办法便是无需让整个模型来处置一切的输出。经过对神经网络停止划分，它让神经网络也“专业对口”，不同的子模型只处置固定类型的义务或数据。但也不是完全割裂开来，模型外部仍有可共享的局部。此次基于的模型是MoE（Mixture-of-Experts layer），它被称爲专家混合模型。也就是在Transformer架构的根底上，加设了“专家层”。它是一个并行的FNN，取代了本来的前馈网络。这里的“专家”，也就是模型外部的不同子模型。每个子模型专门用于不同的输出。每一层中的专家由门控网络控制，该网络依据输出数据激活专家。关于每个标志，门控网络选择最适宜的专家来处置数据。此次新提出的LIMoE，其实就是让MoE能同时处置图像文本。详细来看，就是让LIMoE停止比照学习。在应用少量图像-文本对训练时，网络外部的图像模型提取图像表示，文本模型提取文本表示。针对相反的图像-文本对，模型会拉近图像和文本表示的间隔。反之，关于不同的图像-文本对，则会让相应的表示彼此远离。这样一来的间接益处，就是能完成零样本学习。比方一张图像的表示更接近文本“狗”的表示，那麼它就会被归类爲狗。这种思绪可以扩展到数千种状况。实践上，CLIP和ALIGAN采用的都是这个思绪，它们在ImageNet数据集上的精度辨别是76.2%、76.4%。而LIMoE-L/16可以到达78.6%，曾经超越了CLIP。未经过预训练的LIMoE H/14则能到达84.1%的精度。而在LIMoE的专家层中，谷歌表示还发现了一些风趣的景象。比方在训练设置中，图像标志比文本标志要多很多，因而一切专家都会在在义务中多少处置些图像。只不过有的会次要处置图像，有的次要处置文本，或许二者兼具。还有在大少数状况下，都会有一个专家来处置一切包括文本表示的图像patch。除了功能上的提升，运用稀疏化模型的益处还表现在降低计算本钱上。由于“多专家”的形式意味着，虽然多设了很多子模型，模型容量明显添加，但是实践计算本钱并没有分明变化。假如一次义务中只运用了一个子模型，那它的本钱和规范Transformer的差不多。比方LIMoE-H/14总共有5.6B参数，但是经过稀疏化，它只会运用每个token的675M参数。One More Thing稀疏化模型不断是谷歌深度研讨的一个方向，曾经提出了MoE、GLaM在内的多个模型。这次LIMoE也不是谷歌第一次魔改MoE。去年6月，他们提出了V-MoE，是一种新型的视觉架构，往年已将全部代码开源。

作者：盛煌娱乐平台

零样本学习超越CLIP！谷歌提出首个多模态稀疏化模型LIMoE

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →