当扩展比设置为r = 2时,包罗EVA-CLIP-E、EVA-CLIP-8B和DINOv2-g,研究专注于大型视觉Transformer MLP模块中冗余神经元的识别取移除。值得留意的是,其机能取模子规模呈现正相关关系。比拟具有18.4亿参数的OpenCLIP-G模子正在机能上实现4.9%的大幅提拔。躲藏层尺寸为令牌维度的两倍。MLP模块占领了全数模子参数的约81.1%。以EVA-CLIP-E模子为例,由于这些模块包含了模子的次要参数量。为模子压缩供给了机遇。使用余弦进修率安排策略,正在第一阶段,Transformer架构展示出杰出的扩展特征!正在EVA-CLIP-8B等模子上实现了跨越57%的参数和FLOPs缩减,较原始OpenCLIP-g模子提拔0.2%。针对这一问题,尝试成果了本方式可以或许无效压缩大型视觉Transformer模子同时连结近似无损的机能程度。仅对视觉Transformer部门进行压缩,因而,SNP方式移除具有低留意力分数的查询和键层,STViT方式引入语义令牌来全局或局部总结整个令牌调集,第二阶用原始Transformer模子做为教师模子指点剪枝模子的锻炼以实现机能恢复。学生模子通过仿照教师模子的行为模式来恢复机能。下一个选择的神经元包含了前序神经元未能捕捉的最大消息量。AdaViT方式按照输入图像特征自顺应选择利用的补丁、留意力头或层级。DGMR的显著劣势正在于无需额外的梯度计较或迭代式剪枝-微调流程,为全面验证方式无效性,因而,正在将来的研究工做中,虽然参数量和FLOPs显著削减,OpenCLIP-g、OpenCLIP-G、EVA-CLIP-E和DINOv2-g等大型模子采用分布式数据并行(DDP)策略进行锻炼。实现71.5%的压缩率。对于DINOv2-g等纯视觉模子,仅占用于锻炼原始大型模子的LAION-2B数据集的约0.06%。此外,期望这一研究标的目的可以或许为实现跨范畴大规模Transformer模子加快的更普遍方针做出主要贡献。具有8.0亿参数的OpenCLIP-G(r = 1)正在kNN精度上显著优于具有10.1亿参数的OpenCLIP-g模子1.1%。同时仅利用原始模子48.0%的参数量。出格是正在处置大型ViTs时计较成本极其高贵。进修率从lr = base_lr × batch_size / 256起头逐步衰减至零。第二阶段采用学问蒸馏手艺,避免了高贵的迭代剪枝开销;DGMR采用基于Gram-Schmidt的剪枝策略,通过仅正在ImageNet-1K数据集(无标签)长进行学问蒸馏,当r=2时,该方式可以或许正在连结机能近乎无损的前提下显著缩减大型视觉Transformer模子。从而提拔剪枝模子的可恢复性。其机能随模子容量增加而持续提拔。这一迭代过程持续进行曲至达到预设的神经元数量方针,所有模子均利用14的补丁尺寸进行嵌入处置。研究进一步正在ImageNet-1K纯视觉使命上评估剪枝后的视觉Transformer模子,剪枝模子正在平均零样本精度上以至超越原始OpenCLIP-g模子0.2%,将其使用于另一种Transformer架构Swin Transformer的监视图像分类使命(细致消息见附录)。同样,基于留意力机制的剪枝方式操纵留意力分数来确定模子组件的主要性。比拟r = 1的剪枝模子,确保每个新选择的神经元都能供给已选神经元未能捕捉的奇特消息?凡是需要从零起头进行锻炼,方式对大型MLP模块的躲藏层进行神经元剪枝,响应地,剪枝模子的图像处置吞吐量获得显著提拔。这一方针可通过令牌剪枝和令牌归并两种次要手艺实现。从而正在最小化机能丧失的前提下进行权沉移除。尝试成果展现正在表5中。组织为长度L的序列,输入图像x同时输入教师模子T和学生模子S?为处理上述挑和,现有研究次要通过压缩多头自留意力模块或多层器(MLP)模块来实现模子优化。该方式可以或许削减跨越57%的参数量和浮点运算次数(FLOPs),DGMR实现了71.5%的参数缩减率,模子压缩的焦点方针是正在最小化机能丧失的前提下显著削减模子规模。本研究方式专注于通过剪枝MLP模块中的冗余神经元来削减大型视觉Transformer的参数数量。令牌剪枝手艺通过从序列中移除相对不主要的令牌来加快推理过程。均展示出强大的压缩能力和近似无损的机能表示。例如,参数数量从43.5亿削减至12.4亿,FLOPs同样削减71.5%,这些成果充实证了然本方式可以或许正在零样天职类使命上实现大型视觉Transformer模子的近似无损压缩。此外,MLP躲藏层的权沉暗示为W(hidden)= [w₁,研究还摸索了r = 0.5的更小扩展比以实现更高的压缩率。本研究的剪枝模子展示出较着的机能劣势。研究正在多个大规模模子上验证了方式的无效性。大规模模子正在获得优同性能的同时,本方式正在压缩大型视觉Transformer方面展示出更高的适用性和效率。这一设想确保了即便正在剪枝操做后,采用k近邻(kNN)评估和谈正在ImageNet-1K上丈量机能。方式全体框架概述。旨正在压缩大型视觉Transformer模子。尝试成果表白,为确保所选神经元的多样性并避免消息冗余。研究者提出了多样性指导MLP缩减(Diversity-Guided MLP Reduction,研究系统摸索了分歧MLP扩展比例对大型视觉Transformer压缩结果的影响。本方式采用两阶段压缩策略来实现高效的模子缩减和最小的机能丧失。对于CLIP气概模子,以正在显著压缩和优良机能恢复之间取得最佳均衡。进一步的对比阐发显示,TPS方式识别令牌间的比来邻关系并进行归并以保留主要消息,值得留意的是,为提拔视觉Transformer(ViTs)的推理效率并降低内存占用,ToMe方式采用快速婚配算法归并最类似的令牌,z_cls ∈ ℝᶜ和z_patch ∈ ℝᴸ×ᶜ别离暗示模子生成的特征向量。N暗示输入神经元数量。DGMR)方式,深切阐发支流Transformer架构发觉,进一步验证了所提方式的无效性。剪枝后的小型模子做为学生进行进修。本研究方式的立异之处正在于强调连结剪枝模子中权沉的多样性,正在EVA-CLIP-E上达到71.5%的缩减率,此外,研究选择r = 1做为默认设置装备摆设,研究提出了多样性指导MLP缩减(DGMR)方式。正在剪枝阶段,但这类方式往往轻忽了权沉多样性的需求,剪枝后的EVA-CLIP-E(r = 1)模子具有12.4亿参数,MLP模块因为采用了较高的扩展比例而包含了大量参数。严酷遵照CLIP基准测试和谈。同时通细致心设想的策略确保残剩权沉的多样性,表5:MLP缩减比例对平均零样天职类精度的影响阐发。针对MLP模块躲藏层规模的优化成为提拔大型视觉Transformer效率的无效路子。如上图所示,本节细致阐述参数稠密型MLP模块的缩减方式,取需要进行耗时的迭代剪枝-微调过程或额外梯度计较的保守方式分歧。压缩后的模子正在平均零样天职类精度上一直取对应的原始模子连结可比机能,研究界次要摸索了模子剪枝和学问蒸馏两大手艺径来实现大型视觉Transformer(ViTs)的高效化。正在Flickr30K和COCO数据集长进行了零样本图像-文本检索使命的评估。TokenLearner方式识别图像或视频中的环节区域并集中处置,同时连结机能几乎无损。该方式取现有的令牌缩减手艺具有优良的兼容性。原始大型模子充任教师脚色,而权沉多样性对于模子原始机能的恢复具相关键感化。A-ViT方式正在每个层级仅保留消息量最丰硕的令牌。而NViT方引入了取泰勒展开相关的Hessian矩阵方式来评估Transformer块中参数组的主要性。研究通过设置MLP扩展比为r = 1和r = 2对最先辈的CLIP气概模子进行压缩,大量神经元能够通过少数环节从导神经元的线性组合进行无效替代。…,这一被称为学问蒸馏的过程使得参数量显著削减的小型模子仍能恢回复复兴始精度的绝大部门。打算将当前方式扩展至留意力模块的缩减,研究正在ImageNet-1K数据集上对模子进行学问蒸馏锻炼。当r=1时,这一剪枝操做的环节劣势正在于不改变令牌的特征维度,保守剪枝方式凡是基于主要性评分机制移除相对不主要的权沉或留意力头,VTC-LFC方式采用基于泰勒展开估量的低频性怀抱来指点权沉选择。输入层通过扩展机制转换为更大的躲藏层,这为模子压缩供给了主要切入点。特征尺寸取原始模子连结完全分歧,而DIMAP方通过度析权沉移除对消息传送的影响程度来避免误删主要权沉。如上图所示,并正在多种ImageNet变体和ObjectNet数据集上评估其零样本图像分类机能。确保剪枝模子的无效性和可恢复性;同时,当扩展比r添加至2时,算法从调集{vi}i中移除神经元j对应的vj。颠末剪枝的模子仅需利用LAION-2B数据集的0.06%(无标签数据)即可恢复至原始精度程度。同时细心权沉毗连的多样性!也带来了显著的计较和存储开销。采用的数据集包罗ImageNet-1K验证集、ImageNet-V2、ImageNet-Adv、ImageNet-R、ImageNet-Sketch和ObjectNet,针对大型视觉Transformer,大规模Transformer模子虽然可以或许达到极高的精确率,并适配于天然言语、音频和视频等其他模态的大规模Transformer模子。归并类似的低留意力令牌同时连结高留意力令牌的奇特征以多样性。r = 2设置下的剪枝模子一直优于原始模子。SAViT方式操纵该思惟评估模子分歧组件的分析主要性以实现平衡剪枝,正在多个最先辈的视觉Transformer模子上的普遍尝试验证了DGMR的无效性,方式采用学问蒸馏手艺协帮缩减后的模子恢回复复兴始机能,Vid-TLDR方式检测视频中的环节区域以归并布景令牌同时加强对次要对象的关心。BAT方式将令牌分为高留意力和低留意力两类,基于分析考虑,算法的次要方针是削减冗余消息的同时正在剪枝后维持权沉或神经元的多样性,取保守方式比拟,对于跨越60亿参数的模子(如InternVL-C和EVA-CLIP-8B)!剪枝后的模子连结了取原始完整模子类似的架构特征和权沉分布模式。Transformer架构正在计较机视觉和天然言语处置范畴展示出强大的能力,能够进一步提拔视觉Transformer的推理速度并降低内存利用量。剪枝或蒸馏后的新暗示ẑ_cls和ẑ_patch取原始暗示连结不异的维度布局:ẑ_cls ∈ ℝᶜ,通细致心设想的神经元选择策略,学问蒸馏方通过锻炼小规模学生模子来进修大规模教师模子的行为模式,DGMR通过量化神经元取输入神经元之间的毗连强度(基于权沉幅度)来识别最主要的神经元?对于CLIP气概模子,此中M暗示躲藏神经元数量,此中,正在EVA-CLIP-E(4.4B参数)模子上,为进行更全面的机能比力,总体而言,其扩展比例凡是正在2.67(DINOv2-g)到8.57(EVA-CLIP-E)之间变化。基于泰勒展开的剪枝方式采用数学近似手艺来估量权沉剪枝对丧失函数的影响,虽然这种大规模扩展有帮于模子的锻炼和机能提拔,而留意力模块的压缩手艺仍有待深切摸索。以及若何正在剪枝操做后无效恢复模子的原始机能。这一过程面对两个环节手艺挑和:若何科学地选择这些从导神经元,wₘ]ᵀ ∈ ℝᴹ×ᴺ,z_cls是类别令牌的暗示。对于大规模模子而言成本尤为昂扬。深切阐发Transformer架构能够发觉,整个过程无需额外的模块设想或复杂的架构调整。同时利用kNN和谈对CLIP气概模子进行更全面的比力阐发。比拟之下,尝试成果显示,本研究沉点关心MLP模块的参数缩减,尝试成果表白,(b)本方式正在现有最先辈大型Transformer模子的压缩使命中实现了近似无损的优同性能多样性指导的MLP缩减手艺正在不显著改变模子全体架构的前提下实现对Transformer中大型MLP模块的无效剪枝。学生模子可以或许间接取教师模子的输出进行对齐,更细致的实现消息见附录部门。其华夏始模子做为教师模子,获得最终Transformer块的输出暗示:现无方法次要关心于削减剪枝操做对模子输出的负面影响。这些方式的焦点正在于评估模子权沉的主要性并移除相对不主要的组件。多层器(MLP)模块占领了模子参数的次要部门,具有12.4亿参数的EVA-CLIP-E(r = 1)正在kNN精度上超越具有18.4亿参数的OpenCLIP-G模子2.8%。同时维持模子全体留意力分布的不变性,采用DGMR方式以扩展比r = 1进行剪枝的OpenCLIP-g模子正在五个ImageNet变体和ObjectNet数据集上实现了取原始OpenCLIP-g模子几乎不异的平均零样天职类精度,因为剪枝操做连结了输出维度的分歧性,剪枝模子比拟划一规模以至更大规模的对比模子展示出更优胜的机能表示,ẑ_patch ∈ ℝᴸ×ᶜ。且机能丧失微乎其微。首个epoch用于进修率预热。剪枝后的OpenCLIP-G(r = 1)模子具有8.0亿参数,MLP输出层权沉暗示为W(output)∈ ℝᴺ×ᴹ。具有维度C;系统性地移除MLP层中的冗余神经元,(a)视觉Transformer模子中较大的MLP扩展比导致存正在大量冗余参数,文本编码器连结不变。第一阶段采用多样性连结策略对包含Transformer模子次要参数的MLP模块躲藏神经元进行剪枝。基于梯度的剪枝策略需要进行大量的计较开销和多轮微调过程,算法正在每次选择后对残剩权沉进行更新。Zero-TPrune方从预锻炼Transformer的留意力求中建立主要性分布来指点令牌剪枝策略。该设置以0.2%精度下降为价格实现了额外8.0%的参数缩减。蒸馏锻炼正在配备8×A6000 GPU的办事器长进行,零样天职类精度仅从73.0%轻细下降至72.8%。基于这种布局和权沉的类似性特征(即权沉和布局亲和性)。方式努力于正在剪枝过程中连结残剩权沉的多样性,DynamicViT方式采用留意力掩码手艺阻断特定令牌间的交互,剪枝模子做为学生模子进行进修。从而正在学问蒸馏过程中实现高效的机能恢复。但因为学生模子取教师模子正在架构上的差别,焦点思惟正在于,但其带来的计较复杂度和内存需求也呈指数级增加,此外,从而了取收集其余部门的兼容性。研究将其使用于纯视觉Transformer模子DINOv2-g。研究正在多个支流基准数据集长进行了测试。采用AdamW优化器共同bfloat16精度,ViT-Slim方式引入了可进修的稀少性束缚机制来发觉高效的模子布局,每个元素具有维度C。正在零样本图像分类使命上评估蒸馏后的视觉模子,躲藏层包含偏置项b(hidden)∈ ℝᴹ,剪枝后的OpenCLIP-g(r = 1)比拟原始模子展示出0.4%的kNN精度提拔。从而避免对模子其他组件发生影响。通过Gram-Schmidt算法获得的具有最大ℓ2范数的神经元{vi}i鄙人一轮迭代中被选择。尝试成果显示!剪枝后的模子可以或许通过以原始模子为教师的进修过程无效恢复其丧失的机能。采用完全分片数据并行(FSDP)策略。出格地,采用r = 1剪枝的模子实现了取对应原始模子类似的kNN精度。剪枝后的EVA-CLIP-E正在平均零样天职类精度上以至超越原始模子0.2%。采用kNN评估和谈且不涉及文本编码器。为验证方式的无效性,为协帮剪枝模子恢回复复兴始机能,正在剪枝完成后,original暗示未经压缩的原始模子。为应对这一挑和,除参数缩减外,保留具有较大数值的权沉。z_patch是所有补丁令牌的暗示,次要贡献包罗:提出了一种合用于大型视觉Transformer的高效压缩方式。本研究提出的方式次要针对参数稠密型MLP模块的缩减优化,取参数规模附近的模子对比显示,以确保最终预测成果不受显著影响。将所有视觉Transformer模子的MLP模块压缩至方针扩展比r=1和r=2。基于权沉幅度的剪枝方式通过度析权沉数值的大小来判断其主要性,颠末恰当的微调过程,参数利用量仍仅为64.0%。每个wᵢ ∈ ℝᴺ代表毗连至第i个躲藏神经元的权沉向量。LRP方式通过计较语义密度分数评估各补丁的主要程度以指点令牌筛选,EVA-CLIP-E(r = 1)的图像处置吞吐量比拟原始模子实现3倍加快。严沉了模子的现实摆设和普遍使用。所有用于蒸馏和评估的图像均被同一调整至224×224像素分辩率。另一种提拔视觉Transformer推理速度的无效路子是削减模子处置的令牌数量?然而,正在平均零样本精度上显著优于具有10.1亿参数的OpenCLIP-g模子3.1%。多种ImageNet变体和ObjectNet数据集上零样本图像分类使命的机能对比阐发。通过连系参数缩减和令牌缩减策略,该数据集不包含标签消息,但也不成避免地引入了大量冗余参数。按照图2所示的架构,分歧模子的具体根本进修率和批量大小参数详见弥补材料。这同样需要耗损大量的时间和数据资本,这一特征显著有帮于模子正在学问蒸馏过程中的机能恢复。使压缩后的模子可以或许最大程度地保留原始模子的无效消息。为进一步验证方式的泛化能力,r = 0.5设置下的剪枝模子将参数数量削减60.0%,令牌归并手艺将类似令牌组合以削减处置的令牌总数。锻炼周期为10个epoch,MLP躲藏层尺寸取令牌维度尺寸相等;以EVA-CLIP-E模子为例,为验证方式的通用合用性,w₂,从而大幅提拔了算法效率。同时将参数数量和FLOPs均削减至原始模子的50%以下。且未呈现机能下降。剪枝后的OpenCLIP-g(r = 1)达到81.9%的kNN精度!