当前位置:首页 >> 节能

NLP预训练假定大一统,不再纠结下游任务类型!

来源:节能   2025年05月06日 09:14

+76.1%。在其他竞争对手弧中会,UL2 是唯一在所有侦查上都很低 T5 和 GPT 类静态的原理。

人类学家全面性将 UL2 扩展到有约 20B(确切地问道是 19.5 B)给定的中会等覆盖面,并在构成 50 多个 NLP 侦查的多样化的混搭中会透过试验,这些侦查除此以外第二语言填充(不具基本功能和人工检验)、第二语言理求得、重构分类、问答、常识推理、较宽重构推理、结构化科学知识典范和的资讯检索。试验结果得出结论,UL2 在绝大多数侦查和状况下都达到了 SOTA。

仍要,人类学家常用 UL2 透过了零 / 不算试样试验,并得出结论 UL2 在零试样 GLUE 上的机动性很低 GPT-3 175B。与 GLaM (Du et al., 2021)、PaLM (Chowdhery et al., 2022) 和 ST-MoE (Zoph et al., 2022) 等较最初的 SOTA 静态相比,UL2 尽管大部分在 C4 语料纳上透过了受训,但在计算出来匹配状况下的机动性仍然兼具效益。

人类学家深入分析了零试样与修改机动性错综复杂的优劣,得出结论 UL2 在两种自学逻辑学上都是帕累托理论上的。UL2 的机动性是一个 LM adapted T5 XXL 静态的三倍,在相同的计算出来成本下可与 PaLM 和 LaMDA 堪称。

这篇学术著作的(并列)第一编者是腾讯 AI 高阶学术研究科学界 Yi Tay 和腾讯神经控制系统学术研究科学界 Mostafa Dehghani。

Yi Tay 2019 年在印尼华侨理工大学拿到计算出来机硕士。他是一位高产的学术著作编者,曾在 2018 年一年之内以第一编者身份刊出了 14 篇行业内顶会学术著作。此外,他的学术著作也拿到过多个特别得奖者,如 ICLR 2021 年杰出学术著作特别奖、WSDM 2021 年最佳学术著作特别奖(亚军)和 WSDM 2020 年最佳学术著作特别奖(亚军)。此外,他还曾担任 EMNLP 和 NAACL 等顶级 NLP 会议的地区名誉主席。

Mostafa Dehghani 在哥德堡大学拿到的硕士,拿到过 ACM SIGIR ICTIR 2016 年最佳学术著作特别奖等特别得奖者。他在腾讯主要学术研究基于特别警觉的实时和第二语言静态,是热门学术著作《 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 》的编者之一。

不限是学术著作细微。

UL2 列举如下

用实质上思路看先于受训侦查

许多先于受训侦查可以被简单地阐述为「重定向到能够(input-to-target)」标准型侦查,其中会重定向指的是静态所贫乏的任何基本观念的梦境或正则表达式,而能够是静态的先于期输出。第二语言静态常用所有以前的整整步作为重定向来分析下一个 token,即能够。在 span corruption 中会,静态运用来自现在和从未来的所有从未受损的 token 作为分析 corrupted span(能够)的重定向。Prefix-LM 是常用现在的 token 作为重定向的第二语言静态,但它双向常用重定向:这比一般来说第二语言静态中会重定向的单向编码透过了不够强的数学静态潜能。

从这个思路来看,我们可以将一个先于受训能够精简为另一个能够。例如,在 span corruption 能够中会,当 corrupted span(能够)之和整个时,该原因无论如何就转化成了一个第二语言数学静态原因。考量这一点,常用 span corruption,通过将 span 尺寸特设得很大,我们可以在局部地区中会有利于仿真第二语言数学静态能够。

人类学家们假设了一个表示法,它涵盖了本文中会常用的所有不尽相同的去则否侦查。去则否侦查的重定向和能够由 SPANCORRUPT 函数填充,该函数由三个值 (µ, r, n) 来给定化,其中会 µ 是不等 span 尺寸,r 是 corruption rate,n 是 corrupted span 的数量。特别注意,n 可能是重定向尺寸 L 和 span 尺寸 µ 的函数,如 L/µ,但在某些情况下,人类学家常用 n 的固定值。任意重定向重构,SPANCORRUPT 将 corruption 应运而生从不具 u 均值的(正态或均匀)地理分布中会提取的尺寸的 span。在 corruption 以后,重定向重构被馈送到去则否侦查,corrupted span 被主要用途要直至的能够。

举个比如说,用这个数学公式来相相辅相成一个多种不同因果第二语言数学静态的能够,只需特设 (µ = L, r = 1.0, n = 1) ,即单个 span 的尺寸之和的尺寸。要理解一个多种不同 Prefix LM 的能够,可以特设 (µ = L − P, r = 1.0 − P/L, n = 1) ,其中会 P 是 prefix 的尺寸,比如说的制约是单个 corrupted span 总是到达的开篇。

人类学家特别比如说,这种 inputs-to-target 的数学公式既可以应用于求得码器 - 固件静态,也可以应用于单栈 Transformer 静态(如固件静态)。他们选取了分析下一个能够 token 的静态,而不是就地分析的静态(例如 BERT 中会的分析意味著就位 token),因为下一个能够数学公式不够共通,并且可以构成不够多的侦查,而不是常用特殊性的「CLS」token 和特定于侦查的 projection head。

Mixture of Denoisers

人类学家忽视,在先于受训之前,一个强大的共通静态必需去接踵而来、求得决不尽相同的原因集。结论先于受训是常用自行政官员启动的,人类学家忽视这种多样性不该被注入到静态的能够中会,否则静态可能会缺乏某种潜能,比如主干较宽重构填充潜能。

基于此,以及意味著的能够函数一般来说,他们假设了先于受训之前常用的三种主要逻辑学:

R-Denoiser,regular denoising 是 Raffel et al. (2019) 应运而生的标准化 span corruption,它常用 2 到 5 个 token 作为 span length,看不见了有约 15% 的重定向 token。这些 span 更为短,可能适度科学知识运用(而非自学填充流畅的重构)。 S-Denoiser,去则否的一种具体情况,在相相辅相成 inputs-to-targets 侦查时遵守恰当的顺序,即 prefix 第二语言数学静态。为此,人类学家只需将重定向分界为两个 token 子,分别作为正则表达式和能够,这样能够就不贫乏于从未来的的资讯。这与标准化 span corruption 不尽相同,在标准化 span corruption 中会,可能存在一段距离比正则表达式 token 不够早的能够 token。特别注意,与 Prefix-LM 特设多种不同,正则表达式(prefix)保留了一个双向感受野。人类学家特别比如说,不具更为短的梦境或从未梦境的 S-Denoising 与标准化的因果第二语言数学静态的精神是相似的。 X-Denoiser,去则否的一种 extreme 版本,静态必需直至重定向的绝大部分。这仿真了静态无需借助于有限的资讯梦境填充较宽能够的情况。为此,人类学家选取了构成积极去则否的比如说,其中会有约 50% 的重定向被看不见。这是通过提高 span 尺寸和 / 或 corruption 率来借助于的。如果先于受训侦查 span 较宽(如≥ 12 个 token)或 corruption 率高(如≥ 30%),就忽视该侦查是 extreme 的。X-denoising 的用意是作为常规 span corruption 和多种不同能够的第二语言静态错综复杂的匹配而存在。

这组 denoiser 与先前常用的能够函数有很强的联系:R-Denoising 是 T5 span corruption 能够,S-Denoising 与类 GPT 的因果第二语言静态关的,而 X-Denoising 可以将静态掩盖给来自 T5 和因果 LM 的能够的混搭。值得特别注意的是,X-denoiser 也被连接上去以提高试样生产成本,因为在每个试样中会可以自学到不够多的 token 来分析,这与 LM 的初衷多种不同。人类学家明确提出以实质上的形式混合成所有这些侦查,并有一个混合成的自行政官员的能够。最终能够是混合成 7 个去则否器,的设计如下:

对于 X - 和 R-Denoiser,span 尺寸从均值为 µ 的正态地理分布中会调制。对于 S-denoiser,他们常用均匀地理分布,将 corrupted span 的数量固定为 1,并且不具额外的制约,即 corrupted span 不该在原始重定向重构的开篇结束,在 corrupted 部分以后不不该出现从未被裁剪的 token。这粗略约等于 seq2seq 去则否或 Prefix LM 先于受训能够。

由于 LM 是 Prefix-LM 的一种特殊性情况,人类学家忽视从未充分在混合成中会构成一个恰巧的 LM 侦查。所有侦查在混合成中会不具基本相同的参与度。人类学家还探究了一种替代求得决方案,他们将混合成的设计中会 S-denoiser 的分量提高到 50%,其余份额由其他 denoiser 共享。

仍要,「混合成」这一动作使得 Mixture-of-Denoisers 不具更为强的共通性。单独来看,一些 denoiser 一般来说展示出不佳。例如,最初的 T5 学术著作探究了一个不具 50% corruption rate 的表单(X-denoising),但发掘出真实感不佳。

UL2 的 Mixture-of-Denoisers 的借助于只用,常用 seqio3 之类的纳很容易借助于。

形式翻转

人类学家应运而生了通过形式翻转透过逻辑学转换成的观念。在先于受训之前,他们为静态透过了一个额外的逻辑学 token,即 {[R],[S],[X]},这适度静态翻转到不够适合任意侦查的形式。对于修改和沿河 few-shot 自学,为了会有静态自学不够好的求得决求得决方案,人类学家还添加了一个关于沿河侦查的特设和要求的逻辑学 token。形式翻转无论如何是将沿河行为初始化到上游受训中会常用的形式之一上。

降温试验结果

表 2 显示了在所有基准测试侦查和数据集上的原始结果。

为了方便不尽相同特设错综复杂的相当,人类学家还给出了 UL2 与已建立的弧(如 T5 和 GPT 静态)的比较相当,如表 3 和表 4 示意图。

扩展到 200 亿给定以后的结果

示意图 8 显示了 UL20B 在不尽相同侦查中会与之前 SOTA 的对比结果。

合肥白癜风治疗费用
武汉看妇科去哪里好
上海看白癜风去哪看
武汉看癫痫的医院哪家好
郑州白癜风专科医院哪好
肝不好有什么症状
儿科
流感咳嗽吃什么药好使
甲流引起的咳嗽吃什么药
婴儿益生菌调理肠胃哪个牌子好
标签:任务类型
友情链接