所有WIKI > T字母 > 什么是Transformer模型

什么是Transformer模型

Transformer模型(直译为“变换器”)是一种采用注意力机制深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。该模型主要用于自然语言处理(NLP)与 计算机视觉(CV)领域。

循环神经网络(RNN)一样,Transformer模型旨在处理自然语言等顺序输入数据,可应用于 翻译API、文本摘要API 等任务。而与RNN不同的是,Transformer模型能够一次性处理所有输入数据。注意力机制 可以为输入序列中的任意位置提供上下文。如果输入数据是自然语言,则Transformer不必像RNN一样一次只处理一个单词,这种架构允许更多的并行计算,并以此减少训练时间。

Transformer模型于2017年由谷歌大脑的一个团队推出,现已逐步取代长短期记忆(LSTM)等RNN模型成为了NLP问题的首选模型。并行化优势允许其在更大的数据集上进行训练。这也促成了BERTGPT等预训练模型的发展。这些系统使用了维基百科、Common Crawl等大型语料库进行训练,并可以针对特定任务进行微调。Transformer模型架构图如下:

Transformer模型

Transformer模型出现的背景

在Transformer模型之前,大多数最先进的NLP系统都依赖于诸如LSTM门控循环单元(GRU)等门控RNN模型,并在此基础上增加了注意力机制。Transformer正是在注意力机制的基础上构建的,但其没有使用RNN结构,这表明仅依靠注意力机制就能在性能上比肩加上了注意力机制的RNN模型。

顺序处理

门控RNN模型按顺序处理每一个标记(token)并维护一个状态向量,其中包含所有已输入数据的表示。如要处理第

一站搜索、试用、比较全球API!
幂简集成已收录 4767种API!
试用API,一次比较多个渠道