最初,Transformer被用于语言处理,不过最近则影响到了更多的领域。2017年,Transformer首次出现在谷歌研究人员发表的论文中,该论文题目是神秘的「Attention Is All You Need」。之前其他人工智能的通用路径是,系统会首先关注输入数据局部的块,然后再去构建整体。例如,在语言模型中,邻近的单词首先会被组合在一起。