您现在的位置是:探索 >>正文
Transformer全新里程碑!诞生6年,开山之作被引近8万
探索84人已围观
简介编辑:桃子 好困【新智元导读】Transformer,6岁了!2017年,Attention is All You Need奠基之作问世,至今被引数近8万。这个王者架构还能继续打多久?2017年6月1 ...
编辑 :桃子 好困【新智元导读】Transformer ,新里6岁了 !程碑2017年,诞生Attention is 年开All You Need奠基之作问世,至今被引数近8万 。作被这个王者架构还能继续打多久?2017年6月12日 ,引近Attention is 新里All You Need,一声炸雷,程碑大名鼎鼎的诞生Transformer横空出世 。
它的年开出现,不仅让NLP变了天 ,作被成为自然语言领域的引近主流模型 ,还成功跨界CV,新里给AI界带来了意外的程碑惊喜 。到今天为止,诞生Transformer诞生6周年。而这篇论文被引数高达77926 。英伟达科学家Jim Fan对这篇盖世之作做了深度总结:1. Transformer并没有发明注意力,而是将其推向极致 。第一篇注意力论文是在3年前(2014年)发表的。这篇论文来自Yoshua Bengio的实验室,而标题并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。它是「RNN+上下文向量」(即注意力)的组合 。或许很多人都没有听说过这篇论文,但它是NLP中最伟大的里程碑之一,已经被引用了29K次(相比之下 ,Transformer为77K)。2. Transformer和最初的注意力论文,都没有谈到通用序列计算机。相反,两者都为了解决一个狭隘而具体的问题 :机器翻译 。值得注意的是 ,AGI(不久的某一天)可以追溯到不起眼的谷歌翻译 。3. Transformer发表在2017年的NeurIPS上 ,这是全球顶级的人工智能会议之一。然而,它甚至没有获得Oral演讲,更不用说获奖了 。那一年的NeurIPS上有3篇最佳论文 。截止到今天,它们加起来有529次引用 。Transformer这一经典之作却在NeurIPS 2017没有引起很多人的关注。对此,Jim Fan认为,在一项出色的工作变得有影响力之前,很难让人们认可它。我不会责怪NeurIPS委员会——获奖论文仍然是一流的,但影响力没有那么大 。一个反例是ResNet。何凯明等人在CVPR 2016年获得了最佳论文。这篇论文当之无愧,得到了正确的认可。2017年,该领域聪明的人中,很少有人能够预测到今天LLM革命性的规模 。就像20世纪80年代一样 ,很少有人能预见自2012年以来深度学习的海啸。OpenAI科学家Andrej Karpathy对Jim Fan第2点总结颇感兴趣,并表示 ,介绍注意力的论文(由@DBahdanau , @kchonyc , Bengio)比 「Attention is All You Need」的论文受到的关注要少1000倍 。而且从历史上看,这两篇论文都非常普通 ,但有趣的是恰好都是为机器翻译而开发的 。你只需要注意力 !Transformer诞生之前 ,AI圈的人在自然语言处理中大都采用基于RNN(循环神经网络)的编码器-解码器(Encoder-Decoder)结构来完成序列翻译 。然而 ,RNN及其衍生的网络最致命的缺点就是慢。关键问题就在于前后隐藏状态的依赖性,无法实现并行。Transformer的现世可谓是如日中天,让许多研究人员开启了追星之旅。2017年 ,8位谷歌研究人员发表了Attention is All You Need 。可以说,这篇论文是NLP领域的颠覆者。论文地址:https://arxiv.org/pdf/1706.03762.pdf它完全摒弃了递归结构,依赖注意力机制 ,挖掘输入和输出之间的关系,进而实现了并行计算。甚至,有人发问「有了Transformer框架后是不是RNN完全可以废弃了?」JimFan所称Transformer当初的设计是为了解决翻译问题 ,毋庸置疑 。谷歌当年发的博客,便阐述了Transformer是一种语言理解的新型神经网络架构。文章地址 :https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html具体来讲 ,Transformer由四部分组成:输入、编码器、解码器,以及输出 。输入字符首先通过Embedding转为向量 ,并加入位置编码(Positional Encoding)来添加位置信息。然后,通过使用多头自注意力和前馈神经网络的「编码器」和「解码器」来提取特征 ,最后输出结果。如下图所示 ,谷歌给出了Transformer如何用在机器翻译中的例子。机器翻译的神经网络通常包含一个编码器 ,在读取完句子后生成一个表征。空心圆代表着Transformer为每个单词生成的初始表征。然后 ,利用自注意力,从所有其他的词中聚合信息,在整个上下文中为每个词产生一个新表征,由实心圆表示。接着,将这个步骤对所有单词并行重复多次,依次生成新的表征 。同样,解码器的过程与之类似,但每次从左到右生成一个词。它不仅关注其他先前生成的单词 ,还关注编码器生成的最终表征 。2019年,谷歌还专门为其申请了专利 。自此 ,在自然语言处理中 ,Transformer逆袭之路颇有王者之风。归宗溯源,现在各类层出不穷的GPT(Generative Pre-trained Transformer),都起源于这篇17年的论文。然而 ,Transformer燃爆的不仅是NLP学术圈。万能Transformer:从NLP跨到CV2017年的谷歌博客中,研究人员曾对Transformer未来应用潜力进行了畅享:不仅涉及自然语言 ,还涉及非常不同的输入和输出,如图像和视频。没错,在NLP领域掀起巨浪后 ,Transformer又来「踢馆」计算机视觉领域。甚至,当时许多人狂呼Transformer又攻下一城 。自2012年以来,CNN已经成为视觉任务的首选架构。随着越来越高效的结构出现 ,使用Transformer来完成CV任务成为了一个新的研究方向 ,能够降低结构的复杂性,探索可扩展性和训练效率 。2020年10月,谷歌提出的Vision Transformer (ViT),不用卷积神经网络(CNN),可以直接用Transformer对图像进行分类 。值得一提的是 ,ViT性能表现出色,在计算资源减少4倍的情况下,超过最先进的CNN 。紧接着,2021年 ,OpenAI连仍两颗炸弹 ,发布了基于Transformer打造的DALL-E ,还有CLIP。这两个模型借助Transformer实现了很好的效果 。DALL-E能够根据文字输出稳定的图像。而CLIP能够实现图像与文本的分类。再到后来的DALL-E进化版DALL-E 2,还有Stable Diffusion ,同样基于Transformer架构,再次颠覆了AI绘画。以下,便是基于Transformer诞生的模型的整条时间线 。由此可见,Transformer是有多么地能打。2021年 ,当时就连谷歌的研究人员David Ha表示,Transformers是新的LSTMs 。而他曾在Transformer诞生之前 ,还称LSTM就像神经网络中的AK47 。无论我们如何努力用新的东西来取代它,它仍然会在50年后被使用 。Transformer仅用4年的时间,打破了这一预言 。新硅谷「七叛徒」如今 ,6年过去了,曾经联手打造出谷歌最强Transformer的「变形金刚们」怎么样了?Jakob Uszkoreit被公认是Transformer架构的主要贡献者。他在2021年中离开了Google,并共同创立了Inceptive Labs,致力于使用神经网络设计mRNA 。到目前为止 ,他们已经筹集了2000万美元,并且团队规模也超过了20人。Ashish Vaswani在2021年底离开Google,创立了AdeptAILabs。可以说 ,AdeptAILabs正处在高速发展的阶段。目前,公司不仅已经筹集了4.15亿美元 ,而且也估值超过了10亿美元 。此外 ,团队规模也刚刚超过了40人 。然而 ,Ashish却在几个月前离开了Adept。在Transformers论文中,Niki Parmar是唯一的女性作者 。她在2021年底离开Google,并和刚刚提到的Ashish Vaswani一起,创立了AdeptAILabs 。不过,Niki在几个月前也离开了Adept。Noam Shazeer在Google工作了20年后,于2021年底离开了Google 。随后 ,他便立刻与自己的朋友Dan Abitbol一起,创立了Character AI 。虽然公司只有大约20名员工,但效率却相当之高。目前,他们已经筹集了近2亿美元 ,并即将跻身独角兽的行列。Aidan Gomez在2019年9月离开了Google Brain,创立了CohereAI 。经过3年的稳定发展后,公司依然正在扩大规模——Cohere的员工数量最近超过了180名。与此同时 ,公司筹集到的资金也即将突破4亿美元大关 。Lukasz Kaiser是TensorFlow的共同作者人之一,他在2021年中离开了Google,加入了OpenAI。Illia Polosukhin在2017年2月离开了Google,于2017年6月创立了NEAR Protocol。目前 ,NEAR估值约为20亿美元。与此同时 ,公司已经筹集了约3.75亿美元 ,并进行了大量的二次融资 。现在,只有Llion Jones还在谷歌工作。在论文的贡献方面,他风趣地调侃道:「自己最大的意义在于——起标题。」网友热评走到现在,回看Transformer,还是会引发不少网友的思考。AI中的开创性论文。马库斯表示,这有点像波特兰开拓者队对迈克尔·乔丹的放弃 。这件事说明了,即使在这样的一级研究水平上 ,也很难预测哪篇论文会在该领域产生何种程度的影响 。这个故事告诉我们,一篇研究文章的真正价值是以一种长期的方式体现出来的 。哇 ,时间过得真快!令人惊讶的是,这个模型突破了注意力的极限,彻底改变了NLP。在我攻读博士期间 ,我的导师 @WenmeiHwu 总是教育我们,最有影响力的论文永远不会获得最佳论文奖或任何认可,但随着时间的推移 ,它们最终会改变世界。我们不应该为奖项而奋斗 ,而应该专注于有影响力的研究!参考资料 :https://twitter.com/DrJimFan/status/1668287791200108544https://twitter.com/karpathy/status/1668302116576976906https://twitter.com/JosephJacks_/status/1647328379266551808举报/反馈Tags:
相关文章
CBA最新积分榜:广东克北汽第3,新疆胜山西第2,深圳胜青岛第7
探索12月9日,CBA常规赛有5场比赛,其中焦点之战是北京北汽和广东华南虎的比赛。广东华南虎在第一节比赛当中以30:35落后,第二,第三节比赛,广东华南虎奋起追击,将比分逆转反超。第四节比赛,虽然北京北汽 ...
【探索】
阅读更多今日申购:开创电气、汇隆活塞没想到,今年“挤奶衫”才是最流行的,谁穿谁好看,显身材有气质
探索浙江开创电气股份有限公司 保荐机构主承销商):德邦证券股份有限公司 发行情况: 公司简介: 开创电气主要从事手持式电动工具整机及核心零部件的研发、设计、生产 ...
【探索】
阅读更多首届学青会男足预赛14日开赛,武汉小将的对手是……明星在资本面前有多卑微?杨颖被摸胸抱起,林更新被怒骂不敢回嘴
探索首届学青会U18男足比赛14日开赛,武汉小将的对手已定。6月8日,中国足协发布通知,公布了第一届全国学生青年)运动会公开组)男子足球17岁至18岁组预赛阶段比赛的相关情况。 据了解,首届学青会公开组) ...
【探索】
阅读更多
热门文章
最新文章
友情链接
- 屈中恒Weibo
- 罗志祥博客
- 黎姿TikTok
- 邓超Twitter
- 哈利波特与死亡圣器(下)Twitter
- 张玉嬿Facebook
- 何以为家抖音
- 喜剧之王微博
- 张孝全官网
- 素媛官网
- 陈柏融博客
- 阿甘正传官网
- 王耀庆官网
- 乱世佳人抖音
- 狮子王TikTok
- 修杰楷微博
- 张若昀TikTok
- 尊龙微博
- 贾乃亮TikTok
- 郝劭文官网
- 最新发声!“中方将接管刚强有力措施”
- 原创 2023级新秀夏联观察(尼克斯篇):尼克斯这也太不走心了吧?
- H1 新能源业务收入同比翻倍,公牛集团加强渠道建设 新趋势!事关你的吃、住、行、游何小鹏:四季度小鹏汽车冲击月交付2万辆目标大国经济学解析四川发展资管张磊:地方金融资产管理公司面临资金成本高等难题欢乐家:上半年业绩创同期新高,分红却下降,黄桃罐头热度退却证监会活跃资本市场连环“组合拳”:扩大中长期资金入市,丰富优质投资标的,加强投资者保护六部门联合发文,应对来势汹涌的“风光”退役潮中国华融回应罚单:针对所涉及的问题认真反思、切实整改营收净利双增 舍得酒业2023年上半年净利润同比增长10.07%受益高端产品 金徽酒2023年上半年营收同比增长24.25%南财快评:做好保交楼工作,市场更关注的是政策如何落地金蝶国际董事长徐少春:希望2026年突破东南亚市场3000亿资金借道ETF布局,宽基成近期“吸金”主力交通银行系统两天两名“金科人”被查,银行金融科技人员落马案例今年渐增多工业富联连续4日获北向净买入 多只次新股获游资抢筹
- 快手头部主播“二驴”被警方传递摆拍绑架直播,账号已经被永世封禁
- 送走伦纳德!快船2换5生意妄想,鹈鹕侵略总冠军,快船甩肩负重修
- 粮价“雷霆大涨”!8月12日猪价“跳水”,玉米、小麦联袂飞天!巴西人到底有多开放?连荷兰都甘拜下风!
- 哈登生意提速!作废指定去快船,多队可退出相助,离队不可企及
- 哈登最爱快船也愿去其余队!炮轰只是开始 前主帅称莫雷作法自毙
- 萨索洛总监:不会把贝拉尔迪卖给尤文,后者从未正式报价
- 原创 CCTV5直播英超+足球之夜,5+转中超+女足世界杯+德甲,APP转女足