Global web icon
zhihu.com
https://www.zhihu.com/tardis/zm/art/600773858
一文了解Transformer全貌(图解Transformer)
网上有关Transformer原理的介绍很多,在本文中我们将尽量模型简化,让普通读者也能轻松理解。 1. Transformer整体结构 在机器翻译中,Transformer可以将一种语言翻译成另一种语言,如果把Transformer看成一个黑盒,那么其结构如下图所示:
Global web icon
zhihu.com
https://www.zhihu.com/question/445556653
如何最简单、通俗地理解Transformer? - 知乎
Transformer最开始应用于NLP领域的机器翻译任务,但是它的通用性很好,除了NLP领域的其他任务,经过变体,还可以用于视觉领域,如ViT(Vision Transformer)。 这些特点让Transformer自2017年发布以来,持续受到关注,基于Transformer的工作和应用层出不穷。
Global web icon
zhihu.com
https://www.zhihu.com/tardis/zm/art/684231320
挑战 Transformer:全新架构 Mamba 详解
而就在最近,一名为 Mamba 的架构似乎打破了这一局面。 与类似规模的 Transformer 相比, Mamba 具有 5 倍的吞吐量, 而且 Mamba-3B 的效果与两倍于其规模的 Transformer 相当。 性能高、效果好,Mamba 成为新的研究热点。
Global web icon
zhihu.com
https://www.zhihu.com/question/9312590179
Transformer不是编解码器都有的吗?为什么会发展出仅 解/编 码器模型?三者之间有什么不同? - 知乎
Transformer的核心部分,是右边的两个黑色实线框圈起来的两部分,左边是编码器(Encoder),右边是解码器(Decoder)。 下图是 Transformer 用于中英文翻译的整体结构: 可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。
Global web icon
zhihu.com
https://www.zhihu.com/question/1904728228213548260
你对下一代Transformer架构的预测是什么? - 知乎
2. 引入随机化(Randomized Transformer) Transformer巨大的规模使得不管训练还是推理都极具挑战。 然而,很少有人知道的是,引入随机化矩阵算法可以减少Transformer需要的FLOPs。 虽然这种做法会降低计算的精度,但这对Transformer的预测性能却可能是好事。
Global web icon
zhihu.com
https://www.zhihu.com/question/434784733
深度学习中“Transformer”怎么翻译为中文? - 知乎
Transformer 个人觉得不翻译为好。 Transformer按在机器翻译中原意可以翻译为变形器或变换器。但随着Transformer的普及,它已经成为一类以 自注意力 为主要部件的特定模型,其原本在机器翻译中的内涵变得不再重要,翻译成变形器反而不能涵盖其意义和除机器翻译外的场景。
Global web icon
zhihu.com
https://www.zhihu.com/tardis/zm/art/607605399
Transformer两大变种:GPT和BERT的差别(易懂版)-2更
Transformer是GPT和BERT的前身。谷歌和OpenAI在自然语言处理技术上的优化,都是基于这个模型。 更多关于的Transformer可以看文章: ChatGPT与Transformer(无公式版) 而在目前的“猜概率”游戏环境下,基于大型语言模型(LLM,Large Language Model)演进出了最主流的两个方向,即Bert和GPT。 其中BERT是之前最流行 ...
Global web icon
zhihu.com
https://www.zhihu.com/question/596771388
为什么我还是无法理解transformer? - 知乎
7 Transformer 的发展 Transformer架构自从发明之后,沿着几条道路快速发展,它模型分Encoder和Decoder两个部分,怎么做成实际的模型是个排列组合问题:只选择Encoder,只选择Decoder,或者两者都选取,后面的问题就是多少层叠加的问题了。
Global web icon
zhihu.com
https://www.zhihu.com/question/9832891489
为什么 2024 年以后 MMDiT 模块成为了大规模文生视频或者文生图片的主流? - 知乎
而且对于纯transformer架构,文本tokens和图像tokens拼接在一起也是很自然且容易的事情(UNet的图像是2D特征,而文本是1D特征)。 而且,SD3的技术报告中其实也对不同的架构设计做了对比,这里的对比包括DiT,CrossDiT, UViT。
Global web icon
zhihu.com
https://www.zhihu.com/question/428626879
Transformer和GNN有什么联系吗? - 知乎
Transformer与GNN有什么联系1. 从连接结构的角度看 我们知道Transformer最初是来源于NLP领域,其使用注意力机制来构建每个单词的特征,比如右上橙色图,找到句子中其他单词对前面当前单词的重要程度,基于此,Transformer就可以根据该重要程度,对其他所有单词进行加权的线性变换,以此更新当前单词 ...