Transformer Encoder Graph - Search localsearch

zhihu.com

https://www.zhihu.com/tardis/zm/art/600773858

网上有关Transformer原理的介绍很多，在本文中我们将尽量模型简化，让普通读者也能轻松理解。 1. Transformer整体结构在机器翻译中，Transformer可以将一种语言翻译成另一种语言，如果把Transformer看成一个黑盒，那么其结构如下图所示：

zhihu.com

https://www.zhihu.com/question/445556653

如何最简单、通俗地理解Transformer？ - 知乎

Transformer最开始应用于NLP领域的机器翻译任务，但是它的通用性很好，除了NLP领域的其他任务，经过变体，还可以用于视觉领域，如ViT（Vision Transformer）。这些特点让Transformer自2017年发布以来，持续受到关注，基于Transformer的工作和应用层出不穷。

zhihu.com

https://www.zhihu.com/tardis/zm/art/684231320

挑战 Transformer：全新架构 Mamba 详解

而就在最近，一名为 Mamba 的架构似乎打破了这一局面。与类似规模的 Transformer 相比， Mamba 具有 5 倍的吞吐量，而且 Mamba-3B 的效果与两倍于其规模的 Transformer 相当。性能高、效果好，Mamba 成为新的研究热点。

zhihu.com

https://www.zhihu.com/question/9312590179

Transformer不是编解码器都有的吗？为什么会发展出仅解/编码器模型？三者之间有什么不同？ - 知乎

Transformer的核心部分，是右边的两个黑色实线框圈起来的两部分，左边是编码器（Encoder），右边是解码器（Decoder）。下图是 Transformer 用于中英文翻译的整体结构：可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成，Encoder 和 Decoder 都包含 6 个 block。

zhihu.com

https://www.zhihu.com/question/1904728228213548260

你对下一代Transformer架构的预测是什么？ - 知乎

2. 引入随机化（Randomized Transformer） Transformer巨大的规模使得不管训练还是推理都极具挑战。然而，很少有人知道的是，引入随机化矩阵算法可以减少Transformer需要的FLOPs。虽然这种做法会降低计算的精度，但这对Transformer的预测性能却可能是好事。

zhihu.com

https://www.zhihu.com/question/434784733

深度学习中“Transformer”怎么翻译为中文？ - 知乎

Transformer 个人觉得不翻译为好。 Transformer按在机器翻译中原意可以翻译为变形器或变换器。但随着Transformer的普及，它已经成为一类以自注意力为主要部件的特定模型，其原本在机器翻译中的内涵变得不再重要，翻译成变形器反而不能涵盖其意义和除机器翻译外的场景。

zhihu.com

https://www.zhihu.com/tardis/zm/art/607605399

Transformer两大变种：GPT和BERT的差别（易懂版）-2更

Transformer是GPT和BERT的前身。谷歌和OpenAI在自然语言处理技术上的优化，都是基于这个模型。更多关于的Transformer可以看文章： ChatGPT与Transformer（无公式版）而在目前的“猜概率”游戏环境下，基于大型语言模型（LLM，Large Language Model）演进出了最主流的两个方向，即Bert和GPT。其中BERT是之前最流行 ...

zhihu.com

https://www.zhihu.com/question/596771388

为什么我还是无法理解transformer？ - 知乎

7 Transformer 的发展 Transformer架构自从发明之后，沿着几条道路快速发展，它模型分Encoder和Decoder两个部分，怎么做成实际的模型是个排列组合问题：只选择Encoder，只选择Decoder，或者两者都选取，后面的问题就是多少层叠加的问题了。

zhihu.com

https://www.zhihu.com/question/9832891489

为什么 2024 年以后 MMDiT 模块成为了大规模文生视频或者文生图片的主流？ - 知乎

而且对于纯transformer架构，文本tokens和图像tokens拼接在一起也是很自然且容易的事情（UNet的图像是2D特征，而文本是1D特征）。而且，SD3的技术报告中其实也对不同的架构设计做了对比，这里的对比包括DiT，CrossDiT， UViT。

zhihu.com

https://www.zhihu.com/question/428626879

Transformer和GNN有什么联系吗？ - 知乎

Transformer与GNN有什么联系1. 从连接结构的角度看我们知道Transformer最初是来源于NLP领域，其使用注意力机制来构建每个单词的特征，比如右上橙色图，找到句子中其他单词对前面当前单词的重要程度，基于此，Transformer就可以根据该重要程度，对其他所有单词进行加权的线性变换，以此更新当前单词 ...