神经网络架构汇总_IT分享知识网

大家好，欢迎来到IT知识分享网。

随着新的神经网络架构的不断涌现，很难对它们进行跟踪。想记住所有的缩写(比如DCIGN, BiLSTM, DCGAN)一开始可能会有点不知所措。

因此，我决定编写一个包含这些繁杂架构的备忘录。其中大多数是神经网络，有些是完全不同的货色。虽然所有这些架构都是新颖而独特的，但当我绘制节点结构时，它们的底层关系开始变得更有意义。

将它们绘制为节点映射的一个问题是:它并没有真正显示它们是如何使用的。例如，变分自编码器(VAE)可能看起来就像自编码器(AE)，但训练过程实际上是完全不同的。经过训练的网络用例差异更大，因为VAEs是生成器，您可以在其中插入噪声以获得新样本。AE只是将它们得到的输入映射到它们“记住”的最接近的训练样本上。我应该补充一点，这个概述并没有说明每种不同的节点类型是如何在内部工作的(这是另一个主题)。

应该指出的是，虽然大多数使用的缩写是普遍接受的，但并不是所有的缩写都是普遍接受的。RNN有时指递归神经网络，但大多数时候它们指的是循环神经网络。还不止这些，很多时候，你会发现RNN被用作任何循环架构的占位符，包括LSTM、GRU甚至是双向变量。AE有时也会遇到类似的问题，VAE和DAE等简称为AE。许多缩写在末尾添加的“N”的数量也有所不同，因为你可以称之为卷积神经网络，也可以简单地称为卷积网络(导致CNN或CN)。

编写一个完整的列表几乎是不可能的，因为新的架构一直在诞生。即使它们已经发布，即使你正在寻找它们，找到它们仍然是相当具有挑战性的，或者有时你只是忽略了一些。所以，虽然这个列表可能会为你提供一些关于人工智能世界的见解，但请不要认为这个列表是全面的;尤其是当你在这篇文章写完很久之后才开始阅读的时。

对于图中描述的每一个架构，我都写了一个简短的描述。如果您非常熟悉某些体系结构，但不熟悉某个特定的体系结构，那么您可能会发现其中一些很有用。

架构清单

1、前馈神经网络和感知机（Feed forward neural networks,缩写FF或 FFNN; perceptrons 缩写P）

2、径向基函数网络（Radial basis function，缩写RBF）

3、循环神经网络(Recurrent neural networks，缩写RNN)

4、长短期记忆网络（Long / short term memory，缩写LSTM）

5. 门控循环单元（Gated recurrent units ,缩写GRU）

6、双向递归神经网络、双向长/短期记忆网络和双向门控递归单元（Bidirectional recurrent neural networks缩写BiRNN，bidirectional long / short term memory networks缩写BiLSTM，and bidirectional gated recurrent units缩写BiGRU）

7、自编码器(Autoencoders缩写AE)

8、变分自编码器(Variational autoencoders缩写VAE)

9、去噪自动编码器(Denoising autoencoders缩写DAE)

10、稀疏自编码器(Sparse autoencoders缩写SAE)

11、马尔可夫链(Markov chains缩写MC)或称离散时间马尔可夫链(discrete time Markov Chain缩写DTMC)

12、霍普菲尔德网络(Hopfield network缩写HN)

13、玻尔兹曼机(Boltzmann machines ，缩写BM)

14、受限玻尔兹曼机(Restricted Boltzmann machines,缩写RBM)

15、深度信念网络(Deep belief networks，缩写DBN)

16、卷积神经网络(Convolutional neural networks缩写CNN，deep convolutional neural networks缩写DCNN)

17、反卷积网络(Deconvolutional networks,缩写DN，也称逆图形网络，inverse graphics networks，缩写IGN)

18、深度卷积逆图形网络(Deep convolutional inverse graphics networks 缩写DCIGN)

19、生成对抗网络(Generative adversarial networks 缩写GAN)

20、液态机(Liquid state machines 缩写LSM)

21、极限学习机(Extreme learning machines缩写ELM)

22、回声状态网络(Echo state networks 缩写ESN)

23、深残网络(Deep residual networks缩写DRN)

24、神经图灵机(Neural Turing machines缩写NTM)

25、可微神经计算机(Differentiable Neural Computers 缩写DNC)

26、胶囊网络(Capsule Networks 缩写CapsNet)

27、科霍恩网络(Kohonen networks缩写KN，也称自组织(特征)图self organising (feature) map，缩写SO(F)M)

28、注意网络(Attention networks缩写AN)

1、前馈神经网络和感知机（Feed forward neural networks,缩写FF或 FFNN; perceptrons 缩写P）

前馈神经网络(FF或FFNN)和感知器(P)是非常直接的，它们将信息从前面馈送到后面(分别是输入和输出)。神经网络通常被描述为具有层，其中每层由并行的输入、隐藏或输出单元组成。一个单独的层永远不会有连接，通常两个相邻的层是完全连接的(每个神经元形成一个层，每个神经元到另一个层)。最简单实用的网络有两个输入单元和一个输出单元，可以用来模拟逻辑门。

人们通常通过反向传播来训练FFNN，给网络配对的数据集“输入什么”和“我们想要输出什么”。这被称为监督学习，与非监督学习相反，在非监督学习中，我们只给它输入，让网络填补空白。反向传播的误差通常是输入和输出之间差异的某种变化(如MSE或仅仅是线性差异)。考虑到网络有足够的隐藏神经元，理论上它总是可以模拟输入和输出之间的关系。实际上，它们的使用要有限得多，但它们通常与其他网络结合起来形成新的网络。

罗森布拉特，弗兰克等，《感知器:大脑中信息存储和组织的概率模型》心理评论65.6(1958):386

2、径向基函数网络（Radial basis function，缩写RBF）

径向基函数(RBF)网络是以径向基函数作为激活函数的FFNN。没有别的了。这并不意味着它们没有自己的用途，但大多数具有其他激活函数的FFNN都没有自己的名称。这主要与发明它们的时间有关。

布鲁姆黑德，大卫·S·和大卫·洛等，《径向基函数，多变量函数插值和自适应网络》皇家信号和雷达建立(英国)，1988

3、循环神经网络(Recurrent neural networks，缩写RNN)

循环神经网络是具有时间扭曲的FFNN:它们不是无状态的。它们之间有穿越时间的联系。神经元不仅从上一层获得信息，而且从过往获得信息。这意味着输入和训练网络的顺序很重要:与输入“牛奶”然后“饼干”相比，输入“饼干”然后“牛奶”可能会产生不同的结果。RNN的一个大问题是消失(或爆炸)梯度问题，根据所使用的激活函数，信息随着时间的推移迅速丢失，就像非常深的FFNN在深度上丢失信息一样。从直觉上讲，这不是什么大问题，因为这些只是权重而不是神经元状态，但随着时间的推移，权重实际上是过去信息存储的地方;如果权值达到0或，则前一状态的信息量不大。

原则上，RNN可以用于许多领域，因为大多数形式的数据实际上没有时间轴(例如，不像声音或视频)，可以用序列表示。一张图片或一串文本可以一次输入一个像素或字符，所以与时间相关的权重用于序列中之前发生的内容，而不是x秒之前发生的内容。一般来说，循环网络对于推进或完成信息是一个很好的选择，比如自动完成。

艾尔曼,杰弗里等，《及时找到结构》。认知科学14.2(1990):179-211

4、长短期记忆网络（Long / short term memory，缩写LSTM）

长期/短期记忆(LSTM)网络试图通过引入门和明确定义的记忆单元来解决梯度消失/爆炸问题。这些灵感主要来自电路，而不是生物学。每个神经元都有一个记忆细胞和三个门:输入、输出和遗忘。这些门的功能是通过阻止或允许信息流动来保护信息。输入门决定有多少来自前一层的信息被存储在单元中。输出层承担另一端的任务，并决定下一层对该单元的状态了解多少。遗忘门一开始看起来很奇怪，但有时遗忘是有好处的:如果它正在学习一本书，新的一章开始了，网络可能有必要忘记前一章中的一些字符。LSTM已经被证明能够学习复杂的序列，比如像莎士比亚一样写作或创作原始音乐。请注意，这些门中的每一个都与前一个神经元中的一个细胞有一个权重，所以它们通常需要更多的资源来运行。

霍克赖特, 泽普和于尔根·施密德胡伯等，《长短期记忆》神经计算9.8(1997):1735-1780

5. 门控循环单元（Gated recurrent units ,缩写GRU）

门控循环单元(GRU)是LSTM的轻微变化。它们少了一个门，连接方式也略有不同:它们有一个更新门，而不是输入、输出和遗忘门。这个更新门决定从上一层保留多少信息，以及从上一层允许进入多少信息。复位门的功能很像LSTM的遗忘门，但它的位置略有不同。它们总是输出它们的全部状态，它们没有输出门。在大多数情况下，它们的功能与LSTM非常相似，最大的区别是GRU稍微快一些，更容易运行(但也稍微缺乏表现力)。在实践中，它们往往会相互抵消，因为您需要更大的网络来恢复一些表现力，而这反过来又抵消了性能优势。在某些不需要额外表达性的情况下，GRU可以优于LSTM。

钟俊勇（音）等,《门控递归神经网络在序列建模上的经验评价》。arVix预印版1412.3555(2014)

双向递归神经网络、双向长/短期记忆网络和双向门控递归单元(分别为BiRNN、BiLSTM和BiGRU)没有显示在图表上，因为它们看起来与单向递归单元完全相同。不同之处在于，这些网络不仅与过去相连，还与未来相连。例如，单向LSTM可以通过一个接一个地输入字母来训练预测单词“fish”，其中随着时间的推移循环连接会记住最后一个值。BiLSTM还将在反向传递中输入序列中的下一个字母，使其能够访问未来的信息。这训练了网络来填补空白，而不是推进信息，所以它可以填补图像中间的一个洞，而不是在边缘扩展图像。

舒斯特，迈克，库尔迪普等，《双向循环神经网络》，信号处理学报(英文版)(1997):2673-2681。

7、自编码器(Autoencoders缩写AE)

自编码器有点类似于FFNN，因为AE更像是FFNN的不同用途，而不是根本不同的架构。自动编码器背后的基本思想是自动编码信息(如压缩，而不是加密)，因此得名。整个网络总是呈沙漏状，隐藏层比输入和输出层要小。AE也总是围绕中间层对称(一个或两个取决于偶数或奇数层的数量)。最小的层几乎总是在中间，信息被压缩得最严重的地方(网络的阻塞点)。中间之前的部分被称为编码部分，中间之后的部分被称为解码，中间的部分被称为编码。我们可以用反向传播的方法训练它们，通过提供的输入并将误差设置为输入和输出之间的差。当涉及到权重时，AE也可以对称地构建，因此编码权重与解码权重相同。

波拉德，赫弗尔，和伊夫·坎普等,《多层感知器与奇异值分解的自动关联》生物控制论(1988):291-294。

8、变分自编码器(Variational autoencoders缩写VAE)

变分自编码器具有与AE相同的架构，但“传授”了其他东西:输入样本的近似概率分布。这有点回归本源，因为它们与BM和RBM的关系更密切。然而，它们确实依赖于概率推理和独立性方面的贝叶斯数学，以及重新参数化技巧来实现这种不同的表示。推理和独立部分在直觉上是有意义的，但它们依赖于一些复杂的数学。最基本的就是:把影响力考虑进去。如果一件事发生在一个地方，另一件事发生在另一个地方，它们不一定是相关的。如果它们不相关，那么错误传播就应该考虑到这一点。这是一种有用的方法，因为神经网络是大型图形(在某种程度上)，所以当你深入到更深层时，如果你能排除某些节点对其他节点的影响，这将会有所帮助。

金玛，迪德里克·P，麦克斯·韦林等，《自动编码变分贝叶斯》。arVix预印版(自然科学版):1312.6114(2013)。

9、去噪自动编码器(Denoising autoencoders缩写DAE)

去噪自动编码器是一种AE，我们不只是输入数据，而是给输入数据加噪声(比如让图像更有颗粒感)。我们以同样的方式计算误差，因此将网络的输出与不含噪声的原始输入进行比较。这鼓励网络不学习细节，而是学习更广泛的特征，因为学习较小的特征往往是“错误的”，因为它会随着噪声不断变化。

文森特, 帕斯卡等，《用去噪自动编码器提取和组合鲁棒特征》第25届机器学习国际会议论文集。ACM, 2008年。

10、稀疏自编码器(Sparse autoencoders缩写SAE)

稀疏自编码器(SAE)在某种程度上与AE相反。我们不是教网络在更少的“空间”或节点中表示一堆信息，而是尝试在更多的空间中对信息进行编码。所以我们不是在中间收敛然后扩展回输入大小，而是把中间放大。这些类型的网络可用于从数据集中提取许多小特征。如果用同样的方法训练SAE和AE，在几乎所有情况下，你都会得到一个非常无用的恒等式网络(就像进来的就是出来的一样，没有任何转换或分解)。为了防止这种情况，我们不是反馈输入，而是反馈输入加上一个稀疏驱动程序。这个稀疏性驱动程序可以采用阈值过滤器的形式，其中只有一个特定的错误被传递并训练，其他错误将与该传递“无关”并设置为零。在某种程度上，这类似于脉冲神经网络，并不是所有的神经元都在每时每刻被激活(分数是根据生物合理性来打分的)。

马克·奥雷里奥·兰扎托, 克里斯多夫 ▪波尔特尼, 苏米特▪乔普拉和扬·勒丘恩。《基于能量模型的稀疏表示的有效学习》NIPS会议录。2007.

11、马尔可夫链(Markov chains缩写MC)或称离散时间马尔可夫链(discrete time Markov Chain缩写DTMC)

马尔可夫链(MC或离散时间马尔可夫链，DTMC)是BM和HN的前身。它们可以理解为:从我现在所在的这个节点，我到达相邻节点的概率是多少?它们是无记忆的(即马尔可夫属性)，这意味着你最终的每个状态都完全依赖于前一个状态。虽然不是真正的神经网络，但它们确实类似于神经网络，并构成了BM和HN的理论基础。与BM、RBM和HN一样，MC并不总是被认为是神经网络。马尔可夫链也不总是完全连接的。

海耶斯,布莱恩,《马尔可夫链的第一环》美国科学家(2013):252。

12、霍普菲尔德网络(Hopfield network缩写HN)

霍普菲尔德网络是一种每个神经元相互连接的网络;它是一盘完全纠缠在一起的意大利面，因为所有的节点都发挥着一切的作用。每个节点在训练前输入，训练时隐藏，训练后输出。通过将神经元的值设置为期望的模式来训练网络，然后可以计算权重。权重在这之后不会改变。一旦训练了一个或多个模式，网络将总是收敛到其中一个学习模式，因为网络只有在那些状态下才稳定。

请注意，它并不总是符合期望的状态(遗憾的是，它不是一个神奇的黑盒)。它的稳定部分是由于网络的总“能量”或“温度”在训练过程中逐渐减少。每个神经元都有一个激活阈值，该阈值可根据温度进行缩放，如果输入之和超过该阈值，则会导致神经元采取两种状态之一的形式(通常是-1或1，有时是0或1)。更新网络可以同步完成，也可以一个接一个地完成。如果逐个更新，将创建一个公平随机序列来组织哪些单元格以什么顺序更新(公平随机是所有选项(n)每n个项目恰好发生一次)。这样你就可以判断网络何时是稳定的(完成收敛)，一旦每个单元都被更新并且它们都没有改变，网络就稳定了(退火)。这些网络通常被称为联想记忆，因为它们收敛到与输入最相似的状态;如果人类看到半张桌子，我们可以想象另一半，如果呈现一半噪音和一半桌子，这个网络将收敛到一张桌子。

霍普菲尔德, 约翰等，《具有涌现集体计算能力的神经网络和物理系统》国家科学院学报79.8(1982):2554-2558。

13、玻尔兹曼机(Boltzmann machines ，缩写BM)

玻尔兹曼机与HN非常相似，但是:一些神经元被标记为输入神经元，而其他神经元仍然“隐藏”。在一个完整的网络更新结束时，输入神经元变成了输出神经元。它从随机权重开始，通过反向传播学习，或者最近通过对比散度学习(使用马尔可夫链来确定两个信息增益之间的梯度)。与HN相比，神经元大多具有二元激活模式。正如MC所训练的那样，BM是随机网络。BM的训练和运行过程与HN非常相似:一个人将输入神经元设置为特定的固定值，之后网络就被释放了(它不会占用套接字)。在自由的时候，节点可以得到任何值，我们在输入神经元和隐藏神经元之间反复地来回移动。激活是由一个全局温度值控制的，如果温度值降低，细胞的能量就会降低。这种较低的能量使它们的激活模式稳定下来。在适当的温度下，网络达到平衡。

希尔顿，特伦斯，《玻尔兹曼机的学习和释放》并行分布式处理:认知微观结构的探索1(1986):282-317。

14、受限玻尔兹曼机(Restricted Boltzmann machines,缩写RBM)

受限玻尔兹曼机与BM非常相似，因此也与HN相似。BM和RBM之间最大的区别是RBM的可用性更好，因为它们更受限制。它们并不是将每个神经元连接到另一个神经元，而是将每个不同的神经元组连接到另一个神经元组，所以没有输入神经元直接连接到其他输入神经元，也没有隐藏的神经元连接到隐藏的神经元连接。RBM可以像FFNN一样进行训练:不是向前传递数据然后反向传播，而是向前传递数据然后向后传递数据(回到第一层)。在那之后，进行前向和反向传播训练。

斯莫伦斯基,保罗等，《动态系统中的信息处理:和谐理论的基础》。CU- CS – 321 – 86号，科罗拉多大学博尔德分校计算机科学系，1986年。

15、深度信念网络(Deep belief networks，缩写DBN)

深度信念网络是一种主要由RBM或VEE组成的堆叠架构。这些网络已被证明是可有效地逐层训练的，其中每个AE或RBM只需学习对前一个网络进行编码。这种技术也被称为贪婪训练，贪婪意味着通过局部最优解来得到一个可行但可能不是最优的答案。DBN可以通过对比发散或反向传播进行训练，并学习将数据表示为概率模型，就像常规RBM或VAE一样。一旦通过无监督学习训练或收敛到一个(更)稳定的状态，该模型就可以用来生成新的数据。如果用对比散度进行训练，它甚至可以对现有数据进行分类，因为神经元已经学会了寻找不同的特征。

本希奥, 本吉奥等，《深度网络的贪婪分层训练》神经信息处理系统进展19(2007): 153。

16、卷积神经网络(Convolutional neural networks缩写CNN，deep convolutional neural networks缩写DCNN)

卷积神经网络(或深度卷积神经网络)与大多数其他网络有很大的不同。它们主要用于图像处理，但也可用于其他类型的输入，如音频。CNN的一个典型用例是，你给网络提供图像，网络对数据进行分类，例如，如果你给它一张猫的照片，它输出“猫”，当你给它一张狗的照片时，它输出“狗”。CNN倾向于从一个输入“扫描器”开始，它并不打算一次解析所有的训练数据。例如，要输入一张200 x 200像素的图像，你不会想要一个有40000个节点的层。相反，您可以创建一个扫描输入层，比如20 x 20，然后输入图像的前20 x 20像素(通常从左上角开始)。

一旦您传递了该输入(并可能将其用于训练)，您将为其提供下一个20 x 20像素:您将扫描仪向右移动一个像素。请注意，您不会移动输入20像素(或任何扫描仪宽度)，您不会将图像分解为20 x 20的块，而是在上面爬行。然后，这些输入数据通过卷积层而不是普通层来馈送，在普通层中，并非所有节点都连接到所有节点。每个节点只关注自己与邻近的单元(有多近取决于实现，但通常不会超过几个)。这些卷积层也倾向于随着它们变得更深而缩小，主要是通过容易分割的输入因子(所以20可能会变成10层，然后是5层)。2的幂在这里非常常用，因为它们可以被清晰而完全地划分:32,16,8,4,2,1。

除了这些卷积层，它们还经常具有池化层。池化是一种过滤细节的方法:一种常用的池化技术是最大池化，我们取2 x 2像素，然后传递红色最多的像素。为了将CNN应用于音频，你基本上是在片段的长度上输入音频波，一段一段地输入。现实中，CNN的实现通常将FFNN粘合到最后，以进一步处理数据，这允许高度非线性的抽象。这些网络被称为DCNN，但这两者之间的名称和缩写通常可以互换使用。

勒丘恩等《基于梯度的学习应用于文档识别》电子工程学报(英文版)(1998):2278-2324。

17、反卷积网络(Deconvolutional networks,缩写DN，也称逆图形网络，inverse graphics networks，缩写IGN)

反卷积网络也称为逆图形网络，是一种反向卷积神经网络。想象一下，给一个网络输入“猫”这个词，并通过将其生成的图像与真实的猫的图像进行比较，训练它生成类似猫的图像。DNN可以与FFNN结合，就像普通的CNN一样，但这是关于提出新缩写的界限。它们可能被称为深度反卷积神经网络，但你可能会说，当你把FFNN放在DNN的后面和前面时，你就有了另一个值得新名字的架构。请注意，在大多数应用程序中，实际上不会向网络提供类似文本的输入，而更可能是二进制分类输入向量，比如<0, 1>作为猫，<1, 0>狗和<1, 1>猫和狗。在CNN中常见的池化层经常被类似的逆操作所取代，主要是带有偏见假设的插值和外推(如果池化层使用最大池化，你可以在反转它时专门发明更低的新数据)。

蔡勒, 马修等《反卷积网络》，计算机视觉与模式识别(CVPR)， 2010年IEEE学术会议，IEEE 2010。

18、深度卷积逆图形网络(Deep convolutional inverse graphics networks 缩写DCIGN)

深度卷积逆图形网络有一个有点误导人的名字，因为它们实际上是VAE，但分别使用CNN和DNN作为编码器和解码器。这些网络试图将编码中的“特征”建模为概率，这样它就可以学习生成猫和狗在一起的图片，而只在单独的图片中看到过两者中的一个。类似地，你可以给它喂一张猫的照片，上面有你邻居的讨厌狗，然后让它把狗移走，而不需要做这样的操作。演示表明，这些网络还可以学习对图像进行复杂变换的建模，例如改变光源或3D物体的旋转。这些网络倾向于用反向传播来训练。

库尔卡尼, 特哈斯等，《深度卷积逆图形网络》神经信息处理系统进展，2015。

19、生成对抗网络(Generative adversarial networks 缩写GAN)

生成对抗网络来自不同种类的网络，它们是双胞胎:两个网络一起工作。GAN由任意两个网络组成(尽管通常是FF和CNN的组合)，其中一个负责生成内容，另一个负责判断内容。鉴别网络接收来自生成网络的训练数据或生成内容。判别网络正确预测数据源的能力，然后作为生成网络误差的一部分。这创造了一种竞争形式，即判别器在区分真实数据和生成数据方面做得越来越好，而生成器则在学习变得越来越难以预测。这在一定程度上很有效，因为即使是非常复杂的噪声模式最终也是可预测的，但生成的内容与输入数据的特征相似，很难学会区分。GAN可能很难训练，因为你不仅需要训练两个网络(其中任何一个都可能带来自己的问题)，而且它们的动态也需要平衡。如果预测或生成变得比另一个好，GAN将不会收敛，因为存在固有的散度。

古德费洛, 伊恩等《生成对抗网络》。神经信息处理系统进展(2014)。

20、液态机(Liquid state machines 缩写LSM)

液态机(LSM)类似汤，看起来很像ESN。真正的区别在于LSM是一种脉冲神经网络:S形弯曲被阈值函数取代，每个神经元也是一个累积记忆细胞。因此，当更新一个神经元时，值不是设置为邻居的和，而是添加到自身。一旦达到阈值，它就会将能量释放给其他神经元。这就形成了一个脉冲，在一段时间内什么都没有发生，直到突然达到一个阈值。

马斯，沃尔夫冈，托马斯，亨利·马克拉姆《无稳定状态的实时计算:基于扰动的神经计算新框架》，神经计算14(2002):2531-2560。

21、极限学习机(Extreme learning machines缩写ELM)

极限学习机(ELM)基本上是带有随机连接的FFNN。它们看起来与LSM和ESN非常相似，但它们既不复发也不脉冲。它们也不使用反向传播。相反，它们从随机权重开始，并根据最小二乘拟合(所有函数的最小误差)在单个步骤中训练权重。这导致网络的表达能力大大降低，但也比反向传播快得多。

黄光斌等《极限学习机:理论与应用》，神经计算机学报(英文版)(2006):489- 491。

22、回声状态网络(Echo state networks 缩写ESN)

回声状态网络(ESN)是另一种不同类型的(循环)网络。这种神经元通过神经元之间的随机连接(即没有组织成整齐的层集)将自己与其他神经元区分开来，并且它们的训练方式不同。我们不是提供输入然后反向传播误差，而是提供输入，转发并更新神经元一段时间，然后观察一段时间后的输出。输入层和输出层的作用略显非常规，因为输入层用于启动网络，而输出层则充当随时间展开的激活模式的观察者。在训练过程中，只有观察者和隐藏单元之间的连接被改变。

耶格，赫伯特，哈拉尔德·哈斯等《利用非线性:预测无线通信中的混沌系统和节能》科学304.5667(2004): 78-80。

23、深残网络(Deep residual networks缩写DRN)

深残网络(DRN)是非常深的FFNN,额外的连接将输入从一层传递到后面的层(通常为2到5层),以及下一层。不要试图找到一个解决方案,将一些输入映射到一些输出,而不是5层,网络被强制学习将一些输入映射到一些输出+一些输入。基本上,它为解决方案添加了一个标识,把旧的输入传递给了一个后来的层。结果表明,这些网络在学习模式上非常有效,深度为150层,比常规2到5层要高得多。然而，事实证明，这些网络本质上只是RNN，没有明确的基于时间的结构，它们经常被比作没有门的LSTM。

何凯明等，《图像识别的深度残差学习》arXiv预印本arXiv:1512.03385(2015)。

24、神经图灵机(Neural Turing machines缩写NTM)

神经图灵机可以理解为LSTM的一个抽象，并且是对非黑盒神经网络的一种尝试(并让我们对其中发生的事情有一些了解)。不是将记忆细胞直接编码到神经元中，而是将记忆分离。它试图将常规数字存储的效率和持久性与神经网络的效率和表达能力结合起来。这个想法是有一个内容可寻址的记忆库和一个可以从中读写的神经网络。神经图灵机中的“图灵”来自于它们是图灵完备的:读写和根据读取的内容改变状态的能力意味着它可以表示通用图灵机可以表示的任何东西。

格雷夫斯，亚历克斯，格雷格·韦恩，伊沃·达尼赫尔卡等《神经图灵机》，arXiv预印版ArXiv:1410.5401(2014)。

25、可微神经计算机(Differentiable Neural Computers 缩写DNC)

可微神经计算机(DNC)是具有可扩展记忆的增强型神经图灵机，其灵感来自于人类海马体存储记忆的方式。这个想法是采用经典的冯·诺伊曼计算机体系结构，用RNN取代CPU, RNN学习何时从RAM读取以及读取什么内容。除了拥有大量的数字作为内存(可以在不重新训练RNN的情况下调整大小)。DNC还有三种关注机制。这些机制允许RNN查询一些输入与内存条目的相似性，内存中任意两个条目之间的时间关系，以及内存条目最近是否更新-这使得当没有空内存可用时，它不太可能被覆盖。

格拉夫斯, 亚历克斯等，《使用带有动态外部存储器的神经网络的混合计算》，《自然》538(2016):471-476。

26、胶囊网络(Capsule Networks 缩写CapsNet)

胶囊网络(CapsNet)是受生物学启发的池化替代方案，其中神经元与多个权重(矢量)连接，而不仅仅是一个权重(标量)。这使得神经元能够传递更多的信息，而不仅仅是检测到哪个特征，比如一个特征在图片中的位置，或者它的颜色和方向。学习过程涉及一种局部形式的赫布学习(Hebbian learning)，它重视对下一层输出的正确预测。

沙布, 萨拉, 福罗斯特, 尼古拉斯、欣顿等《胶囊之间的动态路由》，神经信息处理系统研究进展(2017):3856-3866。

27、科霍恩网络(Kohonen networks缩写KN，也称自组织(特征)图self organising (feature) map，缩写SO(F)M)

科霍恩网络利用竞争学习在没有监督的情况下对数据进行分类。输入被呈现给网络，然后网络评估哪个神经元与输入最匹配。然后，这些神经元被调整以更好地匹配输入，在这个过程中拖着它们的邻居。邻居的移动程度取决于邻居到最佳匹配单元的距离。

科霍恩,图沃等《拓扑正确特征图的自组织形成》生物控制论43.1(1982):59-69。

28、注意网络(Attention networks缩写AN)

注意网络(AN)可以被认为是一类网络，它包括变换体系结构。他们使用一种注意力机制来对抗信息衰减，方法是分别存储以前的网络状态并在状态之间切换注意力。编码层中每次迭代的隐藏状态存储在存储单元中。解码层与编码层相连，但它也从经过注意上下文过滤的记忆细胞接收数据。这个过滤步骤为解码层增加了上下文，强调了特定特征的重要性。利用解码层输出的错误信号训练产生该上下文的注意网络。此外，注意上下文可以可视化，从而有价值地洞察哪些输入特征与哪些输出特征相对应。

亚德尔贝克, 马克斯等《空间变压器网络》，神经信息处理系统进展(2015):2017-2025。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/92730.html

神经网络架构汇总

相关推荐

发表回复