2014前的德语那些我们必须知道的经典-德语教育网

这篇文章给大家聊聊关于2014前的德语，以及那些我们必须知道的经典对应的知识点，希望对各位有所帮助，不要忘了收藏本站哦。

参与：一鸣、泽南、蛋酱

当今天的太阳升起时，我们正式告别了上一个十年。

在这十年中，伴随着计算能力和大数据方面的发展，深度学习已经攻克了许多曾经让我们感到棘手的问题，尤其是计算机视觉和自然语言处理方面。此外，深度学习技术也越来越多地走进我们的生活，变得无处不在。

这篇文章总结了过去十年中在深度学习领域具有影响力的论文，从ReLU、AlexNet、GAN到Transformer、BERT等。每一年还有很多荣誉提名，包括了众多名声在外的研究成果。

2011年：激活函数ReLU

《DeepSparseRectifierNeuralNetworks（ReLU）》

论文链接：http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf（被引用量4071）

早期的神经网络大多使用sigmoid激活函数。虽然它具有很好的效果，但是，随着层数的增加，这种激活函数使得梯度很容易出现衰减。在2011年的这篇论文中，ReLU被正式提出。它能够帮助解决梯度消失的问题，为神经网络增加深度铺路。

当然，ReLU也有一些缺点。在函数为0的时候不可微，而神经元可能会「死亡」。在2011年之后，很多针对ReLU的改进也被提了出来。

年度荣誉提名：（这一年的大部分研究集中于对激活函数的改进）

1、《RectifierNonlinearitiesImproveNeuralNetworkAcousticModels（LeakyReLU）》

基于对ReLU进行了改进的激活函数，在x为负时不取0。

论文链接：https://ai.stanford.edu/~amaas/papers/relu_hybrid_icml2013_final.pdf

2、《FastandAccurateDeepNetworkLearningbyExponentialLinearUnits(ELUs)》

论文链接：https://arxiv.org/abs/1511.07289

3、《Self-NormalizingNeuralNetworks（SELUs）》

论文链接：https://arxiv.org/abs/1706.02515

4、《GaussianErrorLinearUnits(GELUs)》

这一激活函数已证明比ReLU效果更好，BERT等模型已使用。

论文链接：https://arxiv.org/abs/1606.08415

2012年：掀起深度学习浪潮的AlexNet

《ImageNetClassificationwithDeepConvolutionalNeuralNetworks（AlexNet）》

论文链接：https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks（被引用量52025）

AlexNet经常被认为是这一波人工智能浪潮的起点，该网络在ImageNet挑战赛中的错误率与前一届冠军相比减小了10%以上，比亚军高出10.8个百分点。AlexNet是由多伦多大学SuperVision组设计的，由AlexKrizhevsky,GeoffreyHinton和IlyaSutskever组成。

AlexNet是一个8层的卷积神经网络，使用ReLU激活函数，总共有6千万参数量。AlexNet的最大贡献在于证明了深度学习的能力。它也是第一个使用并行计算和GPU进行加速的网络。

在ImageNet上，AlexNet取得了很好的表现。它将识别错误率从26.2%降到了15.3%。显著的性能提升吸引了业界关注深度学习，使得AlexNet成为了现在这一领域引用最多的论文。

年度荣誉提名：

1、《ImageNet:ALarge-ScaleHierarchicalImageDatabase（ImageNet）》

ImageNet是斯坦福大学李飞飞等人完成的一个用于图像识别的数据集，是计算机视觉领域检验模型性能的基准数据集。

论文链接：http://www.image-net.org/papers/imagenet_cvpr09.pdf

2、《Flexible,HighPerformanceConvolutionalNeuralNetworksforImageClassification（JurgenSchmidhuber为通讯作者）》

论文链接：http://people.idsia.ch/~juergen/ijcai2011.pdf

3、《Gradient-BasedLearningAppliedtoDocumentRecognition》

论文链接：http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf

2013年：NLP的经典word2vec；开启深度强化学习时代

《DistributedRepresentationsofWordsandPhrasesandtheirCompositionality（word2vec）》

论文链接：https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf（被引用量16923）

Word2vec是由谷歌研究团队里ThomasMikolov等人提出的模型，该模型能从非常大的数据集中计算出用以表示词的连续型向量。word2vec成为了NLP领域的深度学习主要的文本编码方式。它基于在相同语境中同时出现词具有相似含义的思路，使文本可以被嵌入为向量，并用于其他下游任务。

年度荣誉提名：

1、《GloVe:GlobalVectorsforWordRepresentation》

论文链接：https://nlp.stanford.edu/pubs/glove.pdf

2、《PlayingAtariwithDeepReinforcementLearning》

论文链接：https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf（被引用量3251）

DeepMind在这一年提出的用DQN玩雅达利游戏开启了深度强化学习研究的大门。强化学习过去大多数情况下用在低维环境中，很难在更复杂的环境中使用。雅达利游戏是第一个强化学习在高维环境中的应用。这一研究提出了DeepQ-learning算法，使用了一个基于价值的奖励函数。

年度荣誉提名：

1、《LearningfromDelayedRewards（Q-Learning）》

论文链接：http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf

2014年：GAN；Adam；Attention机制

《GenerativeAdversarialNetworks》

论文链接：https://papers.nips.cc/paper/5423-generative-adversarial-nets（被引用量13917）

生成对抗网络（GenerativeAdversarialNetwork，简称GAN）是IanGoodefellow等人提出的非监督式学习方法，通过让两个神经网络相互博弈的方式进行学习。自2014年GAN网络提出以来，其在ComputerVision（计算机视觉）等领域获得了广泛的关注

生成对抗网络（GAN）的成功在于它能够生成逼真图片。这一网络通过使用生成器和判别器之间的最小最大（minimax）博弈，GAN能够建模高纬度、复杂的数据分布。在GAN中，生成器用于生成假的样本，而判别器进行判断（是否为生成数据）。

年度荣誉提名：

1、《WassersteinGAN&ImprovedTrainingofWassersteinGANs（WGAN）》

WGAN是GAN的改进版本，取得了更好的效果。

论文链接：https://arxiv.org/abs/1701.07875

2、《StyleGAN》

论文链接：https://arxiv.org/abs/1812.04948

3、《NeuralMachineTranslationbyJointlyLearningtoAlignandTranslate（attention机制）》

论文链接：https://arxiv.org/abs/1409.0473（被引用量9882）

这篇论文介绍了注意力机制的思路。与其将所有信息压缩到一个RNN的隐层中，不如将整个语境保存在内存中。这使得所有的输出都能和输入对应。除了在机器翻译中使用外，attention机制还被用于GAN等模型中。

《Adam:AMethodforStochasticOptimization》

论文链接：https://arxiv.org/abs/1412.6980（被引用量34082）

Adam由于其易微调的特性而被广泛使用。它基于对每个参数的不同学习率进行适应这种思想。虽然近来有对Adam性能提出质疑的论文出现，但它依然是深度学习中最受欢迎的目标函数优化器。

年度荣誉提名：

1、《DecoupledWeightDecayRegularization》

论文地址：https://arxiv.org/abs/1711.05101

2、《RMSProp》

和Adam一样出名的目标函数优化器。

论文地址https://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf*

2015：超越人类的ResNet；神奇的批归一化

《DeepResidualLearningforImageRecognition》

论文链接：https://arxiv.org/abs/1512.03385(被引用量34635)

大名鼎鼎的ResNet，从ResNet开始，神经网络在视觉分类任务上的性能第一次超越了人类。这一方法赢得了ImageNet2015、以及COCO竞赛的冠军，也获得了CVPR2016的最佳论文奖：该研究的作者是何恺明、张祥雨、任少卿和孙剑。

最初ResNet的设计是用来处理深层CNN结构中梯度消失和梯度爆炸的问题，如今ResidualBlock已经成为了几乎所有CNN结构中的基本构造。

这个想法很简单：将输入（input）从卷积层的每个块添加到输出（output）。残差网络之后的启示是，神经网络不应分解为更多的层数，在最不理想的情况下，其他层可以简单设置为恒等映射（identitymapping）。但在实际情况中，更深层的网络常常在训练上遇到困难。残差网络让每一层更容易学习恒等映射，并且还减少了梯度消失的问题。

尽管并不复杂，但残差网络很大程度上优于常规的CNN架构，尤其在应用于更深层的网络上时。

众多CNN架构都在争夺「头把交椅」，以下是一部分具有代表意义的样本：

年度荣誉提名：

1、《GoingDeeperwithConvolutions》

论文链接:https://arxiv.org/abs/1409.4842

2、《VeryDeepConvolutionalNetworksforLarge-ScaleImageRecognition》

论文链接:https://arxiv.org/abs/1409.1556

3、《NeuralOrdinaryDifferentialEquations》

论文链接:https://arxiv.org/abs/1806.07366（NIPS2018最佳论文奖）

《BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShift（批归一化）》

论文链接：https://arxiv.org/abs/1502.03167（14384次引用）

批归一化（Batchnormalization）是如今几乎所有神经网络的主流趋势。批归一基于另外一个简单但是很棒的想法：在训练过程中保持均值和方差统计，借此将activation的范围变换为零均值和单位方差。

关于批归一化效果的确切原因还未有定论，但从实践上说确实有效的。

年度荣誉提名：

1、《层归一化（LayerNormalization）》

论文链接：https://arxiv.org/abs/1607.06450

2、《实例归一化（InstanceNormalization）》

论文链接：https://arxiv.org/abs/1607.08022

3、《组归一化（GroupNormalization）》

论文链接：https://arxiv.org/abs/1803.08494

2016年：攻陷最复杂的游戏——AlphaGo

登上Nature的AlphaGo论文《MasteringthegameofGowithdeepneuralnetworksandtreesearch》

论文链接：https://www.nature.com/articles/nature16961（被引用量6310）

很多人对于现代AI的理解始于DeepMind的围棋程序AlphaGo。AlphaGo研究项目始于2014年，目的是为了测试一个使用深度学习的神经网络如何在Go上竞争。

AlphaGo比以前的Go程序有了显着的改进，在与其他可用围棋程序（包括CrazyStone和Zen）的500场比赛中，在单台计算机上运行的AlphaGo赢得了除一个之外的所有胜利，而运行在多台计算机上的AlphaGo赢得了与其他Go程序对战的所有500场比赛，在与单台计算机上运行的AlphaGo比赛中赢下了77％的对阵。2015年10月的分布式版本使用了1,202个CPU和176个GPU，当时它以5:0的比分击败了欧洲围棋冠军樊麾（职业2段选手），轰动一时。

这是计算机围棋程序第一次在全局棋盘（19×19）且无让子的情况下击败了人类职业棋手。2016年3月，通过自我对弈进行练习的加强版AlphaGo在比赛中以4:1击败了世界围棋冠军李世石，成为第一个在无让子情况下击败围棋职业九段棋手的计算机程序，载入史册。赛后，AlphaGo被韩国棋院授予名誉职业九段的称号。

年度荣誉提名：

1、DeepMind的另一篇AlphaGoNature论文《MasteringthegameofGowithouthumanknowledge》

论文链接：https://www.nature.com/articles/nature24270

作为AlphaGo的后继版本，2017年10月，DeepMind发布最新强化版的AlphaGoZero，这是一个无需用到人类专业棋谱的版本，比之前的版本都强大。通过自我对弈，AlphaGoZero经过三天的学习就超越了AlphaGoLee版本的水平，21天后达到AlphaGoMaseter的实力，40天内超越之前所有版本。

2017年：几乎人人都用的Transformer

《AttentionIsAllYouNeed》

论文链接：https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf（被引用量5059）

著名的Transformer架构出现了。2017年6月，谷歌宣布又在机器翻译上更进了一步，实现了完全基于attention的Transformer机器翻译网络架构，并且还在WMT2014的多种语言对的翻译任务上超越了之前Facebook的成绩，实现了新的最佳水平。

在编码器-解码器配置中，显性序列显性转导模型（dominantsequencetransductionmodel）基于复杂的RNN或CNN。表现最佳的模型也需通过注意力机制（attentionmechanism）连接编码器和解码器。

谷歌提出了一种新型的简单网络架构——Transformer，它完全基于注意力机制，彻底放弃了循环和卷积。两项机器翻译任务的实验表明，这些模型的翻译质量更优，同时更并行，所需训练时间也大大减少。新的模型在WMT2014英语转德语的翻译任务中取得了BLEU得分28.4的成绩，领先当前现有的最佳结果（包括集成模型）超过2个BLEU分值。在WMT2014英语转法语翻译任务上，在8块GPU上训练了3.5天之后，新模型获得了新的单模型顶级BLEU得分41.0，只是目前文献中最佳模型训练成本的一小部分。

Transformer在其他任务上也泛化很好，把它成功应用到了有大量训练数据和有限训练数据的英语组别分析上。

《NeuralArchitectureSearchwithReinforcementLearning》

论文链接：https://openreview.net/forum?id=r1Ue8Hcxg（被引用量1186）

神经结构搜索（NAS）表示自动设计人工神经网络（ANN）的过程，人工神经网络是机器学习领域中广泛使用的模型。NAS的各种方法设计出的神经网络，其性能与手工设计的架构相当甚至更优越。可以根据搜索空间，搜索策略和性能评估策略三个方面对NAS的方法进行分类。其他方法，如《RegularizedEvolutionforImageClassifierArchitectureSearch》（即AmoebaNet）使用了进化算法。

2018年：预训练模型大热

当然是谷歌的NLP预训练模型BERT：《BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding》，这篇论文现在已经有3025次引用量了。

论文链接：https://arxiv.org/abs/1810.04805

本文介绍了一种新的语言表征模型BERT——来自Transformer的双向编码器表征。与最近的语言表征模型不同，BERT旨在基于所有层的左、右语境来预训练深度双向表征。BERT是首个在大批句子层面和token层面任务中取得当前最优性能的基于微调的表征模型，其性能超越许多使用任务特定架构的系统，刷新了11项NLP任务的当前最优性能记录。

BERT与GPT-2和ELMo的模型结构对比。

年度荣誉提名：

自BERT被提出以来，基于Transformer的语言模型呈井喷之势。这些论文尚需时间考验，还很难说哪一个最具影响力。

1、《Deepcontextualizedwordrepresentations》

论文链接：https://arxiv.org/abs/1802.05365

2、《ImprovingLanguageUnderstandingbyGenerativePre-Training》

论文链接：https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

3、《LanguageModelsareUnsupervisedMultitaskLearners》——即OpenAI在2月份推出的，参数量高达15亿的预训练模型GPT-2。

论文链接：https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

4、《Transformer-XL:AttentiveLanguageModelsBeyondaFixed-LengthContext》

以往的Transformer网络由于受到上下文长度固定的限制，学习长期以来关系的潜力有限。本文提出的新神经架构Transformer-XL可以在不引起时间混乱的前提下，可以超越固定长度去学习依赖性，同时还能解决上下文碎片化问题。

论文链接：https://arxiv.org/abs/1901.02860

5、《XLNet:GeneralizedAutoregressivePretrainingforLanguageUnderstanding》

BERT带来的影响还未平复，CMU与谷歌大脑6月份提出的XLNet在20个任务上超过了BERT的表现，并在18个任务上取得了SOTA。

论文链接：https://arxiv.org/abs/1906.08237

6、《NeuralMachineTranslationofRareWordswithSubwordUnits》

论文链接：https://arxiv.org/abs/1508.07909

2019年：深度学习的原理改进

论文《DeepDoubleDescent:WhereBiggerModelsandMoreDataHurt》，本文讨论的DoubleDescent现象与经典机器学习和现代深度学习中的流行观点背道而驰。

论文链接：https://arxiv.org/abs/1912.02292

在本文中研究者证明，各种现代深度学习任务都表现出「双重下降」现象，并且随着模型尺寸的增加，性能首先变差，然后变好。此外，他们表明双重下降不仅作为模型大小的函数出现，而且还可以作为训练时间点数量的函数。研究者通过定义一个新的复杂性度量（称为有效模型复杂性，EffectiveModelComplexity）来统一上述现象，并针对该度量推测一个广义的双重下降。此外，他们对模型复杂性的概念使其能够确定某些方案，在这些方案中，增加（甚至四倍）训练样本的数量实际上会损害测试性能。

来自MITCSAIL研究者的论文《TheLotteryTicketHypothesis:FindingSparse,TrainableNeuralNetworks》，它也获得了ICLR2019的最佳论文奖。

论文链接：https://arxiv.org/abs/1803.03635

研究者们发现，标准的神经网络剪枝技术会自然地发现子网络，这些子网络经过初始化后能够有效进行训练。基于这些结果，研究者提出了「彩票假设」（lotterytickethypothesis）：密集、随机初始化的前馈网络包含子网络（「中奖彩票」），当独立训练时，这些子网络能够在相似的迭代次数内达到与原始网络相当的测试准确率。

因为深度学习和基于梯度的神经网络出现技术突破，过去十年是人工智能高速发展的一段时期。这很大程度上是因为芯片算力的显著提高，神经网络正在变得越来越大，性能也越来越强。从计算机视觉到自然语言处理，新的方法已经大面积取代了传统的AI技术。

但是神经网络也有其缺点：它们需要大量已标注数据进行续联，无法解释自身的推断机制，难以推广到单个任务之外。不过因为深度学习的推动，AI领域快速发展，越来越多的研究者正在致力于应对这些挑战。

在未来的几年里，人们对于神经网络的理解还会不断增加。人工智能的前景还是一片光明：深度学习是AI领域里最有力的工具，它会使我们进一步接近真正的智能。

参考链接：https://leogao.dev/2019/12/31/The-Decade-of-Deep-Learning/

OK，本文到此结束，希望对大家有所帮助。

给这篇文章的作者打赏

相关文章

空山新雨后的意思是什么？

如何成为一名优秀的tester？

蹄髈