【深度学习三大权威之一开讲】脸书AI研究院院长Yann LeCun：AI没有“常识”是最大挑战，非监督学习正是突破关键！

2017-06-29 18:11:55 | 来源：ithome | 投稿：伊文 | 编辑：dations

原标题：【深度学习三大权威之一开讲】脸书AI研究院院长Yann LeCun：AI没有“常识”是最大挑战，非监督学习正是突破关键！

今日（29日）脸书AI研究院院长Yann LeCun来到台湾大学以「Deep Learning and the Path to AI」为题，解析深度学习目前的发展、成果、最大的挑战，以及如何突破困境，这场众所瞩目的盛事终于在今天展开，台大是Yann LeCun来台3日公开行程中的第一站，接下来两天也将会在交通大学和成功大学演讲，早在活动开始前，3场公开演讲的报名人次已超过1,000人，大家都想来一睹国际级大师的风采。

台大也因应报名踊跃，在会前将演讲场地从原订只能容纳百人的演讲厅，改到可容纳300人以上的集思台大会议中心国际会议厅来举行，此外，还开放两间可容纳上百人的教室，现场同步直播这场演讲。

谈到AI，Yann LeCun一开场先由模式识别（Pattern Recognition）的起源说起，模式识别可追溯至1957年的Perceptron，Yann LeCun开玩笑地说，「它甚至比我还要老，」Perceptron是当时第一个能够「学习」的机器（Learning Machine），他表示，现今使用的机器学习演算法大多都是由Perceptron的概念衍生出来的。

基本上，从1950年代起，模式识别的标準模型可以视为一个3步骤的过程，首先给程式一张图，程式透过特徵萃取将图片特徵转换为多个向量，再将这些向量输入到可训练的分类器中，最后程式输出辨识结果。

不过也有一些明显的差异，Perceptron并不是程式，而是一个拥有感测器的简单型的分类机器，可以透过感测器收集权重，再将权重放入简单的模拟神经元，计算出加权总合（Weighted Sum），依照设定的阀值来分类，分为高于阀值和低于阀值两类。

他表示，其实自我学习演算法其实就是误差校正（Error correction），会藉由调整权重，来处理特徵萃取，也就是说，如果输入一张图，演算法辨识后，结果值低于预期类别的值，工程师就将输入的图增加Positive的权重，减少Negative的权重，来校正误差。

现今模式辨别有个基本且广为使用的模型，Yann LeCun指出就是深度学习，他将深度学习形容成「整个程式都是可训练的」，他解释，建置深度学习的模型不是用手动调整特徵萃取的参数来训练分类器，而是建立一群像小型瀑布般的可训练的模组。

当开发人员将原始的影像输入系统后，会先经过初步的特徵萃取器，产生代表的数值，在这一个阶段可能可以先辨识出一些基本的纹路，接下来这些纹路的组合会再被拿来辨识更具体的特徵，像是物件的形体或是类别，整过训练的过程就是不断地经过一层又一层同样的模式，每一层都是可训练的，所以我们称这个演算法为深度学习或是End to End Running。

Yann LeCun解释，深度学习的模式之所以能够运行的原因，是因为现在的影像都是自然景象加上其他物体，也就是混合型的图像，而每个物体又由不同的特徵元件所组成，会有不同的轮廓和纹路，图片的像素也是一个问题，因此，可以将影像分级成像素、边缘、轮廓、元件和物件等，初阶的特徵萃取会先侦测出影像中最基本的轮廓，像是明显的纹路和色块，下一阶的特徵萃取则是将上一层的结果组合再一起，拼成一个形体，最后再拼成一个物体。

这种分层式的组合架构（Hierarchical Compositionality）其实不只适用于影像，Yann LeCun说明，在文字、语音、动作或是任何自然的讯号都适用，这种方式是参考人脑的运作模式，大脑中的视觉中枢，也是用类似分层式的组合架构来运行，当人类看到影像后，由视网膜进入到视丘后方外侧膝状体，再到大脑中主要的视觉中枢，最后来到颞叶皮质，人类看图像也是由大脑经过多层的结构，在100毫秒内就能辨识图片。

深度学习的问题在于如何训练，在1980年代中期，误差反向传播演算法（Back Propagation Algorithm）开始流行，但其实误差反向传播演算法很早就被提出来，只是当时没有受到重视。误差反向传播演算法一开始先经过简单线性分类，再将这些结果带到非线性的线性整流函数（Rectified Linear Unit，ReLU），线性整流函数就是找到要调整参数的方向，来减少错误判断，不过现在都已经有可用的套件或是框架，像是Torch、TensorFlow或是Theano等，还有一些套件是可用来计算输出结果和预期结果之间的误差。

Yann LeCun认为，现在要撰写自我学习的演算法并不难，已经可以用3行Python就完成，不过这都还停留在监督式学习，所谓的监督式学习就是输入大量的训练样本，每一套训练样本都已经经过人工标示出原始图片和对应的预期结果，以影像处理为例，训练集由多个(X, Y)参数组成，X就是影像的像素，Y则是预设的辨识结果类别，像是车子、桌子等，之后再用大量的测试集来测试程式，若判断结果正确，不用调整，若判断有误则调整程式中的参数。

因此，Yann LeCun表示，监督式的机器学习就是功能优化（Function Optimization），资料输入和输出的关係就是透过可调整的参数来优化，藉由调整参数的方式，将结果的错误率降至最低，其中，调整参数的方式有很多种，很多人都会用梯度下降演算法（Stochastic Gradient Descent），梯度下降演算法可以找到最适合的迴归模型係数．即时地根据输入的资料动态调整模型。

身为「卷积式网路之父」的Yann LeCun也介绍了卷积式网路（Convolutional Neural Network，CNN），卷积式网路就是将输入的影像像素矩阵经过一层过滤器，挑选出特徵，再透过池化层（Pooling Layer），针对输入特徵矩阵压缩，让特徵矩阵变小，降低计算的複杂度。CNN影像和语音辨识都有很好的成效，不仅如此，还能辨识街上移动的路人、街景的物体，脸书也用CNN来辨识脸书用户上传的照片，他表示一天脸书就有10亿以上的照片，可以準确地辨识物体的类别，像是人还是狗、猫等，还能辨识照片的主题，像是婚礼或是生日派对等。

监督式学习两大问题

不过，Yann LeCun提出，监督式的机器学习有2大问题，第一是要如何建立複杂的演算法来解决複杂的问题，第二则是手动调整参数的知识和经验都是来自于每项专案，许多工程师想要处理的领域，像是影像辨识、语音辨识都需要建置不同模型，因此，监督式机器学习可以在训练过的专案上有很好的表现，但是没有训练过的资料，程式就无法辨别，简单来说，如果要程式辨识椅子，不可能训练所有椅子的特徵资料。

事实上，Yann LeCun表示现实中有种机器具备数百万的调整钮（Knob），这些调整钮就像机器学习中的参数和Perceptron的权重一样，可以用上百万的训练样本来训练模型，最后分类出上千种的类别，但是，每一个特徵的识别都必须经过数十亿次的操作，因此，可想而知，现今大家所使用的神经网路是非常複杂的，如此庞大的运作不可能在一般的CPU上执行，「我们面对的是非常大规模的优化问题。」他说。

AI系统的架构

AI系统的架构大致上可以分为感知（Perception）、触发器（Agent）和目标（Objective）3个模组，先由感知器侦测真实世界的数据，像是影像、语音等，这些数据经由触发器，会依据状态触发目标，执行相对应的程式并产生结果，其中触发器就是AI的精髓，触发器必须要负责计画、预测等智能工作，而目标则是由本能和固定的两个元件所组成，以视觉识别（Visual Identity）系统为例，经由感知收集影像数据，透过触发器触发分析情绪的程式，再判断影片中的人是开心还是不开心。

AI架构中的触发器（Agent）主要负责预测和规划，运作过程又可分为模拟器（Simulator）、执行器（Actor）、回馈器（Critic），模拟器接收到状态后，传送给执行器，执行器就会启动相对应的动作，并同时对模拟器提出要求，启动相对应的动作之后送到回馈器，经由回馈器分析要採取的动作，决定后才送往目标（Objective）执行。

AI最大局限是没有人类的「常识」

市场上AI好像无所不能，但其实，Yann LeCun个人认为，AI还是有些局限，像是机器必须会观察状态、了解很多背景知识、世界运行的定律，以及精确地判断、规划等，其中，Yann LeCun认为AI最大的局限是无法拥有人类的「常识」。

由于目前比较好的AI应用都是採用监督式学习，能够準确辨识人工标示过的物体，也有些好的成果是用强化学习（Reinforcement Learning）的方式，但是强化学习需要大量地收集资料来训练模型，Yann LeCun表示，对应到现实社会中的问题，监督式学习不足以成为「真的」AI。

他指出，人类的学习是建立在与事物互动的过程，许多都是人类自行体会、领悟出对事物的理解，不需要每件事都要教导，举例来说，若有个物体被前面的物体挡住，人类会知道后面的物体依然存在的事实，或是物体没有另一个物体支撑就会掉落的事实。

「人脑就是推测引擎！」他说明，人类靠着观察建立内部分析模型，当人类遇到一件新的事物，就能用这些既有的模型来推测，因为生活中人类接触到大量的事物和知识，而建立了「常识」。这些常识可以带领人类做出一些程式无法达到的能力，像是人类可以只看一半的脸就能想像另外一半脸，或是可以从过去的事件推测未来等。

他举例，若人类看到一张战利品放不下行李箱的图片，再看到一个句子说：「这些战利品放不下行李箱，因为它太小了。」人类能够很清楚地知道「它」指的是行李箱，人类也因为知道整个社会和世界运行的规则，当没有太多的资讯时，人类可以依照因果关係自动补足空白的资讯。

非监督式学习是突破AI困境的关键

那要如何让AI学会拥有人类的常识呢？Yann LeCun认为：「就是要用非监督式学习！」他又称之为预测学习，他将现今机器学习的方式分为强化式、监督式和非监督式学习，并以黑森林蛋糕来比喻。

增强式学习是蛋糕上不可或缺的樱桃，所需要资料量可能大约只有几个Bits，监督式学习是蛋糕外部的糖衣，需要10到10,000个Bits的资料量，而非监督学习则是需要数百万个Bits，非监督学习被他比喻为黑森林蛋糕，因为非监督学习的预测能力像拥有黑魔法一样神奇，不过，他也强调黑森林蛋糕必须搭配樱桃，樱桃不是可选择的配料，而是必要的，意味着非监督学习与增强式学习相辅相成，缺一不可。

採用非监督学习的对抗训练让AI拥有真正自我学习的能力

Yann LeCun认为，程式还是很难在不确定性的情况下，正确地预测，举例来说，如果一只直立的笔，没有支撑之后，程式可以判断出笔会倒下，但是无法预测会倒向哪一个方向。

因此，他表示，对抗训练（Adversarial Training）是可以让AI程式拥有自学能力的方法，他解释，对抗训练就是让两个网路相互博奕，由生成器（Generator）和判别器（Discriminator）组成，生成器随机地从训练集中挑选真实数据和杂讯（Random Noise），产生新的训练样本，判别器再用与真实数据比对的方式，判断出数据的真实性，如此一来，生成器与辨识器可以交互学习自动优化预测能力，创造最佳的预测模型。

tags：

相关：

韩国情院前院长被判极刑要引渡朴槿惠

保安省和中央检察院28日就“敌人针对朝鲜最高领导人进行特大型国家恐怖犯罪”一事发表联合声明,表示要对韩国前总统朴槿惠等人处以极刑,并要求引渡朴槿...人的特大型国家恐怖罪犯——朴槿惠和韩国国情院前院长李炳浩等

韩国国情院前院长被判极刑引渡朴槿惠

和讯网今天刊登了《朝鲜:判处韩国国情院前院长极刑要求引渡朴槿惠》一文,关于此事的更多报道,请在和讯财经客户端上阅读。写...朝鲜:判处韩国国情院前院长极刑要求引渡朴槿惠据朝中社28日报道,朝鲜国家保卫省、人民

西藏脱贫“瞄准”深度贫困地区 [快讯]

中新网拉萨6月28日电(记者陈韬彬赵延)西藏自治区党委书记吴英杰28日在拉萨表示，从今年始，把资金和项目向深度贫困地区和贫困村、特困群体倾斜。吴英杰是在当日举行的西藏全区深度贫困地区脱贫攻坚动员大会上作出上述

持高速便捷“绿卡”，享“深度”现代生活 [快讯]

6月26日9时10分，随着试运营启动信号的发出，12辆列车同时开动。石家庄地铁携带着一张通往现代化城市的"绿卡"，代表着科技，承载着文化，提供着便捷，催动着商机，向全市人民郑重驶来。无论是生活在石家庄的市民，还

中国佛学院毕业典礼：院长为毕业生拨穗正冠 [快讯]

丁香诗会有时尽，法海真源无绝期。一甲子之后，中国佛学院又一个新的毕业季来临。中国佛学院2017届本科生毕业典礼暨学位授予仪式现场。本文图片均为中国佛教协会图据中国佛教协会6月28日报道，6月25日上午，中国佛学

热点 / Hot

站长推荐：