大数据与深度学习综述

第１１卷第６期　　　　　　　　　　　　智　能　系　统　学　报　　　　　　　　　　　　　　　Ｖｏｌ．１１ №．６
２０１６年１２月　　　　　　　　　　　ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ　　　　　　　　　　　　　Ｄｅｃ．２０１６
ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６１１０２１
网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０１１６．１５０３．００４．ｈｔｍｌ
大数据与深度学习综述
马世龙，乌尼日其其格，李小平
（北京航空航天大学软件开发环境国家重点实验室，北京１００１９１）
摘　要：大数据时代改变了基于数理统计的传统数据科学，促进了数据分析方法的创新，从机器学习和多层神经网
络演化而来的深度学习是当前大数据处理与分析的研究前沿。从机器学习到深度学习，经历了早期的符号归纳机
器学习、统计机器学习、神经网络和２０世纪末开始的数据挖掘等几十年的研究和实践，发现深度学习可以挖掘大数
据的潜在价值。本文给出大数据和深度学习的综述，特别是，给出了各种深层结构及其学习算法之间关联的图谱，
给出了深度学习在若干领域应用的知名案例。最后，展望了大数据上深度学习的发展与挑战。
关键词：大数据；机器学习；深层结构；深度学习；神经网络；人工智能；学习算法；派生树
中图分类号：ＴＰ３１１　文献标志码：Ａ　文章编号：１６７３－４７８５（２０１６）０６－０７２８－１５
中文引用格式：马世龙，乌尼日其其格，李小平．大数据与深度学习综述［Ｊ］．智能系统学报，２０１６，１１（６）：７２８－７４２．

英文引用格式：ＭＡＳｈｉｌｏｎｇ，ＷＵＮＩＲＩＱｉｑｉｇｅ，ＬＩＸｉａｏｐｉｎｇ．Ｄｅｅｐｌｅａｒｎｉｎｇｗｉｔｈｂｉｇｄａｔａ：ｓｔａｔｅｏｆｔｈｅａｒｔａｎｄｄｅｖｅｌｏｐｍｅｎｔ［Ｊ］．
ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１６，１１（６）：７２８－７４２．
Ｄｅｅｐｌｅａｒｎｉｎｇｗｉｔｈｂｉｇｄａｔａ：ｓｔａｔｅｏｆｔｈｅａｒｔａｎｄｄｅｖｅｌｏｐｍｅｎｔ
ＭＡＳｈｉｌｏｎｇ，ＷＵＮＩＲＩＱｉｑｉｇｅ，ＬＩＸｉａｏｐｉｎｇ

（ＳｔａｔｅＫｅｙＬａｂｏｒａｔｏｒｙｏｆＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＥｎｖｉｒｏｎｍｅｎｔ，ＢｅｉｈａｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１００１９１，Ｃｈｉｎａ）
Ａｂｓｔｒａｃｔ：Ａｓｔｈｅｅｒａｏｆｔｈｅｂｉｇｄａｔａａｒｒｉｖｅｓ，ｉｔｉｓａｃｃｏｍｐａｎｉｅｄｂｙｐｒｏｆｏｕｎｄｃｈａｎｇｅｓｔｏｔｒａｄｉｔｉｏｎａｌｄａｔａｓｃｉｅｎｃｅｂａｓｅｄ
ｏｎｓｔａｔｉｓｔｉｃｓ．Ｂｉｇｄａｔａａｌｓｏｐｕｓｈｅｓｉｎｎｏｖａｔｉｏｎｓｉｎｔｈｅｍｅｔｈｏｄｓｏｆｄａｔａａｎａｌｙｓｉｓ．Ｄｅｅｐｌｅａｒｎｉｎｇｔｈａｔｅｖｏｌｖｅｓｆｒｏｍｍａ⁃
ｃｈｉｎｅｌｅａｒｎｉｎｇａｎｄｍｕｌｔｉｌａｙｅｒｎｅｕｒａｌｎｅｔｗｏｒｋｓａｒｅｃｕｒｒｅｎｔｌｙｅｘｔｒｅｍｅｌｙａｃｔｉｖｅｒｅｓｅａｒｃｈａｒｅａｓ．Ｆｒｏｍｔｈｅｓｙｍｂｏｌｉｃｍａ⁃
ｃｈｉｎｅｌｅａｒｎｉｎｇａｎｄｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｌｅａｒｎｉｎｇｔｏｔｈｅａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ，ｆｏｌｌｏｗｅｄｂｙｄａｔａｍｉｎｉｎｇｉｎｔｈｅ９０ｓ，
ｔｈｉｓｈａｓｂｕｉｌｔａｓｏｌｉｄｆｏｕｎｄａｔｉｏｎｆｏｒｄｅｅｐｌｅａｒｎｉｎｇ（ＤＬ）ｔｈａｔｍａｋｅｓｉｔａｎｏｔａｂｌｅｔｏｏｌｆｏｒｄｉｓｃｏｖｅｒｉｎｇｔｈｅｐｏｔｅｎｔｉａｌｖａｌ⁃
ｕｅｂｅｈｉｎｄｂｉｇｄａｔａ．ＴｈｉｓｓｕｒｖｅｙｃｏｍｐａｃｔｌｙｓｕｍｍａｒｉｚｅｄｂｉｇｄａｔａａｎｄＤＬ，ｐｒｏｐｏｓｅｄａｇｅｎｅｒａｔｉｖｅｒｅｌａｔｉｏｎｓｈｉｐｔｒｅｅｏｆ
ｔｈｅｍａｊｏｒｄｅｅｐｎｅｔｗｏｒｋｓａｎｄｔｈｅａｌｇｏｒｉｔｈｍｓ，ｉｌｌｕｓｔｒａｔｅｄａｂｒｏａｄａｒｅａｏｆａｐｐｌｉｃａｔｉｏｎｓｂａｓｅｄｏｎＤＬ，ａｎｄｈｉｇｈｌｉｇｈｔｅｄ
ｔｈｅｃｈａｌｌｅｎｇｅｓｔｏＤＬｗｉｔｈｂｉｇｄａｔａ，ａｓｗｅｌｌａｓｉｄｅｎｔｉｆｉｅｄｆｕｔｕｒｅｔｒｅｎｄｓ．
Ｋｅｙｗｏｒｄｓ：ｂｉｇｄａｔａ；ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ；ｄｅｅｐｎｅｔｗｏｒｋ；ｄｅｅｐｌｅａｒｎｉｎｇ；ｎｅｕｒａｌｎｅｔｗｏｒｋ；ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ；
ｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍ；ｄｅｒｉｖａｔｉｏｎｔｒｅｅ
　　大数据不仅为企业带来丰厚的利润，也开启了理统计的传统数据科学，促进了新的数据分析方法
科学研究的第四范式，即数据密集型科学发现［１］
。的创新，从机器学习和多层神经网络演化而来的深
学术界和产业界对大数据的认识正逐步清晰化并形度学习是当前大数据处理和分析方法的研究前沿。
１　大数据及其挑战
成共识。大数据时代同时也改变了基于概率论和数
收稿日期：２０１６－１１－１５．大数据（ｂｉｇｄａｔａ）的概念自１９９６年由Ｊｏｈｎ

基金项目：国家自然科学基金项目（６１００３０１６，６１３００００７，６１３０５０５４）；
科技部基本科研业务费重点科技创新类项目（ＹＷＦ⁃１４⁃ Ｍａｓｈｅｙ［２］提出以来，经历了一段时间的众说纷纭，带
ＪＳＪＸＹ⁃００７）；软件开发环境国家重点实验室自主探索基金项着产业界的事实数据，不断进入学术界的研究领域，
目（ＳＫＬＳＤＥ⁃２０１２ＺＸ⁃２８，ＳＫＬＳＤＥ⁃２０１４ＺＸ⁃０６）．
通信作者：李小平．Ｅ⁃ｍａｉｌ：ｌｅｅ．ｒｅｘ＠１６３．ｃｏｍ．引领了一个时代［３］的到来。
万方数据
第６期　　　　　　　　　　　　　　　　马世龙，等：大数据与深度学习综述 · ７２９·
１．１　大数据特点和界定特点，但最早的３个Ｖ仍被视作大数据应具备的３

从２１世纪初开始，产业界开始意识到数据产生的个特征，贯穿于大数据生命周期中的各个阶段［９］，
规模和速度可能会对基础设施特别是存储设备造成压从而也形成了学术界和产业界认同趋于一致的大数
力。根据ＭａｒｔｉｎＨｉｌｂｅｒｔ的一项统计人类信息总量的
［２］
据定义，如表２所示。
研究，在２０００年，数字存储信息只占全球数据量的
［４］
表２　大数据定义
１／４，其他７５％的信息尚都存储在报纸、胶片、黑胶唱片Ｔａｂｌｅ２　Ｂｉｇｄａｔａｄｅｆｉｎｉｔｉｏｎｓ
和盒式磁带这类媒介上；但经过短短的几年时间，到了机构定义
２００７年，人类大约存储了３００ＥＢ的数据，其中只有７％需要新处理模式才能具有更强的决策力、
是存储在报纸、书籍、图片等媒介上的模拟数据，其余Ｇａｒｔｎｅｒ洞察发现力和流程优化能力的海量、
全部是数字数据。数字数据的总量以每４０个月翻一高增长率和多样化的信息资产［１０］
番的速度积累。注：ＰＢ（ＰｅｔａＢｙｔｅｓ拍字节）＝１０２４ＴＢ＝一种规模大到在获取、存储、管理、分析方面大
２５０字节，ＥＢ（ＥｘａＢｙｔｅｓ艾字节）＝１０２４ＰＢ＝２６０字节，ＺＢ麦肯锡

大超出了传统数据库软件工具能力范围的数据
（ＺｅｔｔａＢｙｔｅｓ泽字节）＝１０２４ＥＢ＝２７０字节，ＹＢ（Ｙｏｔｔａ⁃

集合，具有海量数据规模、快速数据流转、多样
数据类型和价值密度低等四大特征［１１］
Ｂｙｔｅｓ尧字节）＝１０２４ＺＢ＝２８０字节。
大数据是指利用常用软件工具捕获、管理和处
然而有了规模和速度就是大数据吗？研究人员在Ｗｉｋｉ
理数据所耗时间超过可容忍时间的数据集［１２］
不同时期对大数据的特点进行了总结。首当其冲的是
１．２　大数据存储与处理现状
２００１年，ＭＥＴＡ集团分析师ＤｏｕｇＬａｎｅｙ给出大数据的
早在２０００年，美国斯隆数字巡天项目启动，其
３Ｖ特征［５］，分别为规模性（Ｖｏｌｕｍｅ）、多样性（Ｖａｒｉｅｔｙ）
位于新墨西哥州的望远镜，在短短几周内收集到的
和高速性（Ｖｅｌｏｃｉｔｙ）。１０年后，ＩＤＣ在此基础上又提出
数据比天文学历史上总共收集的数据还要多。云平
第４个特征，即数据的价值（Ｖａｌｕｅ）［６］。２０１２年ＩＢＭ则
台ＤＯＭＯ公司从２０１０年开始做过一份有趣的统
认为大数据的第４个特征是指真实性（Ｖｅｒａｃｉｔｙ）［７－８］。
计———“ 数据从不休息” ，将不同社交网络每分钟产
后来，有人将上述所有特征合起来称为大数据的５Ｖ特
生的数据进行比较，并形象地给出了它们的数据总
征，也有人从不同的应用视角和需求出发，又提出了粘
量［１３］。据统计，某社交网络产生的评论数在
性（Ｖｉｓｃｏｓｉｔｙ）、邻近性（Ｖｉｃｉｎｉｔｙ）、模糊性（Ｖａｇｕｅ）等多
２０１０—２０１１年期间为每分钟６０余万条，而在
种不同的特征，形成了３＋ｘＶ的大数据特征［９］。这些特
２０１３—２０１５期间迅速增长为每分钟４１０余万条。
征的具体含义，如表１。
表１　大数据特征据另一个统计，２０１５年美国股市每天的成交量可高
Ｔａｂｌｅ１　Ｂｉｇｄａｔａｃｈａｒａｃｔｅｒｉｓｔｉｃｓ达７０亿股。Ｇｏｏｇｌｅ每天要处理超过２４ＰＢ的数据，
名称含义
这个数据处理量是美国国家图书馆所有纸质出版物
规模可从数百ＴＢ到数十数百ＰＢ、
所含数据量的千倍之多［１４］。由此说明，除了互联网
规模性（Ｖｏｌｕｍｅ）之外，物联网、移动终端乃至传统的产业都在迅速产
甚至到ＥＢ规模
包括各种格式和形态的数据，生大量的数据。研究人员对大数据的产生方式进行
多样性（Ｖａｒｉｅｔｙ）
如文本、图像、音频、视频了分类［１５］，并指出大数据产生方式经历了被动生
实效性（Ｖｅｌｏｃｉｔｙ）
需要在一定的时间限度下成、主动生成、自动生成３个阶段［１５］，如表３所示。
得到及时处理表３　大数据产生阶段
价值密度低，需要通过分析挖掘Ｔａｂｌｅ３　Ｂｉｇｄａｔａｇｅｎｅｒａｔｉｎｇ
价值密度（Ｖａｌｕｅ）
和利用产生商业价值
阶段方式特点
采集的数据的质量影响分析
真实性（Ｖｅｒａｃｉｔｙ）运营式系统阶段，伴随一定的运
结果的准确性１被动
营活动数据被动产生并保存
易变性（Ｖａｒｉａｂｉｌｉｔｙ）指数据流的格式变化多样用户原创内容阶段，尤其是在Ｗｅｂ２．０
粘性（Ｖｉｓｃｏｓｉｔｙ）指数据流之间的关联性是否强时代，社交网络的出现以及以智能手机、
邻近性（Ｖｉｃｉｎｉｔｙ）获取数据资源的距离２主动平板电脑为代表的新型移动设备的使
传播性（Ｖｉｒａｌｉｔｙ）数据在网络中传播的速度用率上升，爆炸式地、主动地产生ＵＧＣ
有效性（Ｖｏｌａｔｉｌｉｔｙ）数据的有效性及存储期限（ｕｓｅｒｇｅｎｅｒａｔｅｄｃｏｎｔｅｎｔ）数据
因采集手段的多样性和局限性，感知式系统阶段，随着带有处理
模糊性（Ｖａｇｕｅ）
获取的数据具有模糊性３自动功能的传感器广泛布置于社会各处，
　　随着应用的不同研究人员给出了众多的大数据源源不断地、自动地产生新的数据
万方数据
· ７３０· 智　能　系　统　学　报　　　　　　　　　　　　　　　　　　第１１卷
　　大数据产生如此之快，对存储提出更高的要求。要进行及时、有效地分析和处理，进而挖掘其中的价
产业界纷纷投入建设规模庞大的数据存储基础设值。Ｍ．Ｖｉｋｔｏｒ［１４］指出，利用大数据进行分析时，与以
施。到２０１２年为止，Ｇｏｏｇｌｅ部署在全球的数据中心往不同的是：１）要使用全生命周期数据，即不是样
就有３６个，单个数据中心的计算机节点将达到数百本而是全体；２）与精确的数据分析相比，更加关注
万个；微软在全球建设超过２０个数据中心，仅在对全量复杂多样数据的分析；３）与传统的因果关系
２００９年底前，就在芝加哥建成当时世界最大的模块分析相比，更加关注事物之间的相关关系；４）基于
化数据中心，包括２２０个集装箱，每个集装箱有机器学习的大数据分析结果将减少传统决策中的主
１８００～２５００台机器不等［１６］
。ＩＤＣ统计显示，全球观因素。
的数据储量仅在２０１１年就达到１．８ＺＢ，２０１５年全球大数据处理在一般流程上包括数据存储、数据
大数据储量达到８．６１ＺＢ，而今后１０年，用于存储数抽取与集成、数据分析、数据解释和用户等几个层
据的全球服务器总量还将增长１０倍［１７］
。次，如文献［１５］中图１所示。
大数据不仅需要如此妥善的存储和监管，更需
图１　大数据处理一般流程
Ｆｉｇ．１　Ｂａｓｉｃｆｒａｍｅｗｏｒｋｏｆｂｉｇｄａｔａｐｒｏｃｅｓｓｉｎｇ
　　其中，数据分析是整个大数据处理流程的核心。［１８］中对上述几种大数据处理形式从所处理数据

在这一层所处理的是从异构数据源抽取和集成的数的特征、典型应用以及相关经典处理系统等几个维
据，也称为分析的原始数据。根据应用的不同需求，度给出了系统而全面的总结。
可以从中取舍，利用全部或部分数据进行分析。大可以说，从大数据产生到现在的１０余年里，关于
数据的价值正是产生于此处［１５］
。大数据分析与处理的技术呈现百家争鸣、百花齐放的
大数据处理在形式上又分为三大类型，分别为状态，也取得了显著的成绩。２００３年，人类第１次破
静态数据批量处理、在线数据实时处理和图形图像译人体基因密码时，用了１０年才完成３０亿对碱基对
数据综合处理。其中，对在线数据的实时处理又可的排序，而１０年后，世界范围内的基因仪１５ｍｉｎ就可
以划分为流式数据的处理和交互数据的处理。文献以完成同样的工作。美国股市日交易量的２／３都由
万方数据
第６期　　　　　　　　　　　　　　　　马世龙，等：大数据与深度学习综述 · ７３１·
建立在数学模型和算法之上的计算机程序自动完成，位［２２］。机器学习的研究从其热衷度上大致分为３

这些程序运用海量数据，能够预测利益和降低风险。个阶段。
２００９年Ｇｏｏｇｌｅ公司一家就为美国政府贡献了５４０亿首先是２０世纪五六十年代，机器学习的萌芽时
美元的利润。大数据已经成为企业、政府、机构决策期。１９５９年，ＡｒｔｈｕｒＳａｍｕｅｌ设计了一个具有学习能
的重要源泉，基于大数据分析的应用也成为人们衣食力的下棋程序，可以通过一次次的对弈改善程序自
住行必不可少的工具。身的棋艺。该程序不仅在４年后，战胜其设计者本
１．３　大数据面临的挑战人，７年后还战胜了美国一位保持８不败战绩的冠
如果说大数据产生之初所面临的挑战主要表现军［２３］。１９５６年，ＦｒａｎｋＲｏｓｅｎｂｌａｔｔ提出了一种基于
在如何及时收集和合理存储上［２］，那么１０余年后的神经网络的数学模型—感知机，采用线性优化的方
今天，大数据所面临的更多是如何有效地分析大数法模拟人类学习的神经系统［２４］。同期，Ｗｉｄｒｏｗ提
据［１９－２０］。大数据分析是指大数据内容上的分析与出最小均方误差（ｌｅａｓｔｍｅａｎｓｑｕａｒｅ，ＬＭＳ）算法开
计算。由于大数据的众多特点，诸多传统方法如数启了对自适应元素的训练［２５］。这些探索使得机器
据挖掘不能直接应用于大数据集场景，大数据分析学习第一次成为热门研究。
面临新的挑战，包括［９，１５，１８］
：然而，１９６９年人工智能之父ＭａｒｖｉｎＭｉｎｓｋｙ指
１）传统算法主要基于内存，随着数据规模的空出单层感知机无法处理线性不可分问题，如异或
前扩大，它们的时空开销（计算复杂度）变得难于容（同或）的分类；以及基于“ 黑箱” 原理无法将模型与
忍。如何应对大批量的数据，将其装入内存并高效现实世界直接对应等问题［２６－２７］，使得机器学习的研
运行成为新的挑战。究一度进入低谷。虽然Ｗｉｄｒｏｗ和Ｗｉｎｔｅｒ提出的
２）为了支持全数据量的实时数据处理，由于有Ｍａｄａｌｉｎｅ算法通过分段线性化的思想能够解决异或
时无法永久化存储，同时数据使用环境持续变化，使的分类问题，但仍然不能彻底解决感知机所面临的
得无法掌握数据整个生命周期的特征。如何通过传挑战。但是，这一尝试却开启了研究人员基于符号
统批量算法，基于历史数据构建无偏训练集成为新归纳的机器学习和集成机器学习的探索［２７］。同时，
的挑战。２０世纪７０年代随着有限样本统计理论引入机器学
３）在大数据环境下，数据生产和采集的能力日习，涌现了基于人工神经网络（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔ⁃
益增强，这导致数据在规模增大的同时呈现出新的ｗｏｒｋ，ＡＮＮ）上的众多统计机器学习算法，最著名包
特点：属性数量大而稀疏、数据体量大而高噪声、数括支持向量机（ＳＶＭ）［２８］、高斯混合模型（ＧＭＭ）［２９］
据高维而复杂多样。如何处理高维、高噪声、稀疏数以及逻辑回归（ＬＲ）。从而机器学习在一段冷静时
据成为新的挑战。期之后第２次成为研究热点。
４）虽然机器学习善于处理非确定性的复杂问进入２０世纪８０年代后期，Ｒｕｍｅｌｈａｒｔ提出多层
题，但是对于大数据处理与分析的场景，由于大数据感知机从而解决了线性不可分的问题［３０］。但由于
的复杂多样性，机器学习在统计分析、学习目标和学数据产生速度的不断提升，多层感知机也变得对其
习效率方面遇到了新的挑战。无法适应，机器学习的算法亟待改进［２６］。与此同
大数据分析所涉及的关键技术包括深度学习、时，在神经网络领域ＰａｕｌＷｅｒｂｏｓ提出反向传播
知识计算和可视化等［１８］
。其中深度学习是一种基（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ，ＢＰ）算法使线性不可分的问题在
于机器学习、数据挖掘技术以及神经网络理论，分析复杂神经网络上也能得以解决［３１］。从此，机器学习
大数据潜在价值的过程。本文，后续将围绕深度学进入第３个阶段，即快速发展时期。在这一阶段，不
习进行综述，并最后给出这两个热门研究领域在未断涌现出更优秀的算法［３２］，推动了人工智能在语音
来的一些可能性。识别、图形图像处理以及自然语言处理方面的进展。
２　从机器学习到深度学习
但机器学习在几十年的发展中，仍有很多问题
未能解决。其中包括：ＢＰ算法随着神经网络层次的
２．１　机器学习发展历程加深，参数优化效果无法传递到前层，从而导致容易
如果说人的学习是通过观察获得某种技能的过出现局部最优解［３３］或过拟合问题［３４］；此外，由于机
程，那么机器学习就是在用计算机模仿这一过器学习在实际应用中需要手工设计特征和线性分类
程［２１］
。机器学习被认为是计算机拥有智能的根本器，它不仅依赖领域专家的知识，还需要人在学习过
途径，在人工智能发展的早期阶段占据了重要地程中参与这使得学习耗时耗力。而且，这种机器学
万方数据
· ７３２· 智　能　系　统　学　报　　　　　　　　　　　　　　　　　　第１１卷
习无法很好地处理自然数据（无标签数据），同时不Ｂｏｌｔｚｍａｎｎｍａｃｈｉｎｅ，ＤＢＭ）。ＤＢＮ是由ＧＥＨｉｎｔｏｎ于

易应用于深层的网络［３５］。然而解决这些问题，促成２００６年提出的一种串联堆叠ＲＢＭ形成的深层模
了机器学习新的分支———深度学习的研究。型［４１］。该模型在训练阶段将一层ＲＢＭ的输出作为
２．２　多层结构和深度学习另一层ＲＢＭ的输入，由此逐步训练隐藏层的高阶数
深度学习也叫无监督特征学习（ｕｎｓｕｐｅｒｖｉｓｅｄ据相关性，最后采用ＢＰ对权值进行微调。而ＤＢＭ
ｆｅａｔｕｒｅｌｅａｒｎｉｎｇ），即可以无需人为设计特征提取，特是一种特殊的ＢＭ。不同的是，除了有一个可视层
征从数据中学习而来。深度学习实质上是多层表示之外，它具有多个隐藏层，并且只有相邻隐藏层的单
学习（ｒｅｐｒｅｓｅｎｔａｔｉｏｎｌｅａｒｎｉｎｇ）方法的非线性组合。元之间才可以有连接。它们之间的对比如图３［３９］。
表示学习是指从数据中学习表示（或特征），以便在
分类和预测时提取数据中有用信息［３６］。深度学习
从原始数据开始将每层表示（或特征）逐层转换为
更高层更抽象的表示，从而发现高维数据中错综复
杂的结构［３５］。
深度学习的发展不仅源于机器学习的丰厚积
累，同时也受到统计力学的启发。１９８５年Ｄ．Ｈ．
Ａｃｋｌｅｙ等基于玻尔兹曼分布，提出了一种具有无监　　（ａ）深度置信网络　　（ｂ）深度玻尔兹曼机
督学习能力的神经网络玻尔兹曼机（Ｂｏｌｔｚｍａｎｎｍａ⁃ 图３　深度置信网络和深度玻尔兹曼机
ｃｈｉｎｅ，ＢＭ）［３７］。该模型是一种对称耦合的随机反馈Ｆｉｇ．３　ＡＤＢＮａｎｄａＤＢＭ
型二值单元神经网络，由可视单元和多个隐藏单元对于一个ＲＢＭ，如果把隐藏层的层数增加，可以
组成，用可视单元和隐单元表示随机网络与随机环得到一个ＤＢＭ；如果在靠近可视层的部分使用贝叶
境的学习模型，用权值表示单元之间的相关性。通斯信念网络（即有向图模型），而在最远离可视层的部
过该模型能够描述变量之间的相互高阶作用，但其分使用ＲＢＭ，则可以得到一个ＤＢＮ。由于ＲＢＭ的训
算法复杂，不易应用［３８］。次年Ｐ．Ｓｍｏｌｅｎｓｋｙ基于他练中采用对比散度ＣＤ算法［４２］可以快速得到训练，使
本人所提出的调和论给出了一种受限的玻尔兹曼机得深度置信网络的训练速度也大幅度提升。
模型（ＲＢＭ）。该模型将ＢＭ限定为两层网络，一个在深度学习发展的１０年中，基于上述两种网络
可视单元层和一个隐藏单元层。并且进一步限定层结构的深度学习算法不时涌现，使其成为一门广袤
内神经元之间相互独立，无连接，层间的神经元才可的学科。根据文献［４３－４５］，本文对现有深度学习
以相互连接。如图２所示［３９］。算法之间的派生关系进行梳理，形成如图４所示的
树形结构。
该图通过节点和有向边展示了不同深层结构之
间的派生关系。派生关系表示深度网络是在网络结
构或训练算法上的微调或改进。有些深度学习算法
是在原有某个深度学习算法的基础上对其网络结构
进行了调整而形成，例如堆叠自动编码器就是受ＤＢＮ
启发，将其中的ＲＢＭ替换为ＡＥ而形成，如图４中
　（ａ）一般玻尔兹曼机　　（ｂ）受限的玻尔兹曼机２００７年Ｙｏｓｈｕａ等提出的ＳＡＥ。而有些深度学习算法
图２　一般玻尔兹曼机和受限的玻尔兹曼机
则是结合了多种已有深度学习算法派生而来，例如堆
Ｆｉｇ．２　ＡｇｅｎｅｒａｌＢＭａｎｄａＲＢＭ
叠卷积自动编码器就是在卷积网络中采用了自动编
ＲＢＭ通过两层马尔可夫随机场，从训练样本得码器ＡＥ而形成，如图４中２０１１年Ｍａｓｃｉ提出的
到的隐藏层中神经元状态，并估计独立于数据的期ＳＣＡＥ。采用有向边将文中所涉及的深度学习算法相
望值。该模型由于大幅度提高了ＢＭ的学习效连接，可以形成一棵深度网络派生树。在深度学习的
率［４０］
，被众多研究人员所借鉴，从而开启了深度学整个发展过程中ＤＢＮ、ＤＢＭ、ＡＥ和ＣＮＮ构成了早期
习的研究热潮。的基础模型。后续的众多研究则是在此基础上提出
其中最为典型的深度结构包括深度置信网络或改进的新的学习模型。关于更多派生模型的详细
（ｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋ，ＤＢＮ）和深度玻尔兹曼机（ｄｅｅｐ信息如表４所示。
万方数据
第６期　　　　　　　　　　　　　　　　马世龙，等：大数据与深度学习综述 · ７３３·
图４　深层网络派生树
Ｆｉｇ．４　Ｔｈｅｄｅｒｉｖａｔｉｏｎｔｒｅｅｏｆｔｈｅｄｅｅｐｎｅｔｗｏｒｋｓ
万方数据
· ７３４· 智　能　系　统　学　报　　　　　　　　　　　　　　　　　　第１１卷
表４　深层网络及其算法
Ｔａｂｌｅ４　Ｄｅｅｐｎｅｔｗｏｒｋｓａｎｄａｌｇｏｒｉｔｈｍｓ
深度网络相关训练模型特点及存在
年份提出者
模型结构算法解决问题问题
Ｐｅｒｃｅｐｔｒｏｎ［２６］Ｍ．Ｍｉｎｓｋｙ

１９６９－－线性可分问题线性不可分问题
感知机Ｓ．Ｐａｐｅｒｔ
线性不可分问题；从
ＢＰ［３１］局部最优解问题；
１９７４Ｐ．Ｊ．Ｗｅｒｂｏｓ－链式积分法简单神经网络到复
反向传播过拟合问题
杂神经网络的推广
Ｄ．Ｈ．Ａｃｋｌｅｙ统计力学中一种能
ＢＭ［３７］
１９８５Ｇ．Ｅ．Ｈｉｎｔｏｎ多层－量模型，随机神经难于计算分布
玻尔兹曼机
Ｔ．ＪＳｅｊｎｏｗｓｋｉ网络实例
容易求得ＢＭ的概
ＲＢＭ［４０］受限２层
１９８６Ｐ．Ｓｍｏｌｅｎｓｋｙ对比散度法率分布；具有无监督效率低
玻尔兹曼机无向边
学习能力
ＣＲＢＭ［４６］
Ｈ．Ｃｈｅｎ
２００２连续受限２层ＭＣＤ；ＢＰ能够对连续数据建模参数调优困难
Ａ．Ｍｕｒｒａｙ
玻尔兹曼机
ＳＧＲＢＭ［４７］ＬｕｏＨｅｎｇ稀疏表示符合隐藏单元分组

稀疏惩罚对数
２０１０稀疏组受限ＳｈｅｎＲｕｉｍｉｎ２层生物学特征惩罚方式和依据尚
似然；ＢＰ
玻尔兹曼机ＮｉｕＣａｈｎｇｙｏｎｇ隐藏单元的损失不明确
ＲＢＭ的堆叠；以无监督
多层
ＤＢＮ［４１］
Ｇ．Ｅ．Ｈｉｎｔｏｎ贪心逐层训练学习到的参数作为有监可视层只能接收二
２００６有／无向边
深度置信网络Ｒ．Ｒ．Ｓａｌａｋｈｕｔｄｉｎｏｖ算法；ＢＰ督学习的初始值，从而值数值；优化困难
全连接
解决了ＢＰ的问题
多层ＢＭ的特殊形式；
ＤＢＭ［３９］Ｒ．Ｒ．Ｓａｌａｋｈｕｔｄｉｎｏｖ
２００６无向边ＢＰ自下而上生成结构；效率低
深度玻尔兹曼机Ｇ．Ｅ．Ｈｉｎｔｏｎ
全连接减少传播造成的误差
ＬｅｅＨｏｎｇｌａｋ采用概率最大池能够

多层
ＣＤＢＮ［４８］
ＧｒｏｓｓｅＲｏｇｅｒ贪心逐层对高维图像做全尺寸衡量，
２００９无向边优化困难
卷积深度置信网络ＲａｎｇａｎａｔｈＲａｊｅｓｈ训练算法；ＢＰ并对输入的局部变换
部分连接
ＮｇＡｎｄｒｅｗＹ具有不变性
ＳＤＢＮ［４９］Ｘ．Ｈａｌｋｉａｓ多层

混淆范数作为稀疏
２０１３稀疏深度Ｓ．Ｐａｒｉｓ有／无向边混淆范数；ＢＰ优化困难
约束的ＤＢＮ结构
置信网络Ｈ．Ｇｌｏｔｉｎ全连接
通过编码器和解
Ｄ．Ｅ．Ｒｕｍｅｌｈａｒｔ
ＡＥ［５０］
码器工作完成训练；
１９８６Ｇ．Ｅ．Ｈｉｎｔｏｎ３层贪心逐层训练算法不能用于分类
自动编码器通过损失函数最小化
Ｒ．Ｊ．Ｗｉｌｌｉａｍｓ
求出网络的参数；
无监督逐层贪心训练
隐藏层数量和神
ＤＡＥ［４１］
Ｇ．Ｅ．Ｈｉｎｔｏｎ贪心逐层算法完成对隐含层的预
２００６多层经元的数量增
深自动编码器Ｒ．Ｒ．Ｓａｌａｋｈｕｔｄｉｎｏｖ训练算法；ＢＰ训练；并通过ＢＰ微调，
多导致梯度稀释
显著降低了性能指数；
万方数据
第６期　　　　　　　　　　　　　　　　马世龙，等：大数据与深度学习综述 · ７３５·
续表４
年份提出者
将ＤＢＮ中的ＲＢＭ替换
Ｂ．Ｙｏｓｈｕａ
多层为ＡＥ后的生成模型；通过
ＳＡＥ［５１］Ｌ．Ｐａｓｃａｌ梯度下降
２００７有／无向边将第一层的贝努力分布的输同上
堆叠自动编码器Ｐ．Ｄａｎ算法；ＢＰ
全连接入改为高斯分布，扩展成可
ＨｕｇｏＬａｒｏｃｈｅｌｌｅ
输入任意值进行训练
Ｍ．Ｒａｎｚａｔｏ，
ＳＡＥ［５２］降维，学习稀疏
２００７Ｙ．Ｂｏｕｒｅａｕ３层梯度下降算法；ＢＰ同上
稀疏自动编码器的特征表达
Ｙ．Ｌｅｃｕｎ
Ｐ．Ｖｉｎｃｅｎｔ在破损数据的基础
ｄＡＥ［５３］
Ｈ．Ｌａｒｏｃｈｅｌｌｅ上训练；使训练得到的
２００８３层梯度下降算法；ＢＰ同上
降噪自动编码器Ｙ．Ｂｅｎｇｉｏ权重噪声较小，
Ａ．Ｍａｎｚａｇｏｌ从而提高鲁棒性
Ｐ．Ｖｉｎｃｅｎｔ
ＳＤＡＥ［５４］将多个ｄＡＥ堆叠起来
Ｈ．Ｌａｒｏｃｈｅｌｌｅ梯度下降
２０１０堆叠消噪多层形成深度网络结构，同上
Ｉ．Ｌａｊｏｉｅ算法；ＢＰ
自动编码器用来提取特征表达
Ｙ．Ｂｅｎｇｉｏ等
ＳＳＡＥ［５５］ＪｉａｎｇＸｉａｏｊｕａｎ在ＳＡＥ的损失函
梯度下降
２０１３稀疏堆叠ＺｈａｎｇＹｉｎｇｈｕａ多层数上加入稀疏惩罚值形同上
算法；ＢＰ
自动编码器ＺｈａｎｇＷｅｎｓｈｅｎｇ等成的深层网络
Ｙ．Ｌｅｃｕｎ多层包含卷积层和子
ＣＮＮ［５６］
Ｌ．Ｂｏｔｔｏｕ无向边梯度下降采样层；可以接受２Ｄ要求较高计
１９９８
卷积神经网络Ｙ．Ｂｅｎｇｉｏ局部连接算法；ＢＰ结构的输入；具有较强算能力的资源
Ｐ．Ｈａｆｆｎｅｒ共享权值的畸变鲁棒性
堆叠的ＣＡＥ结
ＳＣＡＥ［５７］ＭａｓｃｉＪｏｎａｔｈａｎ
构，每层采用没有
２０１１堆叠卷积ＭｅｉｅｒＵｅｌｉ多层梯度下降算法；ＢＰ同上
正则项的传统梯度下降
自动编码器ＤａｎＣｉｒｅşａｎ等
算法进行训练
Ａ．Ｋｒｉｚｈｅｖｓｋｙ多层ＣＮＮ的深层结构，

ＤＣＮＮ［５８］梯度下降
２０１２Ｉ．Ｓｕｔｓｋｅｖｅｒ局部连接采用纯监督学习广泛同上
深度卷积神经网络算法；ＢＰ
Ｇ．Ｈｉｎｔｏｎ共享权值应用于图像识别
时间维度上的深层结
ＳＲＮ［５９］ＢＰＴＴ；梯度长时间依
１９９０Ｊ．Ｌ．Ｅｌｍａｎ３层构；上一时刻的输出
简单循环网络下降算法赖问题
是下一时刻的输入
Ｓ．Ｅ．Ｈｉｈｉ多层的时间维度
ＲＮＮ［６０］ＢＰＴＴ；梯度梯度消失或
１９９５Ｍ．Ｑ．Ｈｃ⁃Ｊ多层上的深层结构；能
循环神经网络下降算法梯度爆炸
Ｙ．Ｂｅｎｇｉｏ够处理序列数据
通过为每一个神经元
引入ｇａｔｅ和存储单
训练复杂度
ＬＳＴＭ［６１］
Ｓ．ＨｏｃｈｒｅｉｔｅｒＢＰＴＴ；梯度元，能够解决ＲＮＮ所面临
１９９７多层较高、解码
长短是记忆Ｊ．Ｓｃｈｍｉｄｈｕｂｅｒ下降算法的梯度消失或爆炸问题
时延较高
由于具有记忆功能，能够
处理较为复杂的序列数据
万方数据
· ７３６· 智　能　系　统　学　报　　　　　　　　　　　　　　　　　　第１１卷
续表４
年份提出者
Ｋ．Ｃｈｏ
相比于ＬＳＴＭ，只设
ＧＲＵ［６２］Ｂ．ＶａｎＭｅｒｒｉｅｎｂｏｅｒＢＰＴＴ；梯度表达能力
２０１４多层置一个更新关口，运行比
关口循环单元Ｄ．Ｂａｈｄａｎａｕ下降算法相对弱
ＬＳＴＭ更快，更容易
Ｙ．Ｂｅｎｇｉｏ
Ｖ．Ｍｎｉｈ受人类的注意力
Ａｔｔｅｎｔｉｏｎ［６３］Ｎ．Ｈｅｅｓｓ机制的启发，每次处理增加了存
２０１４ — —
注意力机制Ａ．Ｇｒａｖｅｓ注意力部分的数据，储开销
Ｋ．Ｋａｖｕｋｃｕｏｇｌｕ减少任务复杂度
ＧｏｏｄｆｅｌｌｏｗＩａｎ
ＰｏｕｇｅｔａｂａｄｉｅＪｅａｎ由不同网络组成，成
ＭｉｒｚａＭｅｈｄｉ多层对出现，协同工作
ＧＡＮ［６４］
ＸｕＢｉｎｇ无向边一个网络负责生成内容，训练较难；训练
２０１４ＢＰ；ｄｒｏｐｏｕｔ
生成对抗网络ＷａｒｄｅｆａｒｌｅｙＤａｖｉｄ局部连接另一个负责对内容进行过程不稳定
ＯｚａｉｒＳｈｅｒｊｉｌ共享权值评价多以前馈网络
ＣｏｕｒｖｉｌｌｅＡａｒｏｎ和卷积网络的结合为主
ＢｅｎｇｉｏＹｏｓｈｕａ
多层ＧＡＮ基于ＣＮＮ的扩
ＤＣＧＡＮ［６５］Ａ．Ｒａｄｆｏｒｄ
无向边ＢＰ；梯度展，可以从训练数据
２０１５深度卷积Ｌ．Ｍｅｔｚ训练过程不稳定
局部连接下降算法中学习近似的分布
生成对抗网络Ｓ．Ｃｈｉｎｔａｌａ
共享权值情况
注：‘ —’ 表示尚不明确或不适用。
　　派生树有助于理解众多神经网络结构之间的关模型则属于判别模型，而像ＤＢＭ、ＧＡＮ等深度学习
系，而对应的表４则对每个深度学习算法的网络结模型既包括生成模型也包括判别模型。
构、训练算法以及解决问题或存在问题给出了简要在作者所收集信息的范围内，派生树涵盖了目
总结。两组信息合起来，能够成为该领域学习参考前主流的２０余种模型，然而研究人员实际提出的深
的一个索引。层网络模型并不仅限于此。而且，也有新的机制在
深度学习的网络结构因网络的层数、权重共享被引入到已有的深度学习模型中，例如２０１４年
性以及边的特点不同而有所不同。因此，在表４中Ｍｎｉｈ，Ｖｏｌｏｄｙｍｙｒ等受人类注意力机制的启发，提出
给出了每一种深度学习算法的网络结构特点。其了Ａｔｔｅｎｔｉｏｎ模型（也叫注意力机制）。这一新的机
中，绝大多数深度学习算法体现为空间维度上的深制，通过与ＲＮＮ或ＣＮＮ结合，降低了数据处理任务
层结构，且属于前向反馈神经网络；而以循环神经网复杂度的同时，进一步拓宽了深度学习模型的应用
络（ＲＮＮ）为代表的ＳＲＮ、ＬＳＴＭ和ＧＲＵ等深度学习领域。作者认为新的模型是对原有基础框架的扩展
算法，通过引入定向循环，具有时间维度上的深层结或改进，该树仍在不断生长。
构，从而可以处理那些输入之间有前后关联的问题。２．３　深度学习的应用案例
根据对标注数据的依赖程度，深度学习算法中派生树（图４）揭示了近几年的时间里深度学习
ＤＢＮ、ＡＥ及其派生分支体现为以无监督学习或半监算法如雨后春笋不断涌现。这些算法在计算机图像
督学习为主；ＣＮＮ、ＲＮＮ及其派生分支则以有监督识别、语音识别、自然语言处理以及信息检索等领域
学习为主。此外，根据学习函数的形式，机器学习算在不断刷新历史记录。本节根据不同应用领域对相
法又可以分为生成模型和判别模型［６６］
。表４列出关的知名案例进行简述。
的深度学习模型中，ＤＢＮ及其派生的深度学习模型１）图像识别
（如ＣＤＢＮ）属于生成模型，ＡＥ及其派生的深度学习图像识别过去依赖人工设置的特征，特别适合
万方数据
第６期　　　　　　　　　　　　　　　　马世龙，等：大数据与深度学习综述 · ７３７·
于提取低等级边界信息的ＳＩＦＴ（ｓｃａｌｅｉｎｖａｒｉａｎｔｆｅａ⁃ （比分４ ∶ １）［７２］。ＡｌｐｈａＧｏ的关键技术有深度学习、

ｔｕｒｅｔｒａｎｓｆｏｒｍ，尺度不变特征转换）或ＨＯＧ（Ｈｉｓｔｏ⁃ 强化学习和蒙特卡洛树搜索。在其有监督学习策略
ｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ，方向梯度直方图）等
［４３］
。和强化学习价值网络中采用了ＣＮＮ结构［７３］。
然而，随着小样本无法真实反映实际复杂的情况，研２）语音识别
究人员开始在大数据集上进行实验。在过去语音识别一直采用ＧＭＭ⁃ＨＭＭ模型。
２００６年，ＧＥＨｉｎｔｏｎ用一个拥有３个隐藏层，然而，２０１２年Ｇ．Ｅ．Ｈｉｎｔｏｎ等考虑了语音数据内部原
１７０多万权重的ＤＢＮ在ＭＮＩＳＴ手写特征识别的数有的结构特征以后，将传统的模型中的高斯混合模
据集上进行训练，在没有对样本进行预处理的情况型ＧＭＭ替换为ＤＢＮ进行实验，结果表明在ＴＩＭＩＴ
下，在１万左右的测试集上，错误率为１．２５％，低于核心测试集上，错误率降到２０．７％，有明显提升［７４］。
反向传播网络的最好成绩１．５％，以及支持向量机无独有偶，其他研究人员也尝试将ＧＭＭ⁃ＨＭＭ
（ＳＶＮ）的１．４％［６７］。中的ＧＭＭ替换为其他深度神经网络，也得到了良
１９９５年ＹａｎｎＬｅｃｕｎ推出ＬｅＮｅｔ⁃５系统，该系统好的效果。例如，２０１４年ＩＢＭ沃特森研究中心Ｔ．Ｎ．
通过２个卷积层、２个子采样层和２个全连接层，形Ｓａｉｎａｔｈ证实ＤＮＮ比过去的ＧＭＭ⁃ＨＭＭ提升８％～
［４３］
成典型的ＣＮＮ网络。在ＭＮＩＳＴ数据集上的实验得１５％。２０１２年ＰａｎＪｉａ提出将ＧＭＭ改为上下文
到了０．９％的错误率，２０世纪９０年代用于银行手写相关的ＤＮＮ，并对３２０ｈ的英文接线员的语音记录
支票识别［６８］
。这也是ＣＮＮ成功案例之一。和７０～７００ｈ不等的３个中文语音记录进行试验，结
２０１０年，Ａ．Ｋｒｉｚｈｅｖｓｋｙ用ＤＣＮＮ算法在ＬＳＶＲＣ⁃ 果表明错误率可降低３％［７５］。
２０１０数据集上，对１０００个不同类别的１２０万个高微软公司的语音视频检索系统（Ｍｉｃｒｏｓｏｆｔａｕｄｉｏ
分辨率图像进行分类，测试结果在ｔｏｐ１和ｔｏｐ５上的ｖｉｄｅｏｉｎｄｅｘｉｎｇｓｅｒｖｉｃｅ，ＭＡＶＩＳ）［７６］，也是在ＣＤ⁃ＤＮＮ⁃
错误率分别为３７．５％和１７．０％，刷新了当时的记录，ＨＭＭ深度模型的基础上进行开发，其在ＲＴ０３Ｓ数
而他们所采用的是具有５个卷积层、６０００万个参数据集上单词错误率从２７．４％降低到１８．５％，相当于
和６５万个神经元的深层网络［５８］
。该方法在ＩＬＳ⁃ 效果提升３３％［７７］。２０１２年，微软在天津公开演示
ＶＲＣ⁃２０１２数据集上ｔｏｐ５的测试错误率为１５．３％。了ＭＡＶＩＳ系统对现场讲演者的英文演讲，进行后台
２０１１年，在Ｇｏｏｇｌｅ的ｘＬａｂ，Ａ．Ｙ．Ｎｇ和Ｊ．Ｄｅａｎ的语音识别、英中机器翻译和中文语音合成等一系
建立了全球最大的神经网络———“ 深度神经网络” 列处理，效果流畅。
（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ，ＤＮＮ），也叫“ 谷歌大脑” ，并３）自然语言处理
进行了一个猫脸识别的实验。该实验从ＹｏｕＴｕｂｅ自然语言处理（ＮＬＰ）传统处理方法的缺陷为采
视频中取出１０００万张２００ × ２００的静态图片，让系统用浅层结构；使用线性分类器且需要人工设计大量
自动学习并判断哪些是猫的图片。实验结果表明，较好的特征进行预处理；特征在分离的任务中被串
他们所建立的深层网络及其算法，在ＩｍａｇｅＮｅｔ数据
［４３］
联导致传播误差增大。
集１万类图中效果提升１５％，２．２万类图中效果提２００３年，Ｂｅｎｇｉｏ等提出词向量（ｗｏｒｄｅｍｂｅｄｄｉｎｇ
升７０％［６９］
。而据纽约时报［７０］
，该网络是一个用或ｗｏｒｄｒｅｐｒｅｓｅｎｔａｔｉｏｎ）方法［７８］，采用神经网络构建
１６０００个ＣＰＵ并行计算平台训练内部拥有１０亿个语言模型。之后，研究人员在此基础上提出了不同
节点的机器学习模型。的词向量训练模型，包括：２００８年Ｃｏｌｌｏｂｅｒｔ，Ｒｏｎａｎ
２０１４年，ＳｕｎＹｉ等提出Ｄｅｅｐ⁃ＩＤ应用于人脸识等提出的Ｃ＆Ｗ模型用以完成自然语言处理中的词
别，在ＬＦＷ上取得９７．４５％的准确率［７１］
。同年，性标注、命名实体识别、短语识别、语义角色标注等
ＺｈｅｎｇＹｉ提出的多通道深度卷积神经网络（ｍｕｌｔｉ⁃ 任务，由其在语义角色标签的问题上进行无人工设
ｃｈａｎｎｅｌｓｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ，ＭＣ⁃ＤＣ⁃ 计特征参与的训练，错误率降至１４．３％，刷新了纪
ＮＮ）在ＢＩＤ⁃ＭＣ数据集上获得最好的准确率为录［７９］；同年，Ｍｎｉｈ和Ｈｉｎｔｏｎ提出的ＨＬＢＬ模型［８０］，
９４．６７％。将Ｂｅｎｇｉｏ的词向量方法中最后隐藏层到输出层的
２０１６年初，谷歌旗下最强大脑（ＤｅｅｐＭｉｎｄ）公司矩阵乘积替换为一个层级结构，在算法复杂度上得
推出人工智能机器人ＡｌｐｈａＧｏ，创下了围棋人工智能到显著提升；由于人类自然语言具有递归特性，即任
领域的诸多世界纪录。包括：在不让子的情况下，第何语言中的句子，事实上可以由词、短语递归组合
一次在完整的围棋竞技中击败专业选手（比分５ ∶ ０）；而成，因此，将循环神经网络（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔ⁃
在中国围棋规则下，成功挑战围棋世界冠军李世石ｗｏｒｋ，ＲＮＮ）引入ＮＬＰ成为一种趋势。从２０１０年开
万方数据
· ７３８· 智　能　系　统　学　报　　　　　　　　　　　　　　　　　　第１１卷
始，来自Ｇｏｏｇｌｅ的Ｔ．Ｍｉｋｏｌｏｖ一直从事该领域的研绩但仍处于萌芽阶段，如何处理大数据的规模所带

究，提出了ＲＮＮＬＭ（循环神经网络语言模型），在语来的大样本，高维属性和数据类型的多样性。
言模型的训练速度、准确率以及困惑度（Ｐｅｒｐｌｅｘｉｔｙ）３．２　大数据分析上的深度学习展望
上得到了改善［８１－８４］
；２０１２年由ＥｒｉｃＨ．Ｈｕａｎｇ对谷歌ＡｌｐｈａＧｏ的亮相，让更多的人关注深度学
Ｂｅｎｇｉｏ的模型进行改进，加入了语义信息，能够对一习。基于大数据分析的决策系统已成为国家“ 十三
个词有多个表示，性能高于Ｃ＆Ｗ模型［８５］
。此外，Ｔ．五” 规划中各行业计划中的建设项目。未来大数据
Ｍｉｋｏｌｏｖ还提出了Ｗｏｒｄ２Ｖｅｃ模型［８６－８７］
，并将相应的上深度学习的发展可能包括［３５］：
工具开源，成为最为典型的词向量案例。１）在计算机视觉领域，深度学习应该能够更好
４）信息检索地处理目标和行为识别这类复杂的问题，应该能够学
深度学习在信息检索上的应用主要通过提取有习更为复杂的函数关系［９０］。因此，在这个领域可以
用的语义特征进行子序列文档排序［４３，８８］。期待更多的深度结构和深度学习算法，以解决更为复
２００９年Ｒ．Ｓａｌａｋｈｕｔｄｉｎｏｖ等指出当时的信息检索杂的问题。特别是卷积网络ＣＮＮ与利用强化学习的
系统的主要问题表现在：①在词计数空间中直接计算ＲＮＮ相结合，期望能够学习人类视觉的主动性。
文档的相似性，使得在大词汇量下计算效率低；②没２）在自然语言处理方面，期待利用ＲＮＮ模型
有充分利用词汇之间的语义相似性。为此，他们从词的更多新算法，可以更好地理解自然语言中的句子
计数向量出发通过ＤＡＥ模型得到紧凑编码使之映射或整个文档，同时期待将ＧＡＮ与ＲＮＮ相结合，增强
到内存，并将相似内存地址的文档进行归类，使检索学习的鲁棒性。
的效率提高的同时，计算效率也得到了提升
［４３］
。３）虽然在语音识别和手写识别等领域已经将
纵观深度学习在人工智能不同细分领域中的应深度学习与简单推理紧密结合，但在未来，可以期待
用，在计算机视觉、语音识别和自然语言处理中成绩深度学习与复杂推理的有效结合，以期接近人工智
相对显著；在信息检索领域虽然仍有待突破，但依然能的终极目标。
不时涌现新的深度结构及其算法。４）大数据的规模之大，并不意味着训练样本数
量的充足。由于目前深度学习模型仍然需要大量标
３　大数据上深度学习展望注样本进行训练，因此，如何基于少量样本训练深度
深度学习横跨计算机科学、工程技术和统计学学习模型的研究令人期待。
等多个学科并应用于政治、金融、天文、地理以及社５）面对大数据特征所带来的环境变化应充分
会生活等广泛的领域［８９］。深度学习的优点在于模利用计算资源，进一步提高效率使之在真实的大数
型的表达能力强，能够处理具有高维稀疏特征的数据分析上走向实用。
据，而大数据所面临的挑战亟待引入深度学习的思６）目前深度学习框架在不需要人工提取特征
想、方法和技术进行及时有效地解决。如何将深度的情况下，能够实现端到端（ｅｎｄ⁃ｔｏ⁃ｅｎｄ）的学习，但
学习应用于大数据分析，发现数据背后的潜在价值人类文明发展至今积累了丰厚的先验知识，如何利
成为业界关注的热点。现存的人类知识库，将其融入现有的深度学习框架
３．１　大数据上深度学习所面临的问题将会成为重要的研究点。
尽管深度学习已经取得令人瞩目的成绩，但这
参考文献：
一研究领域尚处在初期阶段，仍然面临诸多问
题［９０－９１］：［１］ＴＯＬＬＥＫＭ，ＴＡＮＳＬＥＹＤ，ＨＥＹＡＪＧ．Ｔｈｅｆｏｕｒｔｈｐａｒａ⁃
ｄｉｇｍ：ｄａｔａ⁃ｉｎｔｅｎｓｉｖｅｓｃｉｅｎｔｉｆｉｃｄｉｓｃｏｖｅｒｙ［Ｊ］．Ｐｒｏｃｅｅｄｉｎｇｓｏｆ
１）深层结构的深度、隐藏层数和隐藏节点数如
ｔｈｅＩＥＥＥ，２０１２，９９（８）：１３３４－７．
何决定，例如，“ 谷歌大脑” 的内部神经元个数（１０
［２］ＭＡＳＨＥＹＪＲ．ＢｉｇＤａｔａａｎｄｔｈｅｎｅｘｔｗａｖｅｏｆｉｎｆｒａｓｔｒｅｓｓ
亿）相比于人类大脑的神经元个数（１５０亿）还差一
［Ｄ］Ｂｅｒｋｅｌｅｙ：ＵｎｉｖｅｒｓｉｔｙｏｆＣａｌｉｆｏｒｎｉａ，１９９７．
个数量级；
［３］ＭＡＹＥＲ⁃ＳＣＨÖＮＢＥＲＧＥＲＶ，ＣＵＫＩＥＲＫ．Ａｂｉｇｄａｔａ：ａ
２）梯度下降法如何进行改进以达到更好的局ｒｅｖｏｌｕｔｉｏｎｔｈａｔｗｉｌｌｔｒａｎｓｆｏｒｍｈｏｗｗｅｌｉｖｅ，ｗｏｒｋ，ａｎｄｔｈｉｎｋ
部极值点甚至是全局最优点；［Ｍ］．Ｂｏｓｔｏｎ：ＥａｍｏｎＤｏｌａｎ，２０１３．
３）如何评价深度学习获得的特征是优是劣，以［４］ＨＩＬＢＥＲＴＭ，ＬÓＰＥＺＰ．Ｔｈｅｗｏｒｌｄ＇ｓｔｅｃｈｎｏｌｏｇｉｃａｌｃａｐａｃｉｔｙ
及如何解释所学到的特征；ｔｏｓｔｏｒｅ，ｃｏｍｍｕｎｉｃａｔｅ，ａｎｄｃｏｍｐｕｔｅｉｎｆｏｒｍａｔｉｏｎ［Ｊ］．Ｓｃｉ⁃
４）深度学习在大规模网络中取得了一定的成ｅｎｃｅ，２０１１，３３２（６０２５）：６０－６５．
万方数据
第６期　　　　　　　　　　　　　　　　马世龙，等：大数据与深度学习综述 · ７３９·
［５］ＬＡＮＥＹＤ．３Ｄｄａｔａｍａｎａｇｅｍｅｎｔ：ｃｏｎｔｒｏｌｌｉｎｇｄａｔａｖｏｌｕｍｅ，ｔｉｏｎｒｅｖｉｅｗ，２０１５，３９（２）：２７２．
ｖｅｌｏｃｉｔｙ，ａｎｄｖａｒｉｅｔｙ［Ｒ］．ＭＥＴＡＧｒｏｕｐＲｅｓｅａｒｃｈＮｏｔｅ，［２０］ＬＡＢＲＩＮＩＤＩＳＡ，ＪＡＧＡＤＩＳＨＨＶ．Ｃｈａｌｌｅｎｇｅｓａｎｄｏｐｐｏｒｔｕ⁃
２００１．ｎｉｔｉｅｓｗｉｔｈｂｉｇｄａｔａ［Ｊ］．Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｖｌｄｂｅｎｄｏｗ⁃
［６］ＩＤＣ．ＩＩＩＳ：ｔｈｅ “ ｆｏｕｒｖｓ” ｏｆｂｉｇｄａｔａ［ＥＢ／ＯＬ］．［２０１６－１１－ｍｅｎｔ，２０１２，５（１２）：２０３２－２０３３．
１１］．ｈｔｔｐ：／／ｗｗｗ．ｃｏｍｐｕｔｅｒｗｏｒｌｄ．ｃｏｍ．ａｕ／ａｒｔｉｃｌｅ／３９６１９８／ｉｉ⁃ ［２１］ＡＢＵ⁃ＭＯＳＴＡＦＡＹＳ，ＭＡＧＤＯＮ⁃ＩＳＭＡＩＬＭ，ＬＩＮＨＴ．
ｉｓ＿ｆｏｕｒ＿ｖｓ＿ｂｉｇ＿ｄａｔａ／．Ｌｅａｒｎｉｎｇｆｒｏｍｄａｔａ：ａｓｈｏｒｔｃｏｕｒｓｅ［Ｍ］．Ｃｈｉｃａｇｏ：Ａｍｌ⁃
［７］ＳＣＨＲＯＥＣＫＭＪ，ＳＨＯＣＫＬＥＹＲ，ＳＭＡＲＴＪ，ｅｔａｌ．Ａｎａｌｙｔ⁃ ｂｏｏｋ，２０１２．
ｉｃｓ：ｔｈｅｒｅａｌ⁃ｗｏｒｌｄｕｓｅｏｆｂｉｇｄａｔａ［Ｒ］．Ｏｘｆｏｒｄ：ＩＢＭ，２０１２．［２２］洪家荣．机器学习———回顾与展望［Ｊ］．计算机科学，
［８］ＩＢＭ．Ｔｈｅｆｏｕｒｖ′ｓｏｆｂｉｇｄａｔａ［ＥＢ／ＯＬ］．２０１４［２０１６－１１－１９９１，１８（２）：１－８．
１１］．ｈｔｔｐ：／／ｗｗｗ．ｉｂｍｂｉｇｄａｔａｈｕｂ．ｃｏｍ／ｉｎｆｏｇｒａｐｈｉｃ／ｆｏｕｒ⁃ｖｓ⁃ ＨＯＮＧＪｉａｒｏｎｇ．Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ－ｒｅｖｉｅｗａｎｄｖｉｓｉｏｎ［Ｊ］．
ｂｉｇ⁃ｄａｔａ．Ｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，１９９１，１８（２）：１－８．
［９］郭平，王可，罗阿理，等．大数据分析中的计算智能研［２３］ＳＡＭＵＥＬＡＬ．Ｓｏｍｅｓｔｕｄｉｅｓｉｎｍａｃｈｉｎｅｌｅａｒｎｉｎｇｕｓｉｎｇｔｈｅ
究现状与展望［Ｊ］．软件学报，２０１５，２６（１１）：３０１０－ｇａｍｅｏｆｃｈｅｃｋｅｒｓ．ＩＩ—ｒｅｃｅｎｔｐｒｏｇｒｅｓｓ［Ｊ］．Ａｎｎｕａｌｒｅｖｉｅｗ
３０２５．ｉｎａｕｔｏｍａｔｉｃｐｒｏｇｒａｍｍｉｎｇ，１９６９，６：１－３６．
ＧＵＯＰｉｎｇ，ＷＡＮＧＫｅ，ＬＵＯＡｌｉ，ｅｔａｌ．Ｃｏｍｐｕｔａｔｉｏｎａｌｉｎ⁃ ［２４］ＲＯＳＥＮＢＬＡＴＴＦ．Ｔｈｅｐｅｒｃｅｐｔｒｏｎ⁃ａｐｅｒｃｅｉｖｉｎｇａｎｄｒｅｃｏｇ⁃
ｔｅｌｌｉｇｅｎｃｅｆｏｒｂｉｇｄａｔａａｎａｌｙｓｉｓ：ｃｕｒｒｅｎｔｓｔａｔｕｓａｎｄｆｕｔｕｒｅｎｉｚｉｎｇａｕｔｏｍａｔｏｎ［Ｒ］．Ｉｔｈａｃａ，ＮＹ：ＣｏｒｎｅｌｌＡｅｒｏｎａｕｔｉｃａｌ
ｐｒｏｓｐｅｃｔ［Ｊ］．Ｊｏｕｒｎａｌｏｆｓｏｆｔｗａｒｅ，２０１５，２６（１１）：３０１０－Ｌａｂｏｒａｔｏｒｙ，１９５７．
３０２５．［２５］ＷＩＤＲＯＷＢ，ＬＥＨＲＭＡ．３０ｙｅａｒｓｏｆａｄａｐｔｉｖｅｎｅｕｒａｌｎｅｔ⁃
［１０］Ｇａｒｔｎｅｒ．Ｂｉｇｄａｔａ［ＥＢ／ＯＬ］．［２０１６－１１－１１］．ｈｔｔｐ：／／ｗｏｒｋｓ：ｐｅｒｃｅｐｔｒｏｎ，Ｍａｄａｌｉｎｅ，ａｎｄｂａｃｋｐｒｏｐａｇａｔｉｏｎ［Ｊ］．
ｗｗｗ．ｇａｒｔｎｅｒ．ｃｏｍ／ｉｔ⁃ｇｌｏｓｓａｒｙ／ｂｉｇ⁃ｄａｔａ／．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ，１９９０，７８（９）：１４１５－１４４２．
［１１］ＭＡＮＹＩＫＡＪ，ＣＨＵＩＭ，ＢＲＯＷＮＢ，ｅｔａｌ．Ｂｉｇｄａｔａ：ｔｈｅ［２６］ＭＩＮＳＫＹＭ，ＰＡＰＥＲＴＳＡ．Ｐｅｒｃｅｐｔｒｏｎｓ：ａｎｉｎｔｒｏｄｕｃｔｉｏｎ
ｎｅｘｔｆｒｏｎｔｉｅｒｆｏｒｉｎｎｏｖａｔｉｏｎ，ｃｏｍｐｅｔｉｔｉｏｎ，ａｎｄｐｒｏｄｕｃｔｉｖｉｔｙｔｏｃｏｍｐｕｔａｔｉｏｎａｌｇｅｏｍｅｔｒｙ，ｅｘｐａｎｄｅｄｅｄｉｔｉｏｎ［Ｍ］．Ｃａｍ⁃
［Ｒ］．Ａｎａｌｙｔｉｃｓ：ＭｃＫｉｎｓｅｙ＆Ｃｏｍｐａｎｙ，２０１１．ｂｒｉｄｇｅ，Ｍａｓｓ：ＭＩＴＰｒｅｓｓ，１９８８：４４９－４５２．
［１２］Ｗｉｋｉｐｒｄｉａ．Ｂｉｇｄａｔａ［ＥＢ／ＯＬ］．２００９．［２０１６－１１－１１］．ｈｔ⁃ ［２７］王珏，石纯一．机器学习研究［Ｊ］．广西师范大学学报：
ｔｐｓ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｂｉｇ＿ｄａｔａ．自然科学版，２００３，２１（２）：１－１５．
［１３］ＪＡＭＥＳＪ．Ｈｏｗｍｕｃｈｄａｔａｉｓｃｒｅａｔｅｄｅｖｅｒｙｍｉｎｕｔｅ？［ＥＢ／ＷＡＮＧＪｕｅ，ＳＨＩＣｈｕｎｙｉ．Ｉｎｖｅｓｔｉｇａｔｉｏｎｓｏｎｍａｃｈｉｎｅｌｅａｒｎ⁃
ＯＬ］．［２０１６－１１－１１］．ｈｔｔｐｓ：／／ｗｗｗ．ｄｏｍｏ．ｃｏｍ／ｂｌｏｇ／ｈｏｗ⁃ ｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＧｕａｎｇｘｉｎｏｒｍａｌｕｎｉｖｅｒｓｉｔｙ：ｎａｔｕｒａｌｓｃｉ⁃
ｍｕｃｈ⁃ｄａｔａ⁃ｉｓ⁃ｃｒｅａｔｅｄ⁃ｅｖｅｒｙ⁃ｍｉｎｕｔｅ／．ｅｎｃｅｅｄｉｔｉｏｎ，２００３，２１（２）：１－１５．
［１４］维克托·迈尔·舍恩伯格，周涛．大数据时代生活、工［２８］ＣＯＲＴＥＳＣ，ＶＡＰＮＩＫＶ．Ｓｕｐｐｏｒｔ⁃ｖｅｃｔｏｒｎｅｔｗｏｒｋｓ［Ｊ］．Ｍａ⁃
作与思维的大变革［Ｍ］．周涛，译．杭州：浙江人民出ｃｈｉｎｅｌｅａｒｎｉｎｇ，１９９５，２０（３）：２７３－２９７．
版社，２０１３：１３６－１３６．［２９］ＲＥＹＮＯＬＤＳＤＡ，ＲＯＳＥＲＣ，ＳＭＩＴＨＭＪＴ．Ａｍｉｘｔｕｒｅ
［１５］孟小峰，慈祥．大数据管理：概念、技术与挑战［Ｊ］．计ｍｏｄｅｌｉｎｇａｐｐｒｏａｃｈｔｏｔｅｘｔ⁃ｉｎｄｅｐｅｎｄｅｎｔｓｐｅａｋｅｒｉｄｅｎｔｉｆｉｃａ⁃
算机研究与发展，２０１３，５０（１）：１４６－１６９．ｔｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌｏｆｔｈｅａｃｏｕｓｔｉｃａｌｓｏｃｉｅｔｙｏｆａｍｅｒｉｃａ，
ＭＥＮＧＸｉａｏｆｅｎｇ，ＣＩＸｉａｎｇ．Ｂｉｇｄａｔａｍａｎａｇｅｍｅｎｔ：ｃｏｎ⁃ １９９０，８７（Ｓ１）：１０９．
ｃｅｐｔｓ，ｔｅｃｈｎｉｑｕｅｓａｎｄｃｈａｌｌｅｎｇｅｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒ［３０］ＲＵＭＥＬＨＡＲＴＤＥ，ＭＣＣＬＥＬＬＡＮＤＪＬ．Ｐａｒａｌｌｅｌｄｉｓｔｒｉｂｕ⁃
ｒｅｓｅａｒｃｈａｎｄｄｅｖｅｌｏｐｍｅｎｔ，２０１３，５０（１）：１４６－１６９．ｔｅｄｐｒｏｃｅｓｓｉｎｇ：ｅｘｐｌｏｒａｔｉｏｎｓｉｎｔｈｅｍｉｃｒｏｓｔｒｕｃｔｕｒｅｏｆｃｏｇｎｉ⁃
［１６］王意洁，孙伟东，周松，等．云计算环境下的分布存储ｔｉｏｎ：ｆｏｕｎｄａｔｉｏｎｓ［Ｍ］．Ｃａｍｂｒｉｄｇｅ，Ｍａｓｓ：ＭＩＴＰｒｅｓｓ，
关键技术［Ｊ］．软件学报，２０１２，２３（４）：９６２－９８６．１９８７．
ＷＡＮＧＹｉｊｉｅ，ＳＵＮＷｅｉｄｏｎｇ，ＺＨＯＵＳｏｎｇ，ｅｔａｌ．Ｋｅｙ［３１］ＷＥＲＢＯＳＰＪ．Ｂａｃｋｐｒｏｐａｇａｔｉｏｎｔｈｒｏｕｇｈｔｉｍｅ：ｗｈａｔｉｔｄｏｅｓ
ｔｅｃｈｎｏｌｏｇｉｅｓｏｆｄｉｓｔｒｉｂｕｔｅｄｓｔｏｒａｇｅｆｏｒｃｌｏｕｄｃｏｍｐｕｔｉｎｇ［Ｊ］．ａｎｄｈｏｗｔｏｄｏｉｔ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ，１９９０，７８
Ｊｏｕｒｎａｌｏｆｓｏｆｔｗａｒｅ，２０１２，２３（４）：９６２－９８６．（１０）：１５５０－１５６０．
［１７］ＧＡＮＴＺＪ，ＲＥＩＮＳＥＬＤ．Ｅｘｔｒａｃｔｉｎｇｖａｌｕｅｆｒｏｍｃｈａｏｓ［Ｒ］．［３２］ＷＵＸｉｎｄｏｎｇ，ＫＵＭＡＲＶ，ＱＵＩＮＬＡＮＪＲ，ｅｔａｌ．Ｔｏｐ１０
Ｉｄｃｅｍｃ２Ｒｅｐｏｒｔ，２０１１．ａｌｇｏｒｉｔｈｍｓｉｎｄａｔａｍｉｎｉｎｇ［Ｊ］．Ｋｎｏｗｌｅｄｇｅａｎｄｉｎｆｏｒｍａｔｉｏｎ
［１８］程学旗，靳小龙，王元卓，等．大数据系统和分析技术ｓｙｓｔｅｍｓ，２００８，１４（１）：１－３７．
综述［Ｊ］．软件学报，２０１４，２５（９）：１８８９－１９０８．［３３］ＧＯＲＩＭ，ＴＥＳＩＡ．ｏｎｔｈｅｐｒｏｂｌｅｍｏｆｌｏｃａｌｍｉｎｉｍａｉｎｂａｃｋ⁃
ＣＨＥＮＧＸｕｅｑｉ，ＪＩＮＸｉａｏｌｏｎｇ，ＷＡＮＧＹｕａｎｚｈｕｏ，ｅｔａｌ．ｐｒｏｐａｇａｔｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄ
Ｓｕｒｖｅｙｏｎｂｉｇｄａｔａｓｙｓｔｅｍａｎｄａｎａｌｙｔｉｃｔｅｃｈｎｏｌｏｇｙ［Ｊ］．ｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，１９９２，１４（１）：７６－８６．
Ｊｏｕｒｎａｌｏｆｓｏｆｔｗａｒｅ，２０１４，２５（９）：１８８９－１９０８．［３４］ＦＬＥＴＣＨＥＲＬ，ＫＡＴＫＯＶＮＩＫＶ，ＳＴＥＦＦＥＮＳＦＥ，ｅｔａｌ．
［１９］ＳＴＵＡＲＴＤ．Ｔｈｅｄａｔａｒｅｖｏｌｕｔｉｏｎ：ｂｉｇｄａｔａ，ｏｐｅｎｄａｔａ，ｄａｔａＯｐｔｉｍｉｚｉｎｇｔｈｅｎｕｍｂｅｒｏｆｈｉｄｄｅｎｎｏｄｅｓｏｆａｆｅｅｄｆｏｒｗａｒｄａｒ⁃
ｉｎｆｒａｓｔｒｕｃｔｕｒｅｓａｎｄｔｈｅｉｒｃｏｎｓｅｑｕｅｎｃｅｓ［Ｊ］．Ｏｎｌｉｎｅｉｎｆｏｒｍａ⁃ ｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ１９９８ＩＥＥＥＩｎ⁃
万方数据
· ７４０· 智　能　系　统　学　报　　　　　　　　　　　　　　　　　　第１１卷
ｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅＮｅｕｒａｌＮｅｔｗｏｒｋｓ．Ａｎｃｈｏｒａｇｅ，ｆｅａｔｕｒｅｌｅａｒｎｉｎｇｆｏｒａｕｄｉｏｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｃｏｎｖｏｌｕｔｉｏｎａｌ
ＡＫ：ＩＥＥＥ，１９９８，２：１６０８－１６１２．ｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓ［Ｃ］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎ
［３５］ＬＥＣＵＮＹ，ＢＥＮＧＩＯＹ，ＨＩＮＴＯＮＧ．Ｄｅｅｐｌｅａｒｎｉｎｇ［Ｊ］．ＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ２２：ＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎ
Ｎａｔｕｒｅ，２０１５，５２１（７５５３）：４３６－４４４．ＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ２００９．Ｖａｎｃｏｕｖｅｒ，ＢｒｉｔｉｓｈＣｏｌｕｍｂｉａ，
［３６］ＢＥＮＧＩＯＹ，ＣＯＵＲＶＩＬＬＥＡ，ＶＩＮＣＥＮＴＰ．ＡｃｏｕｒｖｉｌｌｅＣａｎａｄａ，２００９．
ａｎｄＰｖｉｎｃｅｎｔ，ｒｅｐｒｅｓｅｎｔａｔｉｏｎｌｅａｒｎｉｎｇ：ａｒｅｖｉｅｗａｎｄｎｅｗ［４９］ＨＡＬＫＩＡＳＸ，ＰＡＲＩＳＳ，ＧＬＯＴＩＮＨ．Ｓｐａｒｓｅｐｅｎａｌｔｙｉｎ
ｐｅｒｓｐｅｃｔｉｖｅｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓ：ｕｓｉｎｇｔｈｅｍｉｘｅｄｎｏｒｍｃｏｎｓｔｒａｉｎｔ［Ｊ］．
ｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，２０１３，３５（８）：１７９８－１８２８．Ｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，２０１３．
［３７］ＡＣＫＬＥＹＤＨ，ＨＩＮＴＯＮＧＥ，ＳＥＪＮＯＷＳＫＩＴＪ．Ａｌｅａｒｎ⁃ ［５０］ＰＯＵＧＥＴＡＢＡＤＩＥＪ，ＭＩＲＺＡＭ，ＸＵＢｉｎｇ，ｅｔａｌ．Ｇｅｎｅｒａｔｉｖｅ
ｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｂｏｌｔｚｍａｎｎｍａｃｈｉｎｅｓ［Ｊ］．Ｃｏｇｎｉｔｉｖｅｓｃｉ⁃ ａｄｖｅｒｓａｒｉａｌｎｅｔｓ［Ｊ］．Ａｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏ⁃
ｅｎｃｅ，１９８５，９（１）：１４７－１６９．ｃｅｓｓｉｎｇｓｙｓｔｅｍｓ，２０１４，３：２６７２－２６８０．
［３８］刘建伟，刘媛，罗雄麟．玻尔兹曼机研究进展［Ｊ］．计算［５１］ＹＯＳＨＵＡＢｅｎｇｉｏ，ＰＡＳＣＡＬＬａｍｂｌｉｎ，ＤＡＮＰｏｐｏｖｉｃｉ，ｅｔ
机研究与发展，２０１４，５１（１）：１－１６．ａｌ．Ｇｒｅｅｄｙｌａｙｅｒ⁃ｗｉｓｅｔｒａｉｎｉｎｇｏｆｄｅｅｐｎｅｔｗｏｒｋｓ［Ｃ］／／Ｐｒｏ⁃
ＬＩＵＪｉａｎｗｅｉ，ＬＩＵＹｕａｎ，ＬＵＯＸｉｏｎｇｌｉｎ．Ｒｅｓｅａｒｃｈａｎｄｄｅ⁃ ｃｅｅｄｉｎｇｓｏｆｔｈｅＮｉｐｓ，Ｃａｎａｄａ，２００６：１５３－１６０．
ｖｅｌｏｐｍｅｎｔｏｎｂｏｌｔｚｍａｎｎｍａｃｈｉｎｅ［Ｊ］．Ｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒ［５２］ＲＡＮＺＡＴＯＭＡ，ＢＯＵＲＥＡＵＹＬ，ＬＥＣＵＮＹ．Ｓｐａｒｓｅｆｅａ⁃
ｒｅｓｅａｒｃｈａｎｄｄｅｖｅｌｏｐｍｅｎｔ，２０１４，５１（１）：１－１６．ｔｕｒｅｌｅａｒｎｉｎｇｆｏｒｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓ［Ｊ］．Ａｄｖａｎｃｅｓｉｎ
［３９］ＳＡＬＡＫＨＵＴＤＩＮＯＶＲ，ＨＩＮＴＯＮＧ．Ｄｅｅｐｂｏｌｔｚｍａｎｎｍａ⁃ ｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ，２００７，２０：１１８５－
ｃｈｉｎｅｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２００９，５１１９２．
（２）：１９９７－２００６．［５３］ＶＩＮＣＥＮＴＰ，ＬＡＲＯＣＨＥＬＬＥＨ，ＢＥＮＧＩＯＹ，ｅｔａｌ．Ｅｘ⁃
［４０］ＳＭＯＬＥＮＳＫＹＰ．Ｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｉｎｄｙｎａｍｉｃａｌｓｙｓ⁃ ｔｒａｃｔｉｎｇａｎｄｃｏｍｐｏｓｉｎｇｒｏｂｕｓｔｆｅａｔｕｒｅｓｗｉｔｈｄｅｎｏｉｓｉｎｇａｕ⁃
ｔｅｍｓ：ｆｏｕｎｄａｔｉｏｎｓｏｆｈａｒｍｏｎｙｔｈｅｏｒｙ［Ｍ］．Ｃａｍｂｒｉｄｇｅ，ｔｏｅｎｃｏｄｅｒｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒ⁃
Ｍａｓｓ：ＭＩＴＰｒｅｓｓ，１９８６：１９４－２８１．ｅｎｃｅ，Ｆ，２００８．
［４１］ＨＩＮＴＯＮＧＥ，ＳＡＬＡＫＨＵＴＤＩＮＯＶＲＲ．Ｒｅｄｕｃｉｎｇｔｈｅｄｉ⁃ ［５４］ＶＩＮＣＥＮＴＰ，ＬＡＲＯＣＨＥＬＬＥＨ，ＬＡＪＯＩＥＩ，ｅｔａｌ．Ｓｔａｃｋｅｄ
ｍｅｎｓｉｏｎａｌｉｔｙｏｆｄａｔａｗｉｔｈｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｊ］．Ｓｃｉｅｎｃｅ，ｄｅｎｏｉｓｉｎｇａｕｔｏｅｎｃｏｄｅｒｓ：ｌｅａｒｎｉｎｇｕｓｅｆｕｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｉｎ
２００６，３１３（５７８６）：５０４－５０７．ａｄｅｅｐｎｅｔｗｏｒｋｗｉｔｈａｌｏｃａｌｄｅｎｏｉｓｉｎｇｃｒｉｔｅｒｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌ
［４２］ＨＩＮＴＯＮＧＥ．Ｔｒａｉｎｉｎｇｐｒｏｄｕｃｔｓｏｆｅｘｐｅｒｔｓｂｙｍｉｎｉｍｉｚｉｎｇｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２０１０，１１（１２）：３３７１－４０８．
ｃｏｎｔｒａｓｔｉｖｅｄｉｖｅｒｇｅｎｃｅ［Ｊ］．Ｎｅｕｒａｌｃｏｍｐｕｔａｔｉｏｎ，２００２，１４［５５］ＪＩＡＮＧＸｉａｏｊｕａｎ，ＺＨＡＮＧＹｉｎｇｈｕａ，ＺＨＡＮＧＷｅｎｓｈｅｎｇ，
（８）：１７７１－８００．ｅｔａｌ．Ａｎｏｖｅｌｓｐａｒｓｅａｕｔｏ⁃ｅｎｃｏｄｅｒｆｏｒｄｅｅｐｕｎｓｕｐｅｒｖｉｓｅｄ
［４３］张建明，詹智财，成科扬，等．深度学习的研究与发展ｌｅａｒｎｉｎｇ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＳｉｘｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒ⁃
［Ｊ］．江苏大学学报：自然科学版，２０１５，３６（２）：１９１－ｅｎｃｅｏｎＡｄｖａｎｃｅｄＣｏｍｐｕｔａｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ｈａｎｇｚｈｏｕ：
２００．ＩＥＥＥ，２０１３：２５６－２６１．
ＺＨＡＮＧＪｉａｎｍｉｎｇ，ＺＨＡＮＺｈｉｃａｉ，ＣＨＥＮＧＫｅｙａｎｇ，ｅｔａｌ．［５６］ＬＥＣＵＮＹ，ＢＯＴＴＯＵＬ，ＢＥＮＧＩＯＹ，ｅｔａｌ．Ｇｒａｄｉｅｎｔ⁃ｂａｓｅｄ
Ｒｅｖｉｅｗｏｎｄｅｖｅｌｏｐｍｅｎｔｏｆｄｅｅｐｌｅａｒｎｉｎｇ［Ｊ］．Ｊｏｕｒｎａｌｏｆｌｅａｒｎｉｎｇａｐｐｌｉｅｄｔｏｄｏｃｕｍｅｎｔｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．Ｐｒｏｃｅｅｄｉｎｇｓ
Ｊｉａｎｇｓｕｕｎｉｖｅｒｓｉｔｙ：ｎａｔｕｒａｌｓｃｉｅｎｃｅｅｄｉｔｉｏｎ，２０１５，３６（２）：ｏｆｔｈｅＩＥＥＥ，１９９８，８６（１１）：２２７８－３２４．
１９１－２００．［５７］ＷＡＮＧＷｅｉ，ＯＯＩＢＣ，ＹＡＮＧＸｉａｏｙａｎ，ｅｔａｌ．Ｅｆｆｅｃｔｉｖｅ
［４４］孙志远，鲁成祥，史忠植，等．深度学习研究与进展ｍｕｌｔｉ⁃ｍｏｄａｌｒｅｔｒｉｅｖａｌｂａｓｅｄｏｎｓｔａｃｋｅｄａｕｔｏ⁃ｅｎｃｏｄｅｒｓ［Ｊ］．
［Ｊ］．计算机科学，２０１６，４３（２）：１－８．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＶＬＤＢｅｎｄｏｗｍｅｎｔ，２０１４，７（８）：６４９－
ＳＵＮＺｈｉｙｕａｎ，ＬＵＣｈｅｎｇｘｉａｎｇ，ＳＨＩＺｈｏｎｇｚｈｉ，ｅｔａｌ．Ｒｅ⁃ ６６０．
ｓｅａｒｃｈａｎｄａｄｖａｎｃｅｓｏｎｄｅｅｐｌｅａｒｎｉｎｇ［Ｊ］．Ｃｏｍｐｕｔｅｒｓｃｉ⁃ ［５８］ＫＲＩＺＨＥＶＳＫＹＡ，ＳＵＴＳＫＥＶＥＲＩ，ＨＩＮＴＯＮＧＥ．Ｉｍａ⁃
ｅｎｃｅ，２０１６，４３（２）：１－８．ｇｅＮｅｔｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔ⁃
［４５］ＳＣＨＭＩＤＨＵＢＥＲＪ．Ｄｅｅｐｌｅａｒｎｉｎｇｉｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ：ａｎｗｏｒｋｓ［Ｊ］．Ａｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓ⁃
ｏｖｅｒｖｉｅｗ［Ｊ］．Ｎｅｕｒａｌｎｅｔｗｏｒｋｓ，２０１５，ｔｅｍｓ，２０１２，２５（２）：２０１２．
［４６］ＣＨＥＮＨ，ＭＵＲＲＡＹＡ．Ａｃｏｎｔｉｎｕｏｕｓｒｅｓｔｒｉｃｔｅｄｂｏｌｔｚｍａｎｎ［５９］ＥＬＭＡＮＪＬ．Ｆｉｎｄｉｎｇｓｔｒｕｃｔｕｒｅｉｎｔｉｍｅ［Ｊ］．Ｃｏｇｎｉｔｉｖｅｓｃｉ⁃
ｍａｃｈｉｎｅｗｉｔｈａｈａｒｄｗａｒｅ⁃ａｍｅｎａｂｌｅｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．ｅｎｃｅ，１９９０，１４（２）：１７９－２１１．
Ｌｅｃｔｕｒｅｎｏｔｅｓｉｎｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，２００２，２４１５：３５８－３６３．［６０］ＨＩＨＩＳＥ，ＨＣ⁃ＪＭＱ，ＢＥＮＧＩＯＹ．Ｈｉｅｒａｒｃｈｉｃａｌｒｅｃｕｒｒｅｎｔ
［４７］ＬＵＯＨｅｎｇ，ＳＨＥＮＲｕｉｍｉｎ，ＮＩＵＣｈａｎｇｙｏｎｇ．Ｓｐａｒｓｅｇｒｏｕｐｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｌｏｎｇ⁃ｔｅｒｍｄｅｐｅｎｄｅｎｃｉｅｓ［Ｊ］．Ａｄｖａｎｃｅｓ
ｒｅｓｔｒｉｃｔｅｄｂｏｌｔｚｍａｎｎｍａｃｈｉｎｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ，１９９５，８（４９３－９．
Ｔｗｅｎｔｙ⁃ＦｉｆｔｈＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．［６１］ＨＯＣＨＲＥＩＴＥＲＳ，ＳＣＨＭＩＤＨＵＢＥＲＪ．Ｌｏｎｇｓｈｏｒｔ⁃ｔｅｒｍ
ＳａｎＦｒａｎｃｉｓｃｏ，Ｃａｌｉｆｏｒｎｉａ，Ｕｓａ：ＡＡＡＩＰｒｅｓｓ，２０１０．ｍｅｍｏｒｙ［Ｊ］．Ｎｅｕｒａｌｃｏｍｐｕｔａｔｉｏｎ，１９９７，９（８）：１７３５－
［４８］ＬＥＥＨ，ＬＡＲＧＭＡＮＹ，ＰＨＡＭＰ，ｅｔａｌ．Ｕｎｓｕｐｅｒｖｉｓｅｄ１７８０．
万方数据
第６期　　　　　　　　　　　　　　　　马世龙，等：大数据与深度学习综述 · ７４１·
［６２］ＣＨＯＫ，ＭＥＲＲＩＥＮＢＯＥＲＢＶ，ＢＡＨＤＡＮＡＵＤ，ｅｔａｌ．Ｏｎｏｕｓｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ：ｗｈｙＤＮＮｓｕｒｐａｓｓｅｓＧＭＭＳｉｎａ⁃
ｔｈｅｐｒｏｐｅｒｔｉｅｓｏｆｎｅｕｒａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ：ｅｎｃｏｄｅｒ⁃ｄｅ⁃ ｃｏｕｓｔｉｃｍｏｄｅｌｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌ
ｃｏｄｅｒａｐｐｒｏａｃｈｅｓ［Ｊ］．Ｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，２０１４，ＳｙｍｐｏｓｉｕｍｏｎＣｈｉｎｅｓｅＳｐｏｋｅｎＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＩＳＣ⁃
［６３］ＭＮＩＨＶ，ＨＥＥＳＳＮ，ＧＲＡＶＥＳＡ，ｅｔａｌ．ＲｅｃｕｒｒｅｎｔｍｏｄｅｌｓＳＬＰ）．Ｋｏｗｌｏｏｎ：ＩＥＥＥ，２０１２：３０１－３０５．
ｏｆｖｉｓｕａｌａｔｔｅｎｔｉｏｎ［Ｊ］．Ｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，２０１４，３（２２０４－［７６］Ｍｉｃｒｏｓｏｆｔ．Ｍｉｃｒｏｓｏｆｔａｕｄｉｏｖｉｄｅｏｉｎｄｅｘｉｎｇｓｅｒｖｉｃｅ［ＥＢ／
１２．ＯＬ］．［２０１６－１１－１１］．ｈｔｔｐｓ：／／ｗｗｗ．ｍｉｃｒｏｓｏｆｔ．ｃｏｍ／ｅｎ⁃
［６４］ＧＯＯＤＦＥＬＬＯＷＩ，ＰＯＵＧＥＴＡＢＡＤＩＥＪ，ＭＩＲＺＡＭ，ｅｔａｌ．ｕｓ／ｒｅｓｅａｒｃｈ／ｐｒｏｊｅｃｔ／ｍａｖｉｓ／．
ＧｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌＮｅｔｓ［Ｊ］．Ａｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒ⁃ ［７７］ＳＥＩＤＥＦ，ＬＩＧａｎｇ，ＹＵＤｏｎｇ．Ｃｏｎｖｅｒｓａｔｉｏｎａｌｓｐｅｅｃｈｔｒａｎ⁃
ｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ，２０１４，２６７２－８０．ｓｃｒｉｐｔｉｏｎｕｓｉｎｇｃｏｎｔｅｘｔ⁃ｄｅｐｅｎｄｅｎｔｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ
［６５］ＲＡＤＦＯＲＤＡ，ＭＥＴＺＬ，ＣＨＩＮＴＡＬＡＳ．Ｕｎｓｕｐｅｒｖｉｓｅｄｒｅｐ⁃ ［Ｃ］／／ＩＮＴＥＲＳＰＥＥＣＨ２０１１，ＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＩｎｔｅｒｎａ⁃
ｒｅｓｅｎｔａｔｉｏｎｌｅａｒｎｉｎｇｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｇｅｎｅｒａｔｉｖｅａｄ⁃ ｔｉｏｎａｌＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎＡｓｓｏｃｉａｔｉｏｎ．Ｆｌｏｒｅｎｃｅ，Ｉｔａｌｙ，
ｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ［Ｊ］．Ｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，２０１５，２０１１．
［６６］ＸＵＥＪＨ，ＴＩＴＴＥＲＩＮＧＴＯＮＤＭ．Ｃｏｍｍｅｎｔｏｎ “ ｏｎｄｉｓ⁃ ［７８］ＭＯＲＩＮＦ，ＢＥＮＧＩＯＹ．Ｈｉｅｒａｒｃｈｉｃａｌｐｒｏｂａｂｉｌｉｓｔｉｃｎｅｕｒａｌ
ｃｒｉｍｉｎａｔｉｖｅｖｓ．ｇｅｎｅｒａｔｉｖｅｃｌａｓｓｉｆｉｅｒｓ：ａｃｏｍｐａｒｉｓｏｎｏｆｌｏ⁃ ｎｅｔｗｏｒｋｌａｎｇｕａｇｅｍｏｄｅｌ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＴｅｎｔｈＩｎ⁃
ｇｉｓｔｉｃｒｅｇｒｅｓｓｉｏｎａｎｄｎａｉｖｅＢａｙｅｓ” ［Ｊ］．ＮｅｕｒａｌｐｒｏｃｅｓｓｉｎｇｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＳｔａｔｉｓ⁃
ｌｅｔｔｅｒｓ，２００８，２（３）：１６９－８７．ｔｉｃｓ．ＳｏｃｉｅｔｙｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＳｔａｔｉｓｔｉｃｓ，２００５．
［６７］ＨＩＮＴＯＮＧＥ，ＯＳＩＮＤＥＲＯＳ，ＴＥＨＹＷ．Ａｆａｓｔｌｅａｒｎｉｎｇ［７９］ＣＯＬＬＯＢＥＲＴＲ，ＷＥＳＴＯＮＪ．Ａｕｎｉｆｉｅｄａｒｃｈｉｔｅｃｔｕｒｅｆｏｒ
ａｌｇｏｒｉｔｈｍｆｏｒｄｅｅｐｂｅｌｉｅｆｎｅｔｓ［Ｊ］．Ｎｅｕｒａｌｃｏｍｐｕｔａｔｉｏｎ，ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ：ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓｗｉｔｈ
２００６，１８（７）：１５２７－１５５４．ｍｕｌｔｉｔａｓｋｌｅａｒｎｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２５ｔｈＩｎｔｅｒｎａ⁃
［６８］ＬＥＣＵＮＹ，ＪＡＣＫＥＬＬＤ，ＢＯＴＴＯＵＬ，ｅｔａｌ．Ｌｅａｒｎｉｎｇａｌ⁃ ｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ（ＩＣＭＬ）．ＮＥＣＬａ⁃
ｇｏｒｉｔｈｍｓｆｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎ：ａｃｏｍｐａｒｉｓｏｎｏｎｈａｎｄｗｒｉｔｔｅｎｂｏｒａｔｏｒｉｅｓＡｍｅｒｉｃａ，Ｉｎｃ，２００８．
ｄｉｇｉｔｒｅｃｏｇｎｉｔｉｏｎ［Ｍ］／／ＯＨＪＨ，ＣＨＯＳ．ＮｅｕｒａｌＮｅｔｗｏｒｋｓ：［８０］ＭＮＩＨＡ，ＨＩＮＴＯＮＧ．Ａｓｃａｌａｂｌｅｈｉｅｒａｒｃｈｉｃａｌｄｉｓｔｒｉｂｕｔｅｄ
ＴｈｅＳｔａｔｉｓｔｉｃａｌＭｅｃｈａｎｉｃｓＰｅｒｓｐｅｃｔｉｖｅ．Ｓｉｎｇａｐｏｒｅ：Ｗｏｒｌｄｌａｎｇｕａｇｅｍｏｄｅｌ［Ｃ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＣｏｎｆｅｒｅｎｃｅｏｎ
Ｓｃｉｅｎｔｉｆｉｃ，１９９５．ＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ，Ｖａｎｃｏｕｖｅｒ，Ｂｒｉｔｉｓｈ
［６９］ＬＥＱＶ．Ｂｕｉｌｄｉｎｇｈｉｇｈ⁃ｌｅｖｅｌｆｅａｔｕｒｅｓｕｓｉｎｇｌａｒｇｅｓｃａｌｅｕｎ⁃ Ｃｏｌｕｍｂｉａ，Ｃａｎａｄａ，２００８．
ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２０１３ＩＥＥＥＩｎｔｅｒ⁃ ［８１］ＭＩＫＯＬＯＶＴ，ＫＯＭＢＲＩＮＫＳ， ĈＥＲＮＯＣＫǏ Ｊ，ｅｔａｌ．Ｅｘｔｅｎ⁃
ｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏ⁃ ｓｉｏｎｓｏｆｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｌａｎｇｕａｇｅｍｏｄｅｌ［Ｃ］／／
ｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．Ｖａｎｃｏｕｖｅｒ，ＢＣ：ＩＥＥＥ，２０１３：８５９５－Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２０１１ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡ⁃
８５９８．ｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．
［７０］ＮＹＴＩＭＥＳ．Ｉｎａｂｉｇｎｅｔｗｏｒｋｏｆｃｏｍｐｕｔｅｒｓｅｖｉｄｅｎｃｅｏｆｍａ⁃ Ｐｒａｇｕｅ：ＩＥＥＥ，２０１１．
ｃｈｉｎｅｌｅａｒｎｉｎｇ［ＥＢ／ＯＬ］．［２０１６－１１－１１］．ｈｔｔｐ：／／ｗｗｗ．ｎｙ⁃ ［８２］ＭＩＫＯＬＯＶＴ，ＤＥＯＲＡＳＡ，ＰＯＶＥＹＤ，ｅｔａｌ．Ｓｔｒａｔｅｇｉｅｓ
ｔｉｍｅｓ．ｃｏｍ／２０１２／０６／２６／ｔｅｃｈｎｏｌｏｇｙ／ｉｎ⁃ａ⁃ｂｉｇ⁃ｎｅｔｗｏｒｋ⁃ｏｆ⁃ ｆｏｒｔｒａｉｎｉｎｇｌａｒｇｅｓｃａｌｅｎｅｕｒａｌｎｅｔｗｏｒｋｌａｎｇｕａｇｅｍｏｄｅｌｓ
ｃｏｍｐｕｔｅｒｓ⁃ｅｖｉｄｅｎｃｅ⁃ｏｆ⁃ｍａｃｈｉｎｅ⁃ｌｅａｒｎｉｎｇ．ｈｔｍｌ？ｐａｇｅｗａｎｔｅｄ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２０１１ＩＥＥＥＷｏｒｋｓｈｏｐｏｎＡｕｔｏｍａｔｉｃ
＝ａｌｌ．ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎａｎｄＵｎｄｅｒｓｔａｎｄｉｎｇ．Ｗａｉｋｏｌｏａ，ＨＩ：
［７１］ＳＵＮＹｉ，ＷＡＮＧＸｉａｏｇａｎｇ，ＴＡＮＧＸｉａｏｏｕ．ＤｅｅｐｌｅａｒｎｉｎｇＩＥＥＥ，２０１１．
ｆａｃｅｒｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍｐｒｅｄｉｃｔｉｎｇ１０，０００ｃｌａｓｓｅｓ［Ｃ］／／［８３］ＭＩＫＯＬＯＶＴ，ＺＷＥＩＧＧ．Ｃｏｎｔｅｘｔｄｅｐｅｎｄｅｎｔｒｅｃｕｒｒｅｎｔ
Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２０１４ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｌａｎｇｕａｇｅｍｏｄｅｌ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２０１２
ａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．Ｃｏｌｕｍｂｕｓ，ＯＨ：ＩＥＥＥ，２０１４．ＩＥＥＥＳｐｏｋｅｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｙＷｏｒｋｓｈｏｐ（ＳＬＴ）．Ｍｉ⁃
［７２］ＢＢＣ．Ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ：Ｇｏｏｇｌｅ＇ｓＡｌｐｈａＧｏｂｅａｔｓＧｏａｍｉ，ＦＬ：ＩＥＥＥ，２０１２．
ｍａｓｔｅｒｌｅｅＳｅ⁃ｄｏｌ［ＥＢ／ＯＬ］．２０１６．［２０１６－１１－１１］．ｈｔ⁃ ［８４］ＭＩＫＯＬＯＶＴ，ＫＡＲＡＦＩ􀆓ＴＭ，ＢＵＲＧＥＴＬ，ｅｔａｌ．Ｒｅｃｕｒ⁃
ｔｐ：／／ｗｗｗ．ｂｂｃ．ｃｏｍ／ｎｅｗｓ／ｔｅｃｈｎｏｌｏｇｙ－３５７８５８７５．ｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｂａｓｅｄｌａｎｇｕａｇｅｍｏｄｅｌ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃
［７３］ＳＩＬＶＥＲＤ，ＨＵＡＮＧＪ，ＭＡＤＤＩＳＯＮＣＪ，ｅｔａｌ．ＭａｓｔｅｒｉｎｇｉｎｇｓｏｆｔｈｅＩＮＴＥＲＳＰＥＥＣＨ２０１０，１１ｔｈＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅ
ｔｈｅｇａｍｅｏｆｇｏｗｉｔｈｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓａｎｄｔｒｅｅｓｅａｒｃｈＩｎｔｅｒｎａｔｉｏｎａｌＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎＡｓｓｏｃｉａｔｉｏｎ．Ｍａｋｕ⁃
［Ｊ］．Ｎａｔｕｒｅ，２０１６，５２９（７５８７）：４８４－４８９．ｈａｒｉ，Ｃｈｉｂａ，Ｊａｐａｎ，２０１０．
［７４］ＭＯＨＡＭＥＤＡＲ，ＤＡＨＬＧＥ，ＨＩＮＴＯＮＧ．Ａｃｏｕｓｔｉｃｍｏｄ⁃ ［８５］ＨＵＡＮＧＥＨ，ＳＯＣＨＥＲＲ，ＭＡＮＮＩＮＧＣＤ，ｅｔａｌ．Ｉｍｐｒｏ⁃
ｅｌｉｎｇｕｓｉｎｇｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｖｉｎｇｗｏｒｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｖｉａｇｌｏｂａｌｃｏｎｔｅｘｔａｎｄｍｕｌｔｉｐｌｅ
ａｕｄｉｏ，ｓｐｅｅｃｈ，ａｎｄｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ，２０１２，２０（１）：ｗｏｒｄｐｒｏｔｏｔｙｐｅｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＭｅｅｔｉｎｇｏｆｔｈｅ
１４－２２．ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：ＬｏｎｇＰａｐｅｒｓ，
［７５］ＰＡＮＪｉａ，ＬＩＵＣｏｎｇ，ＷＡＮＧＺｈｉｇｕｏ，ｅｔａｌ．ＩｎｖｅｓｔｉｇａｔｉｏｎｏｆＦ，２０１２．
ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ（ＤＮＮ）ｆｏｒｌａｒｇｅｖｏｃａｂｕｌａｒｙｃｏｎｔｉｎｕ⁃ ［８６］ＭＩＫＯＬＯＶＴ，ＣＨＥＮＫ，ＣＯＲＲＡＤＯＧ，ｅｔａｌ．Ｅｆｆｉｃｉｅｎｔｅｓ⁃
万方数据
· ７４２· 智　能　系　统　学　报　　　　　　　　　　　　　　　　　　第１１卷
ｔｉｍａｔｉｏｎｏｆｗｏｒｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｉｎｖｅｃｔｏｒｓｐａｃｅ［Ｊ］．Ｃｏｍ⁃ 作者简介：

ｐｕｔｅｒｓｃｉｅｎｃｅ，２０１３，马世龙，男，１９５３年生，教授、博士
［８７］ＢＡＥＺＡ⁃ＹＡＴＥＳＲＡ，ＲＩＢＥＩＲＯ⁃ＮＥＴＯＢ．Ｍｏｄｅｒｎｉｎｆｏｒ⁃ 生导师、中国人工智能学会常务理事、
ｍａｔｉｏｎｒｅｔｒｉｅｖａｌ：ｔｈｅｃｏｎｃｅｐｔｓａｎｄｔｅｃｈｎｏｌｏｇｙｂｅｈｉｎｄ中国人工智能学会人工智能基础专业
ｓｅａｒｃｈ［Ｍ］．２ｎｄｅｄ．ＮｅｗＹｏｒｋ：ＡｄｄｉｓｏｎＷｅｓｌｅｙ，２０１１：委员会主任。主要研究方向为海量信
２６－２８．息处理的计算模型、自动推理、软件工
［８９］ＨＡＲＲＩＮＧＴＯＮＰ．Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｉｎａｃｔｉｏｎ［Ｍ］．Ｓｈｅｌｔｅｒ程。近年来获得２０１２年度国防科技进
Ｉｓｌａｎｄ，Ｎ．Ｙ．：ＭａｎｎｉｎｇＰｕｂｌｉｃａｔｉｏｎｓＣｏ，２０１２．步二等奖等奖项，在国内外学术刊物和学术会议发表论文
［９０］郑胤，陈权崎，章毓晋．深度学习及其在目标和行为识１６０多篇。
别中的新进展［Ｊ］．中国图象图形学报，２０１４，１９（２）：
１７５－１８４．乌尼日其其格，女，１９７９年生，博士
ＺＨＥＮＧＹｉｎ，ＣＨＥＮＱｕａｎｑｉ，ＺＨＡＮＧＹｕｊｉｎ．Ｄｅｅｐｌｅａｒｎ⁃ 研究生，主要研究方向为云计算与大数
ｉｎｇａｎｄｉｔｓｎｅｗｐｒｏｇｒｅｓｓｉｎｏｂｊｅｃｔａｎｄｂｅｈａｖｉｏｒｒｅｃｏｇｎｉｔｉｏｎ据、计算机软件形式化方法。
［Ｊ］．Ｊｏｕｒｎａｌｏｆｉｍａｇｅａｎｄｇｒａｐｈｉｃｓ，２０１４，１９（２）：１７５－
１８４．
［９１］ＣＨＥＮＸｕｅｗｅｎ，ＬＩＮＸｉａｏｔｏｎｇ．Ｂｉｇｄａｔａｄｅｅｐｌｅａｒｎｉｎｇ：
李小平，男，１９７９年生，博士研究
ｃｈａｌｌｅｎｇｅｓａｎｄｐｅｒｓｐｅｃｔｉｖｅｓ［Ｊ］．ＩＥＥＥａｃｃｅｓｓ，２０１４，２：
生，主要研究方向为云计算与大数据、
５１４－５２５．
计算机软件形式化方法。
第十二届中国生物特征识别大会
２０１７ＣｈｉｎｅｓｅＣｏｎｆｅｒｅｎｃｅＯｎＢｉｏｍｅｔｒｉｃＲｅｃｏｇｎｉｔｉｏｎ
　　中国生物特征识别大会（ＣｈｉｎｅｓｅＣｏｎｆｅｒｅｎｃｅｏｎＢｉｏｍｅｔｒｉｃＲｅｃｏｇｎｉｔｉｏｎ）是由中国人工智能学会（ＣＡＡＩ）主办的
国内生物特征识别领域的学术盛会。自２０００年始，ＣＣＢＲ已经在北京、杭州、西安、广州、济南、沈阳、天津和成都
等地成功举办了１１届，有力促进了国内本领域的学术和技术发展。
第十二届中国生物特征识别大会（ＣＣＢＲ２０１７）将于２０１７年１０月２８－２９日在深圳举行，由深圳大学计算机与
软件学院和哈尔滨工业大学（深圳）计算机科学与技术学院联合承办。本届会议将汇聚国内从事生物特征识别理
论与应用研究的广大科研工作者，并邀请国际同行，共同分享我国生物特征识别研究的最新理论和技术成果，为
大家提供精彩的学术盛宴。
征文范围包括（不局限于）：
　　生物特征获取装置；步态识别；
生物特征信号质量评价与增强；其他生物特征的识别与处理；
基于生物特征的情感计算；多模态生物识别与信息融合；
人脸检测、识别与跟踪；生物特征数据库建设与合成；
指纹、掌纹、静脉识别；大规模生物特征识别系统；
虹膜识别；生物特征识别系统防伪与安全；
说话人识别；生物特征识别系统评估及应用。
笔迹（含签名）识别；
会议网站：ｈｔｔｐ：／／ｃｖ．ｓｚｕ．ｅｄｕ．ｃｎ／ｃｃｂｒ２０１７／
万方数据

大数据与深度学习综述

Uploaded by

Copyright:

Available Formats

大数据与深度学习综述

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

大数据与深度学习综述

Uploaded by

Copyright:

Available Formats

第１１卷第６期　　　　　　　　　　　　智　能　系　统　学　报　　　　　　　　　　　　　　　Ｖｏｌ．１１ №．６

２０１６年１２月　　　　　　　　　　　ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ　　　　　　　　　　　　　Ｄｅｃ．２０１６

中文引用格式：马世龙，乌尼日其其格，李小平．大数据与深度学习综述［Ｊ］．智能系统学报，２０１６，１１（６）：７２８－７４２．

ＭＡＳｈｉｌｏｎｇ，ＷＵＮＩＲＩＱｉｑｉｇｅ，ＬＩＸｉａｏｐｉｎｇ

收稿日期：２０１６－１１－１５．大数据（ｂｉｇｄａｔａ）的概念自１９９６年由Ｊｏｈｎ

１．１　大数据特点和界定特点，但最早的３个Ｖ仍被视作大数据应具备的３

２５０字节，ＥＢ（ＥｘａＢｙｔｅｓ艾字节）＝１０２４ＰＢ＝２６０字节，ＺＢ麦肯锡

（ＺｅｔｔａＢｙｔｅｓ泽字节）＝１０２４ＥＢ＝２７０字节，ＹＢ（Ｙｏｔｔａ⁃

其中，数据分析是整个大数据处理流程的核心。［１８］中对上述几种大数据处理形式从所处理数据

建立在数学模型和算法之上的计算机程序自动完成，位［２２］。机器学习的研究从其热衷度上大致分为３

习无法很好地处理自然数据（无标签数据），同时不Ｂｏｌｔｚｍａｎｎｍａｃｈｉｎｅ，ＤＢＭ）。ＤＢＮ是由ＧＥＨｉｎｔｏｎ于

Ｐｅｒｃｅｐｔｒｏｎ［２６］Ｍ．Ｍｉｎｓｋｙ

ＳＧＲＢＭ［４７］ＬｕｏＨｅｎｇ稀疏表示符合隐藏单元分组

ＬｅｅＨｏｎｇｌａｋ采用概率最大池能够

ＳＤＢＮ［４９］Ｘ．Ｈａｌｋｉａｓ多层

Ａ．Ｋｒｉｚｈｅｖｓｋｙ多层ＣＮＮ的深层结构，

于提取低等级边界信息的ＳＩＦＴ（ｓｃａｌｅｉｎｖａｒｉａｎｔｆｅａ⁃ （比分４ ∶ １）［７２］。ＡｌｐｈａＧｏ的关键技术有深度学习、

始，来自Ｇｏｏｇｌｅ的Ｔ．Ｍｉｋｏｌｏｖ一直从事该领域的研绩但仍处于萌芽阶段，如何处理大数据的规模所带

ｔｉｍａｔｉｏｎｏｆｗｏｒｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｉｎｖｅｃｔｏｒｓｐａｃｅ［Ｊ］．Ｃｏｍ⁃ 作者简介：

You might also like

大数据与深度学习综述

Uploaded by

Copyright:

Available Formats

大数据与深度学习综述

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

大数据与深度学习综述

Uploaded by

Copyright:

Available Formats

第 １１ 卷第 ６ 期 智 能 系 统 学 报 Ｖｏｌ．１１ №．６

２０１６ 年 １２ 月 ＣＡＡＩ Ｔｒａｎｓａｃｔｉｏｎｓ ｏｎ Ｉｎｔｅｌｌｉｇｅｎｔ Ｓｙｓｔｅｍｓ Ｄｅｃ． ２０１６

中文引用格式：马世龙，乌尼日其其格，李小平． 大数据与深度学习综述［ Ｊ］ ． 智能系统学报， ２０１６， １１（６） ： ７２８－７４２．

ＭＡ Ｓｈｉｌｏｎｇ， ＷＵＮＩＲＩ Ｑｉｑｉｇｅ， ＬＩ Ｘｉａｏｐｉｎｇ

收稿日期：２０１６－１１－１５． 大数 据 （ ｂｉｇ ｄａｔａ ） 的 概 念 自 １９９６ 年 由 Ｊｏｈｎ

１．１ 大数据特点和界定 特点，但最早的 ３ 个 Ｖ 仍被视作大数据应具备的 ３

２５０ 字节，ＥＢ（ＥｘａＢｙｔｅｓ 艾字节） ＝ １ ０２４ＰＢ ＝ ２６０ 字节，ＺＢ 麦肯锡

（ＺｅｔｔａＢｙｔｅｓ 泽字节） ＝ １ ０２４ ＥＢ ＝ ２７０ 字节，ＹＢ （ Ｙｏｔｔａ⁃

其中，数据分析是整个大数据处理流程的核心。 ［１８］ 中对上述几种大数据处理形式从所处理数据

建立在数学模型和算法之上的计算机程序自动完成， 位 ［２２］ 。 机器学习的研究从其热衷度上大致分为 ３

习无法很好地处理自然数据（ 无标签数据） ，同时不 Ｂｏｌｔｚｍａｎｎ ｍａｃｈｉｎｅ，ＤＢＭ） 。 ＤＢＮ 是由 ＧＥ Ｈｉｎｔｏｎ 于

Ｐｅｒｃｅｐｔｒｏｎ ［２６］ Ｍ．Ｍｉｎｓｋｙ

ＳＧＲＢＭ ［４７］ Ｌｕｏ Ｈｅｎｇ 稀疏表示符合 隐藏单元分组

Ｌｅｅ Ｈｏｎｇｌａｋ 采用概率最大池能够

ＳＤＢＮ ［４９］ Ｘ．Ｈａｌｋｉａｓ 多层

Ａ．Ｋｒｉｚｈｅｖｓｋｙ 多层 ＣＮＮ 的深层结构，

于提取低等级边界信息的 ＳＩＦＴ（ ｓｃａｌｅ ｉｎｖａｒｉａｎｔ ｆｅａ⁃ （比分 ４ ∶ １） ［７２］ 。 ＡｌｐｈａＧｏ 的关键技术有深度学习、

始，来自 Ｇｏｏｇｌｅ 的 Ｔ． Ｍｉｋｏｌｏｖ 一直从事该领域的研 绩但仍处于萌芽阶段，如何处理大数据的规模所带

ｔｉｍａｔｉｏｎ ｏｆ ｗｏｒｄ ｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ ｉｎ ｖｅｃｔｏｒ ｓｐａｃｅ［ Ｊ］ ． Ｃｏｍ⁃ 作者简介：

You might also like

第１１卷第６期　　　　　　　　　　　　智　能　系　统　学　报　　　　　　　　　　　　　　　Ｖｏｌ．１１ №．６

２０１６年１２月　　　　　　　　　　　ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ　　　　　　　　　　　　　Ｄｅｃ．２０１６

中文引用格式：马世龙，乌尼日其其格，李小平．大数据与深度学习综述［Ｊ］．智能系统学报，２０１６，１１（６）：７２８－７４２．

ＭＡＳｈｉｌｏｎｇ，ＷＵＮＩＲＩＱｉｑｉｇｅ，ＬＩＸｉａｏｐｉｎｇ

收稿日期：２０１６－１１－１５．大数据（ｂｉｇｄａｔａ）的概念自１９９６年由Ｊｏｈｎ

１．１　大数据特点和界定特点，但最早的３个Ｖ仍被视作大数据应具备的３

２５０字节，ＥＢ（ＥｘａＢｙｔｅｓ艾字节）＝１０２４ＰＢ＝２６０字节，ＺＢ麦肯锡

（ＺｅｔｔａＢｙｔｅｓ泽字节）＝１０２４ＥＢ＝２７０字节，ＹＢ（Ｙｏｔｔａ⁃

　　其中，数据分析是整个大数据处理流程的核心。［１８］中对上述几种大数据处理形式从所处理数据

建立在数学模型和算法之上的计算机程序自动完成，位［２２］。机器学习的研究从其热衷度上大致分为３

习无法很好地处理自然数据（无标签数据），同时不Ｂｏｌｔｚｍａｎｎｍａｃｈｉｎｅ，ＤＢＭ）。ＤＢＮ是由ＧＥＨｉｎｔｏｎ于

Ｐｅｒｃｅｐｔｒｏｎ［２６］Ｍ．Ｍｉｎｓｋｙ

ＳＧＲＢＭ［４７］ＬｕｏＨｅｎｇ稀疏表示符合隐藏单元分组

ＬｅｅＨｏｎｇｌａｋ采用概率最大池能够

ＳＤＢＮ［４９］Ｘ．Ｈａｌｋｉａｓ多层

Ａ．Ｋｒｉｚｈｅｖｓｋｙ多层ＣＮＮ的深层结构，

于提取低等级边界信息的ＳＩＦＴ（ｓｃａｌｅｉｎｖａｒｉａｎｔｆｅａ⁃ （比分４ ∶ １）［７２］。ＡｌｐｈａＧｏ的关键技术有深度学习、

始，来自Ｇｏｏｇｌｅ的Ｔ．Ｍｉｋｏｌｏｖ一直从事该领域的研绩但仍处于萌芽阶段，如何处理大数据的规模所带

ｔｉｍａｔｉｏｎｏｆｗｏｒｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｉｎｖｅｃｔｏｒｓｐａｃｅ［Ｊ］．Ｃｏｍ⁃ 作者简介：