人工智能芯片面面观：国内外AI芯片研究发展现状深度剖析

如果说2016年3月份alphago与李世石的那场人机大战只在科技界和围棋界产生较大影响的话，那么2017年5月其与排名第一的世界围棋冠军柯洁的对战则将人工智能技术推向了公众视野。阿尔法狗（alphago）是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能程序，由谷歌（google）旗下deepmind公司戴密斯·哈萨比斯领衔的团队开发，其主要工作原理是“深度学习”。
其实早在2012年，深度学习技术就已经在学术界引起了广泛地讨论。在这一年的imagenet大规模视觉识别挑战赛ilsvrc中，采用5个卷积层和3个全连接层的神经网络结构alexnet，取得了top-5（15.3%）的历史最佳错误率，而第二名的成绩仅为26.2%。从此以后，就出现了层数更多、结构更为复杂的神经网络结构，如resnet、googlenet、vggnet和maskrcnn等，还有去年比较火的生成式对抗网络gan。
不论是赢得视觉识别挑战赛的alexnet，还是击败围棋冠军柯洁的alphago，它们的实现都离不开现代信息技术的核心——处理器，不论这个处理器是传统的cpu，还是gpu，还是新兴的专用加速部件nnpu（nnpu是neural network processing unit的简称）。在计算机体系结构国际顶级会议isca2016上有个关于体系结构2030的小型研讨会，名人堂成员ucsb的谢源教授就对1991年以来在isca收录的论文进行了总结，专用加速部件相关的论文收录是在2008年开始，而在2016年达到了顶峰，超过了处理器、存储器以及互联结构等三大传统领域。而在这一年，来自中国科学院计算技术研究所的陈云霁、陈天石研究员课题组提交的《一种神经网络指令集》论文，更是isca2016最高得分论文。
在具体介绍ai芯片国内外之前，看到这里有部分读者或许会产生这样的疑惑：这不都是在说神经网络和深度学习吗？那么我觉得有必要对人工智能和神经网络的概念进行阐述，特别是2017年工信部发布的《促进新一代人工智能产业发展三年行动计划（2018-2020年）》中，对发展目标的描述很容易让人觉得人工智能就是神经网络，ai芯片就是神经网络芯片。
人工智能整体核心基础能力显著增强，智能传感器技术产品实现突破，设计、代工、封测技术达到国际水平，神经网络芯片实现量产并在重点领域实现规模化应用，开源开发平台初步具备支撑产业快速发展的能力。
其实则不然。人工智能是一个很老很老的概念，而神经网络只不过是人工智能范畴的一个子集。早在1956年，被誉为“人工智能之父”的图灵奖得主约翰·麦卡锡就这样定义人工智能：创造智能机器的科学与工程。而在1959年，arthur samuel给出了人工智能的一个子领域机器学习的定义，即“计算机有能力去学习，而不是通过预先准确实现的代码”，这也是目前公认的对机器学习最早最准确的定义。而我们日常所熟知的神经网络、深度学习等都属于机器学习的范畴，都是受大脑机理启发而发展得来的。另外一个比较重要的研究领域就是脉冲神经网络，国内具有代表的单位和企业是清华大学类脑计算研究中心和上海西井科技等。
好了，现在终于可以介绍ai芯片国内外的发展现状了，当然这些都是我个人的一点观察和愚见，管窥之见权当抛砖引玉。
国外：技术寡头，优势明显
由于具有得天独厚的技术和应用优势，英伟达和谷歌几乎占据了人工智能处理领域80%的市场份额，而且在谷歌宣布其cloud tpu开放服务和英伟达推出自动驾驶处理器xavier之后，这一份额占比在2018年有望进一步扩大。其他厂商，如英特尔、特斯拉、arm、ibm以及cadence等，也在人工智能处理器领域占有一席之地。
当然，上述这些公司的专注领域却不尽相同。比如英伟达主要专注于gpu和无人驾驶领域，而谷歌则主要针对云端市场，英特尔则主要面向计算机视觉，cadence则以提供加速神经网络计算相关ip为主。如果说前述这些公司还主要偏向处理器设计等硬件领域，那么arm公司则主要偏向软件，致力于针对机器学习和人工智能提供高效算法库。
注：上述表格中所给为截止到2017年各研制单位公开可查的最新数据。
独占鳌头——英伟达
在人工智能领域，英伟达可以说是目前涉及面最广、市场份额最大的公司，旗下产品线遍布自动驾驶汽车、高性能计算、机器人、医疗保健、云计算、游戏视频等众多领域。其针对自动驾驶汽车领域的全新人工智能超级计算机xavier，用nvidia首席执行官黄仁勋的话来说就是“这是我所知道的 soc 领域非常了不起的尝试，我们长期以来一直致力于开发芯片。”
xavier 是一款完整的片上系统 (soc)，集成了被称为 volta 的全新 gpu 架构、定制 8 核 cpu 架构以及新的计算机视觉加速器。该处理器提供 20 tops（万亿次运算/秒）的高性能，而功耗仅为 20 瓦。单个 xavier 人工智能处理器包含 70 亿个晶体管，采用最前沿的 16nm finfet 加工技术进行制造，能够取代目前配置了两个移动 soc 和两个独立 gpu 的 drive px 2，而功耗仅仅是它的一小部分。
而在2018年拉斯维加斯ces展会上，nvidia又推出了三款基于xavier的人工智能处理器，包括一款专注于将增强现实（ar）技术应用于汽车的产品、一款进一步简化车内人工智能助手构建和部署的drive ix和一款对其现有自主出租车大脑——pegasus的修改，进一步扩大自己的优势。
产学研的集大成者——谷歌
如果你只是知道谷歌的alphago、无人驾驶和tpu等这些人工智能相关的产品，那么你还应该知道这些产品背后的技术大牛们：谷歌传奇芯片工程师jeff dean、谷歌云计算团队首席科学家、斯坦福大学ai实验室主管李飞飞、alphabet董事长john hennessy和谷歌杰出工程师david patterson。
时至今日，摩尔定律遇到了技术和经济上的双重瓶颈，处理器性能的增长速度越来越慢，然而社会对于计算能力的需求增速却并未减缓，甚至在移动应用、大数据、人工智能等新的应用兴起后，对于计算能力、计算功耗和计算成本等提出了新的要求。与完全依赖于通用cpu及其编程模型的传统软件编写模式不同，异构计算的整个系统包含了多种基于特定领域架构（domain-specific architecture, dsa）设计的处理单元，每一个dsa处理单元都有负责的独特领域并针对该领域做优化，当计算机系统遇到相关计算时便由相应的dsa处理器去负责。而谷歌就是异构计算的践行者，tpu就是异构计算在人工智能应用的一个很好例子。
2017年发布的第二代tpu芯片，不仅加深了人工智能在学习和推理方面的能力，而且谷歌是认真地要将它推向市场。根据谷歌的内部测试，第二代芯片针对机器学习的训练速度能比现在市场上的图形芯片（gpu）节省一半时间；第二代tpu包括了四个芯片，每秒可处理180万亿次浮点运算；如果将64个tpu组合到一起，升级为所谓的tpu pods，则可提供大约11500万亿次浮点运算能力。
计算机视觉领域的搅局者——英特尔
英特尔作为世界上最大的计算机芯片制造商，近年来一直在寻求计算机以外的市场，其中人工智能芯片争夺成为英特尔的核心战略之一。为了加强在人工智能芯片领域的实力，不仅以167亿美元收购fpga生产商altera公司，还以153亿美元收购自动驾驶技术公司mobileye，以及机器视觉公司movidius和为自动驾驶汽车芯片提供安全工具的公司yogitech，背后凸显这家在pc时代处于核心位置的巨头面向未来的积极转型。
myriad x就是英特尔子公司movidius在2017年推出的视觉处理器(vpu，vision processing unit)，这是一款低功耗的系统芯片(soc)，用于在基于视觉的设备上加速深度学习和人工智能——如无人机、智能相机和vr / ar头盔。myriad x是全球第一个配备专用神经网络计算引擎的片上系统芯片（soc），用于加速设备端的深度学习推理计算。该神经网络计算引擎是芯片上集成的硬件模块，专为高速、低功耗且不牺牲精确度地运行基于深度学习的神经网络而设计，让设备能够实时地看到、理解和响应周围环境。引入该神经计算引擎之后，myriad x架构能够为基于深度学习的神经网络推理提供1tops的计算性能。
执“能效比”之牛耳——学术界
除了工业界和厂商在人工智能领域不断推出新产品之外，学术界也在持续推进人工智能芯片新技术的发展。
比利时鲁汶大学的bert moons等在2017年顶级会议ieee isscc上面提出了能效比高达10.0tops/w的针对卷积神经网络加速的芯片envision，该芯片采用28nm fd-soi技术。该芯片包括一个16位的risc处理器核，1d-simd处理单元进行relu和pooling操作，2d-simd mac阵列处理卷积层和全连接层的操作，还有128kb的片上存储器。
韩国科学技术院kaist的dongjoo shin等人在isscc2017上提出了一个针对cnn和rnn结构可配置的加速器单元dnpu，除了包含一个risc核之外，还包括了一个针对卷积层操作的计算阵列cp和一个针对全连接层rnn-lstm操作的计算阵列frp，相比于鲁汶大学的envision，dnpu支持cnn和rnn结构，能效比高达8.1tops/w。该芯片采用了65nm cmos工艺。
相比较于鲁汶大学和韩国科学技术院都针对神经网络推理部分的计算操作来说，普渡大学的venkataramani s等人在计算机体系结构顶级会议isca2017上提出了针对大规模神经网络训练的人工智能处理器scalldeep。该论文针对深度神经网络的训练部分进行针对性优化，提出了一个可扩展服务器架构，且深入分析了深度神经网络中卷积层，采样层，全连接层等在计算密集度和访存密集度方面的不同，设计了两种处理器core架构，计算密集型的任务放在了comheavy核中，包含大量的2d乘法器和累加器部件，而对于访存密集型任务则放在了memheavy核中，包含大量spm存储器和tracker同步单元，既可以作为存储单元使用，又可以进行计算操作，包括relu，tanh等。而一个scaledeep chip则可以有不同配置下的两类处理器核组成，然后再组成计算簇。论文中所用的处理平台包括7032个处理器tile。论文作者针对深度神经网络设计了编译器，完成网络映射和代码生成，同时设计了设计空间探索的模拟器平台，可以进行性能和功耗的评估，性能则得益于时钟精确级的模拟器，功耗评估则从dc中提取模块的网表级的参数模型。该芯片仅采用了intel 14nm工艺进行了综合和性能评估，峰值能效比高达485.7gops/w。
国内：百家争鸣，各自为政
可以说，国内各个单位在人工智能处理器领域的发展和应用与国外相比依然存在很大的差距。由于我国特殊的环境和市场，国内人工智能处理器的发展呈现出百花齐放、百家争鸣的态势，这些单位的应用领域遍布股票交易、金融、商品推荐、安防、早教机器人以及无人驾驶等众多领域，催生了大量的人工智能芯片创业公司，如地平线、深鉴科技、中科寒武纪等。尽管如此，国内起步较早的中科寒武纪却并未如国外大厂一样形成市场规模，与其他厂商一样，存在着各自为政的散裂发展现状。
除了新兴创业公司，国内研究机构如北京大学、清华大学、中国科学院等在人工智能处理器领域都有深入研究；而其他公司如百度和比特大陆等，2017年也有一些成果发布。
注：上述表格中所给为截止到2017年各研制单位公开可查的最新数据。
全球ai芯片界首个独角兽——寒武纪
2017年8月，国内ai芯片初创公司寒武纪宣布已经完成1亿美元a轮融资，战略投资方可谓阵容豪华，阿里巴巴、联想、科大讯飞等企业均参与投资。而其公司也成为全球ai芯片界首个独角兽，受到国内外市场广泛关注。
寒武纪科技主要负责研发生产ai芯片，公司最主要的产品为2016年发布的寒武纪1a处理器(cambricon-1a)，是一款可以深度学习的神经网络专用处理器，面向智能手机、无人机、安防监控、可穿戴设备以及智能驾驶等各类终端设备，在运行主流智能算法时性能功耗比全面超越传统处理器。目前已经研发出1a、1h等多种型号。与此同时，寒武纪也推出了面向开发者的寒武纪人工智能软件平台 cambricon neuware，包含开发、调试和调优三大部分。
软硬件协同发展的典范——深鉴科技
深鉴科技的联合创始人韩松在不同场合曾多次提及软硬件协同设计对人工智能处理器的重要性，而其在fpga领域顶级会议fpga2017最佳论文ese硬件架构就是最好的证明。该项工作聚焦于使用 lstm 进行语音识别的场景，结合深度压缩（deep compression）、专用编译器以及 ese 专用处理器架构，在中端的 fpga 上即可取得比 pascal titan x gpu 高 3 倍的性能，并将功耗降低 3.5 倍。
在2017年10月的时候，深鉴科技推出了六款ai产品，分别是人脸检测识别模组、人脸分析解决方案、视频结构化解决方案、aristotle架构平台，深度学习sdk dnndk、双目深度视觉套件。而在人工智能芯片方面，公布了最新的芯片计划，由深鉴科技自主研发的芯片“听涛”、“观海”将于2018年第三季度面市，该芯片采用台积电28nm工艺，亚里士多德架构，峰值性能 3.7 tops/w。
对标谷歌tpu——比特大陆算丰
作为比特币独角兽的比特大陆，在2015年开始涉足人工智能领域，其在2017年发布的面向ai应用的张量处理器算丰sophon bm1680，是继谷歌tpu之后，全球又一款专门用于张量计算加速的专用芯片（asic），适用于cnn / rnn / dnn的训练和推理。
bm1680单芯片能够提供2tflops单精度加速计算能力，芯片由64 npu构成，特殊设计的npu调度引擎（scheduling engine）可以提供强大的数据吞�...

人工智能芯片面面观：国内外AI芯片研究发展现状深度剖析

VIP推荐