编者按:5月23日英特尔在美国旧金山举办了首届AI开发者大会(AI DevCon 2018),推出新的AI云端芯片和AI战略,我们采访了英特尔AI产品部门(AIPG)副总裁、AI硬件负责人Carey Kloss,让他为我们揭开NNP芯片的真面目>>
如今,AI芯片的战火愈演愈烈,英特尔也是时候拿出自己的“深水炸弹”了,而这次天将降大任的就是最新版NNP芯片。
它的全名叫Nervana NNP-L1000(Spring Crest),支持bfloat16这一业界广泛用于神经网络的数字格式,随着时间的推移,英特尔将在AI产品线上扩展对bfloat16的支持,包括英特尔至强处理器和英特尔FPGA,英特尔Nervana NNP的目标是可实现高计算利用率并支持多芯片互连的真正模型并行。
主导这一产品的是英特尔AI产品事业部(AIPG),AIPG是英特尔人工智能的拳头部门,负责策划和执行关于AI方面的研发和产品路线,其中,Carey Kloss是AI硬件的负责人,自1996年以来,他一直在芯片行业从事工作。
这位芯片专家来自Nervana,这家公司2016年并入英特尔麾下,他们几乎撑起来了AIPG的半边天,Carey和Nervana公司的CEO Naveen Rao一同加入英特尔,目前,Naveen Rao担纲英特尔AI战略总策划师,任英特尔副总裁。
这次,关于更多新款AI云端芯片的问题,网易智能对Carey进行了专访。
性能提升3到4倍 不畏惧竞争对手
问:Lake Crest和Spring Crest的主要区别是什么?
Carey:Lake Crest是先前的设计,是更稳定的处理器。我们在创业时就开始使用它。进入更现代化的制程节点,我们集成了更多的Die(硅芯片),可以获得更快的处理速度。
我们认为Lake Crest作为软件开发工具(software development vehicle)更好,部分原因是因为我们去支持了bfloat。客户对于能在直接获得成果更兴奋,而不是还需要在中间做一些工作。
关于Spring Crest的制程节点,我们尚未公布关于哪些产品使用制程节点的任何信息。因为需要一定的时间去制造硅片,也需要时间把硅片变成新的神经网络处理器,这是延迟到2019年上市的原因。
性能方面,Lake Crest作为我们第一代处理器,现在被用作软件开发工具的时候,我们实现了在GEMM和卷积神经上都实现了非常好的计算利用率。并且这不仅仅是96%吞吐量的利用率,而是在没有充分定制化的情况下,我们也取得了大多数情况下实现GEMM高于80%的计算利用率,这也是很了不起的。
当我们开发Spring Crest这个下一代芯片时,我们保持高计算利用率,新的产品在性能上有3到4倍的性能提升。
问:此前Lake Crest的计算利用率达到了96%, 但Spring Crest的计算利用率稍微低了,这是为什么?
Carey:实际上这个是我的想法,把利用率适当下降,有些情况上确实可以实现98%。在没有资源冲突,每个硅芯片都能完全运行的情况下,可以99%甚至100%计算利用率。
每个架构都会有些情况能够充分利用,无论它们现实与否。我想在Spring Crest幻灯片上展示的是,大多数情况下都能实现的利用率。我们当然可以展示在基准测试中获得100%计算利用率的例子,但是我想表示的是很多用例都会有很高的利用率。
问:芯片晚些时候上市会给英特尔在市场竞争中造成不利影响吗?
Carey:我认为我们逐步转向bfloat是一个重要的考虑因素, 因为如果这就是市场需要的,那么我认为我们对它的反应很快, 我不知道我们的竞争对手的路线图是什么,但我认为我们的反应速度相对较快,所以我认为我们不会在神经网络处理上处于劣势。
bfloat最近变得更受欢迎,我所知道的是,在过去四个月中,有多个客户来到我们这里并特别要求bfloat。
问:哪些类型的顾客或者行业对Spring Crest感兴趣?
Carey:Spring Crest可以说是最高等级的Nervana神经元处理器架构。
因此,它有同样的客户,例如超大规模中心,超大规模CSP,已经拥有相当强大的数据科学工作的大型企业客户,例如政府和其他企业。
我想从另一种角度来回答这个问题,哪些客户对此不感兴趣。数据科学或人工智能还是比较新的,这是一个非常热门,非常激动人心的领域,而且正在迅速改变。传统的企业客户可能拥有数据,但他们可能无法在其数据中心部署高端设备。我们作为英特尔提供的服务,以及我们的路线图和我们的总体策略是提供整个产品组合。你可以基于nGraph和Xeon开始工作。你的数据中心已经部署了英特尔至强处理器,那你没有理由再去购买神经网络处理器或者其他类似产品。你有了至强并且围绕至强做一些工作,你可以得到你的数据状态。
但如果你发现神经网络可以帮助你,并且尝试找到如何能够让它赚钱,这时候你可以说你更加严肃认真对待它,当然英特尔可以提供神经网络处理器产品,能够让你更严谨地去进行训练。现在你可以购买很多NNP产品,并可以运用相同的软件栈,你可以获得相同的优化和优化路径,你可以为不同的硬件进行优化。甚至你可以用不同的Crest或者Xeon,这取决你想要干什么。或者,你已经开始了训练阶段,你的数据科学家开始尝试去训练不同的模型,现在你的需求是大规模部署推理阶段。
重中之重是,不是一种解决方案满足所有需求,如果你需求的是低延且小模型,至强就能帮助到你,它可以把数据从云到端手机起来。如果是一些大型模型,而不是只处理一种类型的数据,你需要一些更具体能够进行推理的部署。这就是和我们今天早上宣布有关,这里潜在蕴含着,我们正计划给数据中心提供推理加速,当然更多细节不能透露。
整合资源快速迭代初始团队只有45人
问:在开发新芯片的时候你们遇到了什么样的困难?
Carey:我们先来谈一下Lake Crest,我们创业初期就开始研发Lake Crest,我们整个团队大概45人,当时正在构建一个最大的Die(硅芯片),我们开发了Neon,我们还构建了云栈,这些都是40-45人团队所完成的。
这就是挑战,公司成立在2014年,直到去年芯片才真正问世,3年的时间不短,现在一切都是新的,我们现在属于英特尔,可以访问英特尔的资源,流程也变得简单,同时也有足够的员工同时进行处理器多代开发,就像一个真正CPU公司。
我认为我已经具备了明年取得成功所有要素,小团队成长会有阵痛,我们花了很长时间才把第一批产品拿出来,但我们现在处于合理的节奏中,现在我们每年都会看到改进,当前我们的人员配置合理,资源配置合适,能够更好的展开工作。
问:但整合所有需要的资源并不是一件容易的事吧?
Carey:当然不是一件容易的事情,但英特尔在将产品推出市场方面拥有丰富的经验,我曾经在大大小小不同的公司工作过,英特尔这点让我印象非常深刻,英特尔有迄今为止我见过的最佳的后硅培养(post-silicon bring-up)和架构分析。出品芯片,我们有数百个系统同时运行。
而且,同事们夜以继日协同工作,不仅仅来自Nervana的员工,6个月前刚加入的员工也是如此。当然让数以百计的员工朝着同一个愿景工作是很困难的,但英特尔是我所经历过的做的更好的一家公司。
问:什么是Lake Crest编程模型?它与GPU相似吗?
Carey:不是的,从高层面看,任何加速器都是一样的,你有一个为特定的图层编写的内核,将内核放在设备里,然后将数据存储在设备上,这就可以了。
所以从这个角度来看,它们都非常相似,在较低层面上,Lake Crest和Crest家族一般都没有共享的二级缓存,它具有软件控制的内存,因此软件工程师或者内核开发工程师可以控制内存中的内容,控制其在内存中保留的时间,控制从处理元件到处理元件的内容,从芯片到芯片的内容,它是静态的,你无需处理缓存冲突等。
让这成为可能的是,在深度学习中,你能提前知道所有的操作,内核开发工程师能更轻松地保留数据,移动数据和优化性能,我们可以这样做,因为我们不需要做随机指示,我可以提前知道指示。
而这一切对数据科学家来说都是隐藏的,数据科学家从来不想围绕GPU编码,他们只是想要高速度,而Nervana GPU内核就是这样提供的,我们拥有世界上最快的GPU内核,我们拥有与某些客户合作的FT16内核,这也是Nervana比硬件更为出名的地方,硬件实际上并没有被讨论,这些高速内核使数据科学家能够从当时的硬件中获取最多的内容,而无需被低水平细节所打扰,这是一种很好的模式,因为可以在不同的产品中改变计算机结构,并且由于除了位于英特尔的专门核心团队外,没有人直接在硬件上编写代码,我们可以管理这一更改并且始终尽可能优化硬件,可以添加说明,可以添加函数,可以改变事物的工作方式,可以在不影响数据科学的情况下更改bfloat。
积极应对行业变化新芯片明年上市
问:数据科学家本身不关注硬件?
Carey:没错,我不认为数据科学家真正关心的是底层的问题,他们只是希望它速度很快,他们不会在乎法拉利是电动的还是混合动力的,是V12还是四缸发动机他们只想在三秒钟内看到它从0到60。
问:nGraph与CUDA相比的优势是什么?
Carey:nGraph与CUDA还是不一样的,CUDA你可以理解为nGraph的底面,我们称之为变压器,nGraph通过一个固定的API接收来自TensorFlow、Caffe或MXNet的输入,然后通过图形编译器进行性能优化,排除一些不需要的东西,然后将其发送给CPU的MKL-DNN,所以CPU仍然使用MKL-DNN,即使在nGraph中也是如此,相似的,我们也需要为Crest的变压器,我们也需要一个英特尔其他硬件的变压器。
问:目前是否有关于Spring Crest的速度有多快的数据或基准?
Carey:我们暂时没有公布具体数字,与Lake Crest相比,在性能上有3-4倍的提升,基于我们用客户提供的Lake Crest反馈,我们在整个设计过程中提高了性能。
问:有人认为我们正处于部署算法的早期,你对算法的潜在变化有什么看法?
Carey:我认为算法和硬件之间有一点共生关系,反之亦然。
如果你往回看,过去的几年,在GPU上的GEMM核心会很快,因此当时所有的深度学习都指出如何利用GEMM核心来进行工作,因为这也是GPU仅有可以很快进行处理的地方,如今,GPU上有很多新的核心,数据科学家指出许多新的写入核心,我们的硬件处于两者之间,它并没有完全固定的函数,我们的硬件处理各种各样的激励函数,通过bfloat处理各种浮点运算,并且我们控制设备执行超出当前浮点范围的事情,你的GEMM,你的卷积神经,将会得到超级优化,我们不会像其他竞争对手一样拥有固定的函数,我们不会像GPU一样为了通用用途,我认为我们处于一个良好的中间点,在未来的几年也不会过时,随着时间的推移,我们将增加更多的通用硬件,以处理更多的混合工作负载。
问:你们是如何制定AI路线图的?背后有哪些考虑?
Carey:我们的路线图与任何人的路线图都相似:每年更大,更强,更快。
我们每年都会进行增量架构更改以提升性能,行业中出现的任何新事物如果与我们的硬件产品组合相关,我们会采取行动。(完)
免责声明:本文由用户投稿,(图文、音视频)均由用户自行上传分享,文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。若您的权利被侵害,请联系本站在线客服进行删除。