【pg电子】寒武纪研究院院长杜子东:寒武纪解决了AI处理器哪些问题?

本文摘要:向量机)已经足够了。

pg电子

向量机)已经足够了。对于这种应用,我们几乎可以用一些传统的机器学习来代替深度自学。这是我们在2015年实现这款标准化机器学习处理器的主要原因。

也正是基于这种深厚的学术文化背景,寒武纪1A处理器在2016年寒武纪科技正式成立后发布。此外,寒武纪机器学习处理器MLU100采用TSMC 16纳米工艺,频率1.3GHz,峰值166个点,平均功耗80W,峰值功耗110W。ASIC作为深度自学不存在的三个对立面。传统的专用集成电路不能很好地通过简化特定算法的硬件来解决深度自学的市场需求。

主要有三个对立面:有限规模的硬件和给定规模的算法结构相同,千变万化的算法有有限能耗的硬件和优先精度的算法。以能耗问题为例,目前的图片显示已经从之前的高清、超清晰逐渐发展到1080P和4K,现在主流相机已经开始转入。对于这样的规模算法,如何将其部署到有限规模的硬件上是一个很大的问题。

寒武纪的初衷,寒武纪过去所做的学术工作,主要是针对这三个对立面。硬件神经元虚拟化被用来解决有限规模硬件和给定规模算法之间的对立问题。独创性在于通过时分复用将有限规模的硬件虚拟世界转化为给定的大规模人工神经网络。其中,关键技术在于控制架构和内存访问架构。

在控制架构中,它反对硬件神经元的动态配置和运行时编程,而在内存访问架构中,它反对分离的输出神经元、输入神经元和神经元的片上存储。从软件的角度来说,我们将整个软件或网络切割成不同的片段,然后在硬件上扩展操作,并根据输出数据的不同特性分别存储数据,这使得在访问内存时有必要高效地使用其局部特性。硬件运算器日内适配(虚拟化)示意图如下图和右图所示。

如果一个硬件运算器需要一次处理两个地方,针对图中右图的网络,必须在不同的时间写完了需要的数据,或者计算了不同的输入神经元,然后来回适配,才能完成整个网络的运算。其中,通过对输出神经元的适配,将所需的两个神经元写入芯片后,接下来的操作就是重复使用这两个输出神经元,因此需要节省内存访问次数。在几乎用完两个神经元或两个所需数据后,在芯片上写入新数据并开始下一步操作。

pg电子

通过规范指令集解决问题。同样结构的硬件和千变万化的算法是对立的。主要学术创新在于自动提取各种深度自学习(机器学习)算法的常用基本算子,并设计第一个深度自学习指令集来高效处理这些算法。关键技术是运营商集群和运营架构。

算子聚类自动提取算法的核心片段,并根据数据特征将其聚类成几类;算法架构通过设计公共神经元电路来反对反向精确流水线操作。寒武纪标准化指令集设计策略主要分为三个步骤;通过模型、目的和计算复杂度的差异分析,加速了自由选择微分算法;分析计算出的模型和数据的数据局部性,找到最耗时/最广泛的算子子集,研究算法的局部性,降低市场对每种算法的需求;为功能组件或片上存储设计合适的加速器结构。采用密集的神经网络处理器结构来解决这个问题。能耗有限的硬件与精度优先的算法相对。

其学术创新之处在于利用神经网络忽略计算误差的能力,开发密集的神经网络处理,在有限的能耗下构建高精度的智能处理。神经网络中的推荐和数据数量相当大。与此同时,西方
致密化是目前为止最重要的数据处理方法。神经网络模型最重要的是辨识结果,它不是一个绝对量,而是一个比较量。

比如用传统的Softmax扩展治疗,最后输入仅次于神经元。只要能保证使用稠密神经网络或逆精度神经网络计算的最终输入结果仍然是之前的大神经元,就可以指出最终输入结果并不接近。当然,计算结果中的误差和损失也会发生变化。

pg电子

寒武纪R&D团队使用神经网络来处理识别结果之间的计算误差差异,大大增加了整个网络中的神经元数量和权重。根据实验数据,结论是可以去掉90%的权重。

也就是说,理论上,通过密集的处置,计算和内存访问效率可以降低十倍。根据这种密集的特点,设计了处理器结构,提高了计算和内存访问的效率。

总结寒武纪现在的主要产品包括智能处理器IP和智能芯片,特别是在智能芯片方面。从产品层面来说,已经应用到华为等智能手机上;从技术角度来说,寒武纪还开发了自己的处理器架构和指令集,通过虚拟化硬件神经元、开发标准化指令集和使用密集处理器架构,解决了使用ASIC进行深度自学习时不存在的三大问题。

只是在寒武纪之前,龙芯有过几次研究和发展。除了中科院背景相同的两个团队,龙芯的影子只能在寒武纪的R&D团队看到。特别是寒武系创始人之一的陈教授,师从龙芯团队骨干胡研究员。

本文关键词:pg电子

本文来源:pg电子-www.analyzinghuman.com

CopyRight © 2015-2021 pg电子|游戏平台 All Rights Reserved.
网站地图xml地图