更多每周精选暗黑微信群,窃听无线键盘,我在保密大会上进入的神

了efmd的综合评估获得equis认证,是国务院学位委员会批准的“工商管理硕士授予单位”(emba和mba)。学院总部位于北京,现设有工商管理硕士项目(mba)、金融mba项目(fmba)、高级工商管理硕士项目(emba)、企业家学

【CIMIC】11 11 京东全球好物节

用户体验用户体验本专题为雷锋网的用户体验专题,内容全部来自雷锋网精心选择与用户体验相关的最近资讯

分享到:

cadence公布人工智能芯片tensilicadn3倍本文作者:任然2018-09-2519:130条评论-->导语:随着业界试图将基于云的ai推理转移到边缘端设备本身,设备内神经网络推理的市场正在爆炸式增长,以实现更低的功率和更低的延迟。雷锋网消息,cadence是一家ai行业参与者,他们的tensilicaip产品仍然非常引人注目,并且出现在流行的soc中,如hisilicon的kirin阵容或mediatek的芯片组。随着业界试图将基于云的ai推理转移到边缘端设备本身,设备内神经网络推理的市场正在爆炸式增长,以实现更低的功率和更低的延迟。

雷锋网了解到,cadence于本周展示了从物联网、移动、ar/vr到智能监控和汽车应用等各个领域的广泛性能需求,并公布了更多有望加速边缘端神经网络推理的产品,并宣布推出一种新的专用“ai”ip,专注于满足各种各样需求的性能和扩展,扩展比以前更高,性能有望达到100tmacs(万亿矩阵积累操作)。

cadence表示,在汽车动力等应用中将拥有大量传感器,包括摄像头,激光雷达和超声波等,对于推理性能的需求非常急迫。标准dsp将处理信号处理的主要任务,但实际上对数据有意义的任务将被移交给神经网络加速器,例如处理感知和决策制定任务的dna100。cadence宣称与具有类似尺寸的mac引擎的竞争相比,d7倍的性能优势。cadence通过它的稀疏计算架构实现了这一点,这意味着它只计算非零激活和权重,并实现了比竞争对手更高的硬件mac利用率。

“神经网络的特点是固有的权重和激活的稀疏性,这会导致其他处理器中的mac通过加载和乘零而不必要地消耗性能。dna100处理器的专用硬件计算引擎消除了这两个问题,允许利用这种稀疏性来提高效率和减少计算量。神经网络的再训练有助于增加网络的稀疏性,并通过dna100处理器的稀疏计算引擎实现最大性能。”

在架构方面,dna100与其他推理加速器看起来很相似,其最重要的处理能力在于cadence称之为“可扩展稀疏计算引擎”的mac引擎,它们处理卷积阶段以及完全连接的分类层的任务。

macs是本地的8位整数,能够在全吞吐量的量化模型上操作,但它也提供了半速率的16位整数和四分之一吞吐量的16位浮点操作。单个mac引擎/稀疏计算引擎在256/512/1024mac中都是可伸缩的,之后ip可以通过添加更多引擎进行扩展,最多可达4个。这意味着最大配置的单个dna100硬件块最多包含4096个mac。

cadence仍然非常清楚,有些应用场景或神经网络模型可能无法由固定函数ip处理,并且仍然提供了将dna100与现有dspip耦合的可能性。这两种产品紧密耦合,dsp可以有效地处理更多特殊的的nn层,将内核传递回dna100,从而使具有未来的可扩展性,并可扩展到客户希望的定制层。带宽是神经网络推理硬件中的一个关键瓶颈,因此为了获得最佳性能并且不受平台限制,压缩是必不可少的。dna100除了通过压缩权重和激活来提供带宽减少功能,在原始带宽方面,ip还提供1到4个axi128或256位接口的非常宽的接口选项,这意味着在最宽的配置中最高可达1024位总线宽度。要将ip扩展到4096macs以上,只需将多个硬件块并排放置到soc上,就可以大大提高理论计算能力。软件在这里扮演了一个关键角色,因为它能够在不同的块之间正确地分配工作负载。cadence解释说,这种方式也可以用来加速单个内核/推理,此外他们还设想通过芯片到芯片通信实现可能的多芯片扩展。就dna100的性能而言,cadence再次强调其架构的实际性能明显高于具有相同数量mac的等效竞争架构。这里的“有效tmacs”是一个奇怪的指标,以雷锋网(公众号:雷锋网)获取的信息来看,根据权重和激活数据是否经过编译器和培训的修剪,有效性能也在2倍到3倍之间浮动。cadence展示了resnet50的性能,其dna100配置为最大4kmac配置,具有4。