专用AI加速削减算力与功耗矛盾 AI芯片玩家们的“必杀技”

　据记者观察，如今市面上大多数AI芯片，的确都针对性地配置了专用的硬件加速模块，尤以AI图像处理及视觉识别这类最甚。从早期华为用于智能手机端的麒麟系列芯片、苹果的A11、A12到Nvidia用于汽车领域的Xavier，再到如今市场上不断涌现的众多类型的ASIC，专用的AI加速器似乎已成为一种标准配置，以针对特定应用的图像及视觉数据处理做专业支持。这也形成了一种市场现象，好似如今没有AI加速器的芯片，可能都不太好对外宣称是AI芯片，更不用说拿着这种产品去与客户打交道。

　　专用AI加速器的配置，目的就是为了迎合当前各细分应用场景对AI计算的不同需求，专注于AI芯片研发的某初创公司负责人告诉记者：“就像现在的智能手机，用户可能对智能拍照和AI图像优化这类的需求会比较多，所以芯片厂商会专门设计相应的加速器去跑特定的图像和视觉算法，保证输出的处理结果能够符合用户的预期，这是当前很多厂商比拼产品优势的很重要的一点;另外，在汽车领域，可能需求又会不一样，车载摄像头每时每刻都要采集大量的图像数据，这对芯片带宽、延迟以及功耗等方面都会有更高规格的要求(毕竟是车规级)。一旦模型的参数越来越大时，其实系统根本没有办法将所有参数都继续保存在片内，这个时候访存必然会成为瓶颈，这恰恰是设计专用的AI加速器的价值所在。”

　　从AI加速器架构本身的角度来看，如今几乎所有的AI加速器都会设有一个负责完成深度学习中矩阵乘/卷积操作的计算单元，比如以TPU为代表的脉动阵列或者点乘器;以及另一个片上存储单元，主要负责存储每一层的输入/输出及权值。“这种异构协处理器的设计方式，在性能上可以非常灵活，一方面能够使用流水线和并行结构，可以及时跟上算法更新以及性能的需求变化;另一方面，还能够为主处理器和系统存储器提供宽带、低延迟接口，增加SoC所执行的计算量并优化数据结构，降低对带宽的需求，可以将芯片性能提升上百倍的同时降低功耗。”AI芯片初创公司负责人进一步补充到。

　　固然，专用AI加速模块的配置对提升固定应用场景下芯片的整体性能有很大助力，且能够很大程度上消减算力与功耗之间的矛盾。但有利必有弊，这种方案由于支持的应用场景比较受限，这也进一步损失了芯片在应用端的可扩展性和灵活性。而且，AI算法的演进速度已越来越快，如果未来更多的AI算法流行起来，神经网络逐渐退居幕后，那么芯片端就需要专门针对新的各类算法做专用的加速模块设计，这无疑会进一步提升芯片的成本和开发时间，难以赶上变幻莫测的AI应用市场。因此，针对AI加速器模式会否成为未来AI芯片设计的主流方式，业内也各有观点。

　　孙鲁毅认为：“现在各家厂商去做AI加速器，本质上还是为了需求。因为需求都是有差异化的，所以在需求还没有被行业达成高度一致化的情况下，芯片一定是趋向于千差万别的。简单说来，比如说在某些AI视觉图像应用中，芯片对前端功耗并不是太敏感，而需要一些非常复杂操作的时候，可能那些操作前端用一个典型的终端AI芯片并不一定能够很好的解决。但是，从另外一个角度来讲，在有些应用中，它是会有一个非常轻量级的操作。总之，在市场还没有明确达成商品化需求的时候，我不认为它会形成一个类似IP的商业模式。”

　　站在一个AI芯片初创公司的角度来看，记者了解到，像现在不少的芯片创业团队宁愿走开发专用AI加速器路线做自己的ASIC的初衷，其实也是出于对一些细分市场非常看好，这类市场值得他们去投入时间和精力开发相应的AI加速芯片方案。因为对这类公司来说，想在通用芯片市场与英伟达、英特尔这类的芯片巨头进行竞争几乎是不现实的，选择一些细分的市场来开展业务相对会更有优势。细分市场一般都有竞争小、需求高度集中、非常明确的特性，要求就那么多，相对比较标准，很适合利用专用AI加速器构建SoC的模式来做。

　　另一方面，虽然像高通、英伟达以及英特尔这类芯片大厂，现阶段主要关注的还是一些体量比较庞大的传统类应用，比如云端的服务器，以及像手机和汽车这类具备充分用户基础的边缘侧市场。这点从这三大AI加速器芯片主要玩家近几年的一系列产品发布即可看出，比如英伟达的Tesla V100、Xavier;高通骁龙855中的Hexagon DSP和CV-ISP的AI Engine、以及近期发布的Cloud AI 100;英特尔的低功耗的Movidius加速器以及最新的Cascade Lake Xeon等。

　　但这并不意味着这些芯片巨头们就对如IoT领域的各种细分型市场漠不关心，根据记者的观察，如今像英特尔、ST以及瑞萨等芯片巨头们已经开始对这类市场展开攻势。譬如去年11月，英特尔发布了两款应用于智慧城市、零售以及健康监护领域的AI加速器方案，即Intel Movidius处理器阵列Intel Arria10 FPGA;ST也于今年4月26-27日的STM32峰会上，推出了基于STM32CubeMx.AI来优化的DNN加速器;同月，瑞萨电子的可配置AI加速器——DRP也正式发布，利用e-AI进一步强化了MCU的芯片算力。想必未来一段时间内，会有更多的芯片界巨头一拥而上，届时AI加速器市场必将迎来一场空前的战役，对于那些深耕细分领域的中小型芯片厂商来说无疑是莫大的挑战。

　　总之，无论市场行情如何风云变幻，应用端自始至终需要的都还是一颗兼具高算力和低功耗的AI芯片，而这种特性也会随着AI与IoT应用的逐步融合愈加被市场所重视。因此，对于当下无论是大型还是中小型AI芯片设计厂商来说，如何通过硬件结合算法端的优化来解决芯片算力与功耗之间的矛盾是个中关键，这可能还需要厂商在芯片制程、架构以及成本等多方面、多角度进行考究。AI加速器固然是能够解决功耗与算力矛盾最直接有效的方案，但根据记者的观察，如今不少有实力的AI芯片巨头们已经开始布局和深入这块市场，并针对各类场景推出兼具适用性很强的AI加速器芯片，这必定会对当前大量正努力“挣扎于”细分市场的AI芯片新兴玩家们造成非常大的冲击。因此，留给这类公司们的时间眼看已然不多，如何灵活地依托本地化以及自身对专业领域的精通优势，加速打通各类细分应用市场，赢得更多的客户，将是未来几年这些新兴AI芯片玩家们存活下来的关键。

上一篇：端侧AI“芯”应用水涨船高算力与功耗平衡成最大瓶颈

下一篇：为提升良率与生产效率，三星、SK海力士积极引进AI技术

热点排行

日周月

展会资讯

友情链接:

电子工程网中关村元坤智造北京元坤伟业首天电阻耐芯威科技北京齐天芯科技有限公司元坤人脸识别系统元坤物联元坤芯片事业部 PCB 元坤红外线热像仪红外线热像仪英文版

IC百科

产品导航

专用AI加速削减算力与功耗矛盾 AI芯片玩家们的“必杀技”