中国公司仅用7个月设计出远超同级别ARM架构的AI芯片
- 雷锋网
- 2018-11-30 22:29
诞生于加州大学伯克利分校的RISC-V开源指令集近来在中国关注度非常高。5月,上海发布国内首个RISC-V的支持政策。9月,中国RISC-V产业联盟在上海成立。11月,中国开放指令生态(RISC-V)联盟在乌镇宣布成立。有意思的是,中国最早做RISC-V的公司选择了落户深圳,并且仅用7个月就设计出了一款基于RISC-V指令集的AI芯片,能耗和面积明显优于同级别Arm架构芯片,
更让行业吃惊的是该款芯片一次性流片成功。这是否意味着在AI和IoT领域Arm即将面临一场与新兴技术的硬战?
仅用7个月完成芯片研发的两大关键
仅用7个月就完成从零开始设计验证到交付流片全部研发工作的公司叫做睿思芯科,是2017年在美国硅谷初创的OURS公司在深圳设立的中资公司,OURS创始人兼CEO谭章熹在清华大学电子工程系获得学士学历,后前往加州大学伯克利分校深造,师从新晋图灵奖得主David Patterson,取得了计算机科学博士。我们知道,RISC-V就出自2017 年新晋图灵奖得主David Patterson之手,这意味着谭章熹博士成了离RISC-V技术最近的中国人。
谭博士表示:“说我们是中国最早做RISC-V指令集芯片的公司应该不会有争议,之所以把中资公司设立在深圳是因为我觉得无论从环境、文化还是人才的角度,深圳和我们最匹配。我们基于RISC-V指令集的AI芯片Pygmy仅用7个月就完成了从零开始设计到交付流片的工作。”
谭博士提到的Pygmy AI芯片并没有隆重的发布会,首次亮相是在本月初Patterson教授乌镇世界互联网大会的演讲中,Pygmy也在大会期间展出。Pygmy是全球最小的鹦鹉。谭章熹透露,睿思芯科的第二代架构叫Pocket,是世界上第二小的鹦鹉。不难发现,睿思芯科的架构和产品都以鸟的种类命名,但新一代产品命名使用的鸟的体型比上一代大,谭博士希望公司的产品能覆盖越来越大的市场空间。
谭章熹和他的博士导师David Patterson
睿思芯科的产品命名很有特色,但更吸引人关注的是其如何在7个月内完成全部研发工作。谭章熹表示:“之所以能在不到一年的时间完成全部研发工作,一个很关键的因素就是RISC-V指令集。我们知道微处理器的设计很难,因为软件和硬件接口的地方很多,比如OS、SW framework、模拟器等,不过我们依靠RISC-V的生态,生态中的开发工具、工具链等帮助我们缩短了芯片的校验时间。另一个很关键的因素就是我们有经验丰富的工程师,我们的工程师对RISC-V更深的理解以及知道设计芯片的关键对缩短芯片研发的时间也非常关键。”
到底是架构更重要还是经验丰富的工程师更加重要?谭章熹表示两者同等重要,当然睿思芯科的芯片量产也会有必要的周期。他同时指出,想要在7个月内完成芯片的全部设计工作并不容易,除了需要对指令集有深刻理解以及有经验丰富的工程师明白如何做芯片业非常关键,软件也非常关键。特别对AI而言,AI算法的不断演进对芯片算力和和内存的要求也会不断提升,因此芯片需要具备快速迭代的能力,此时架构和软件都将发挥关键的作用。
能耗和面积明显优于同级别Arm架构芯片
时间上Pygmy仅用7个月就完成了全部研发工作,但芯片的性能却很强,根据睿思芯科的说法,Pygmy对比同级别的Arm芯片,能耗下降85%,面积减少80%,相当于用一般的32位处理器的面积和功耗就实现了64位处理器的性能。具体看,Pygmy基于64位RISC-V指令集,使用台积电28nm工艺,采用多核异构架构,其中CPU架构是睿思芯科基于RISC-V指令集设计而成,并针对多种AI应用进行了优化,还有12个高度可编程AI加速引擎,同样基于睿思芯科自定义开发的RISC-V矢量扩展指令集设计而成。
性能方面,Pygmy主控CPU具有64位位宽,主频600 MHz,基于RV64G指令集,支持双精度浮点运算,具备乘法器、除法器、开方器等;12个AI内核均为高度可编程,可以支持各种主流AI算法。能耗方面,主控CPU功耗仅为10mW,通过前端/后段的全栈设计,待机设计功耗不超过1mW。并且,Pygmy在Int8时可实现4 TOPS/watt,作为对比,Google第一代28 nm TPU 92 TOPs 超过 40 watt,差不多2.3 TOPS/watt。另外,提供Pygmy芯片的同时睿思芯科还开发了编译器、SDK、工具链,基于GCC、LLVM等开源实现,可以支撑Pygmy用户更好的进行二次开发。
Pygmy芯片
需要指出的是,虽然上面提到Pygmy对比同级别Arm芯片能耗和面积都有超过80%的下降,但因为目前没有Arm芯片与Pygmy完全类似,因此作对比的是Pygmy主控CPU。那么,Pygmy到底是如何实现的低功耗和高效能?谭章熹表示:“最主要的还是因为RISC-V架构的精髓——简单、面积小、速度快。因此我们不仅可以做架构创新,也可以把我们的芯片做的最简单和高效,我们刚开始设计Pygmy的时候也没想到能得到这么好的成绩。”
除了架构上不需要由复杂向下精简,架构上的创新也很重要。Pygmy采用了多核异构的架构,谭章熹表示:“通用的CPU也能处理AI的任务,但是效率不高,这时候就需要有特殊和核心和架构来满足AI的需求。Pygmy除了有主控CPU还有12个高度可编程的AI加速引擎,主要针对神经网络以及CNN算法进行了优化,能够支持AI图像和语音的应用。之所以集成的是12个可编程AI加速引擎,是和我们芯片的面积有很大的关系。当然12个加速引擎只代表一个边界,根据不同应用的性能及功耗需求,可以配置数量不同的可编程AI加速引擎,并且我们的团队能够在3个月内就完成AI加速引擎核的定制。未来,我们还会推出能集成更多AI加速引擎的产品。” 需要指出,异构架构会带来芯片编程复杂性的增高。
另外,AI芯片选择支持的数据类型也非常重要,因为目前哪种数据类型最适合深度学习还没有定论。据悉,Pygmy之所以支持Int8和FP16两种数据类型一方面是出于芯片模组性能和功耗的表现支持这两种数据类型时在终端上的推理表现良好,另一方面是用户的需求,因为除了芯片,相应的的软件及应用也需要支持对应的数据类型。
还有,AI芯片消耗能量更多的是数据的搬运而非计算,因此如何减少数据的搬运以及数据类型的支持对于AI芯片的设计者而言也是必须考虑的问题。可以看到的是Pygmy上搭载了1 MB的SRAM支持LPDDR4、SPI、UART等数据输入输出模式。但对于如何减少数据搬运的耗能,谭章熹透露,睿思芯科有自己比较独特的技术,主要是在架构设计上有所考虑,另外就是通过软件进行控制而非传统意义上的硬件管理。
当然,无论是传统的芯片还是AI芯片,除了性能、功耗以及面积,成本也至关重要。谭章熹表示,之所以选择28nnm工艺而非更先进的工艺是因为先进工艺的提升成本越来越高,但性能的提升却有限,综合来看28nm对于睿思芯科而言是性价比最高的选择。
Arm在IoT领域迎来与RISC-V的硬战?
既然Pygmy整体表现优于Arm同级别芯片,Pygmy也是面向各种物联网终端的AI推理场景。同时我们还看到,国外的GreenWaves,国内的中天微系统、君正集成电路、华米推出的基于RISC-V指令集的芯片都面向物联网市场,这是否意味着RISC-V指令集芯片在IoT领域已经势不可挡?
谭章熹表示:“RISC-V在整个软件生态上与Arm的生态还有一定的距离,Arm也有一定的技术优势,这不是短期内建立的。不过我乐观地认为RISC-V缩小与Arm生态之间的差距要比Arm赶上x86所需的时间要短。至于与Arm的竞争,在手机芯片领域RISC-V的机会不大,但目前我们看到了AI以及IoT,在新兴的领域RISC-V有非常大的机会。因为在IoT市场,有非常多的差异化需求,并且每个地区和市场的还可能有特性的需求,因此在这一市场大公司有其竞争优势,小公司也有优势。”
更具体地说,对于新兴的应用,RISC-V指令集的芯片能够更加灵活,小公司能够更好地满足这些应用的需求,这将在很大程度上与Arm行程竞争。至于已经在Arm上投入很多且从中获益的公司,其竞争对手以及成本可能是其选择RISC-V的关键因素。包括谷歌、英伟达、高通、AMD、IBM、华为等巨头都已经加入了RISC-V基金会,有一些Arm的用户已经开始接触RISC-V有一两年时间,一旦有其中一家公司推出能效和成本更低的RISC-V芯片,其竞争对手也会迅速跟进,这对于RISC-V指令集不仅是种认可,也将有利于RISC-V与Arm的竞争。
不过,睿思芯科到底会选择哪些AIoT应用切入市场谭章熹并没有透露。但他表示睿思芯科的业务模式将不是仅仅提供定制化的芯片或者模组,而是会基于已有的产品,做垂直的服务,提供定制化的解决方案。当被问到是否会进入热闹的安防市场的时候,他表示会对安防市场保持关注,要进入这一市场一定会是战略合作伙伴的方式,并且会找到一个特定的应用角度切入,而非常见的监控摄像头。
谭章熹也表示,即便是在新的IoT和AI市场,RISC-V想要占据优势也并非一家企业可以实现的,而是要一个完整的系统,这需要五年甚至十年,但我自己非常有信心。对于目前的RISC-V市场,还没有到需要彼此激烈竞争的阶段,而是更应该共同把生态做大。仅组建联盟而没有拿出实际的产品也不是发展和壮大RISC-V好的方式,更多的应该是拿出实际的产品以及进行实质的合作,进一步能为RISC-V的生态做一些贡献。
小结
谭章熹作为离RISC-V技术最近的中国人,他认为RISC-V的精髓在精简、面积更小、速记更快,基于RISC-V指令集可以设计出更好的芯片,授权费,便宜在灵活性和开放面前显得不是那么重要。而他对RISC-V的理解以及他在芯片领域的积累让他和他的团队能够在七个月内就完成一款芯片的全部研发工作。当然,无论是在美国的OURS还是在深圳的睿思芯科,在文化以及做事方式上都有不少的硅谷作风。
Arm在手机领域的地位难以撼动,但是在AIoT领域Arm显然已经感受到来自RISC-V阵营的竞争,并对此保持关注。因此,在AIoT领域到底是RISC-V能占据优势还是Arm,我们只能让时间给我们答案,毕竟从历史的经验来看,一个技术的成功除了技术本身,还关系到非常多的因素。
- 芯片
相关文章
资讯
- 4天前
彰显青年风采 传承科学家精神 中国科技青年风采荟在浙江温州举行
- 1周前
2024AI+研发数字(AiDD)峰会深圳站圆满收官!
- 1周前
200余支队伍蓉城“百模论剑”,“人工智能+”全国性赛事报名倒计时3天
- 1个月前
三个老发明家献给盛世的礼物---“录味机”
- 1个月前
颠覆传统 新味十足 ——2024首届海南智能餐饮烹饪大赛成功举办
- 1个月前
首届中国智能锁科技创新大会:德施曼核心科技引领行业,发起科创基金
- 1个月前
ODC24 AI服务生态分论坛:全新智慧服务引擎 带动服务分发增长
- 1个月前
2024 OPPO开发者大会召开,以技术为基石共建AI智能体新生态
- 1个月前
中国移动发布“四驱两翼” 低空经济高质量发展能力体系
- 1个月前
品胜闪耀 GITEX Global 2024:国民 3C 品牌在中东迪拜的卓越之旅
- 1个月前
2024中国移动全球合作伙伴大会盛大启幕 政企领域前沿创新成果成为焦点
- 1个月前
2024世界智慧城市大奖·区域* &中国获奖名单公布
- 2个月前
优刻得与宾果智能携手,开拓“AI+教育”智慧新场景
- 2个月前
2024年服贸会开幕正式开幕 京东工业展现数智采购领域AI的创新实践
- 2个月前
阿里云超值优品季持续让利,助力中小企业上云快人一步
原创
荐读
-
5G+AR加持 晨星机器人掀起“智能化+人机交互”制造新趋势
2021世界制造业大会于11月22日在合肥落下帷幕。为期四天的大会中,作为向世界展示智能制造全面能力的窗口,联想展示了一系列让人惊喜的创新产品。现场展示的ThinkPad X1 Fold整体重量仅有1公斤,折叠起来之后的厚度大约为24毫米。当保持半开状态时,可以像拿本书一样握住,并且能同时运行两个应用程序。使用固定在中间的键盘之后,瞬间变...
-
智能手机竞争中失败,日本在联网汽车领域举步维艰
据外媒报道,在制造带有数字联网服务的汽车的竞争中,丰田汽车和日产汽车面临着被本土市场拖累的风险。与美国和欧洲的汽车消费者不同的是,日本消费者不愿意为这些联网功能和服务买单。结果就是:日本只有10%的汽车...
-
2020年河南省将推广应用3万台工业机器人
到2020年,推广应用3万台工业机器人,建设1000条智能生产线、300个智能车间、150个智能工厂……4月16日,在2018两岸智能装备制造郑州论坛上,河南省工信委发布了《2017年河南省智能制造白皮书》,河南智能制造的2020...