鸟鸣涧-betway必威官网登录-betway必威手机版

先了解什么是异构并行核算

同构核算运用相同类型指令集和系统架构的核算单元组成系统的核算办法

异构核算首要是指运用不同类型指令集和系统架构的核算单元组成系统的核算办法,常见的核算单元类别包含CPU、GPU、DSP、ASIC、FPGA等。

异构核算用简略的公式能够表明为“CPU+XXX”。举例来说,AMD着力开展的APU就归于异构核算,用公式表明便是CPU+GPU。

因为术业有专攻,CPU、GPU、DSP、ASIC、FPGA各有所长,在一些场景下,引进特定核算单元,让核算系统变成混合结构,就能让CPU、GPU、DSP、FPGA履行自己最拿手的使命。

异构核算(Heterogeneous Computing)在80年代中期就已发生,其界说愈加广泛。异构核算首要是指运用不同类型指令集和系统架构的核算单元组成系统的核算办法。常见的核算单元类别包含CPU、GPU等协处理器、DSP、ASIC、FPGA等。一个异构核算途径往往包含运用不同指令集架构(ISA)的处理器。

从软件的视点来讲,异构并行核算结构是让软件开发者高效地开发异构并行的程序,充沛运用核算途径资源。从硬件视点来讲,一方面,多种不同类型的核算单元经过更多时钟频率和内核数量前进核算才干,另一方面,各种核算单元经过技能优化(如GPU从底层架构支撑通用核算,经过分支猜测、原子运算、动态并行、一致寻址、NIC直接拜访显存等才干)前进履行功率。

正是因为异构核算在理论上有着许多的优势,一些媒体将“CPU+XXX”称为下一代处理器。

异构核算在理论上相关于同构核算具有许多优势——HSA能够简化芯片结构规划、下降运用编程门槛、缩短项目研制周期、显着进步芯片功用、广泛同享软件生态

有厂家乃至宣扬异构核算能够完结任何程序都不用操心考虑不同处理器内核之间的存储差异。但在现阶段,异构核算除了在超算上取得了显着成果,在其他范畴优势并不大。

即使异构核算现在还存在这样或那样的一些问题,但却是十分具有开展潜力的技能。

跟着技能的前进,电子消费品商场关于高功用并行核算的需求正在爆发性增加,特别是在机器视觉、人工智能、云核算、AR/VR、软件界说无线电以及其他新式范畴,都对异构核算系统有着十分大的需求。

HSA在系统编程办法上的跨进使得一个杂乱片上系统能够和谐在并行核算上比CPU更高效、更低功耗的GPU、DSP以及硬件加快器等核算单元承当大部分深重的核算作业使命,在上述新式范畴能发挥较抱负的效果。

也正是因而,Parmance公司计划与华夏芯ML-HSA项目进步行协作——该项目面向机器学习和深层神经网络,并针对华夏芯此前建议的开源gccbrig项目进行优化,gccbrig项目为任何支撑GCC的途径供给编译(完结转化)功用

国外巨子也一向着力开展异构核算系统——Intel在上一年以167亿美元收买阿尔特拉,开展CPU+FPGAAMD着力开展的APU也归于异构核算,像Imagination、MTK等一些厂商也在异构核算范畴活泼布局。能够说,异构核算的商场前景仍是值得等待。

CPU与GPU的差异

跟着GPU的可编程性不断增强,GPU的运用才干现已远远超出了图形烘托使命,运用GPU完结通用核算的研讨逐步活泼起来,将GPU用于图形烘托以外范畴的核算成为GPGPU(General Purpose computing on graphics processing units,依据GPU的通用核算)。而与此一起CPU则遇到了一些妨碍,CPU为了寻求通用性,将其间大部分晶体管首要用于构建操控电路(比方分支猜测等)和Cache,只要少部分的晶体管来完结实践的运算作业。

CPU + GPU 是一个强壮的组合,因为 CPU 包含几个专为串行处理而优化的中心,而 GPU 则由数以千计更小、更节能的中心组成,这些中心专为供给微弱的并行功用而规划。程序的串行部分在 CPU 上运转,而并行部分则在 GPU上运转。GPU 现已开展到老练阶段,可轻松履行现实生活中的各种运用程序,而且程序运转速度已远远超过运用多核系统时的景象。未来核算架构将是并行中心 GPU 与多核 CPU 一起运转的混合型系统。

1、CPU即中央处理器

CPU( Central Processing Unit, 中央处理器)便是机器的“大脑”,也是布局战略、指挥若定、操控举动的“总司令官”。

CPU的结构首要包含运算器(ALU, Arithmetic and Logic Unit)、操控单元(CU, Control Unit)、寄存器(Register)、高速缓存器(Cache)和它们之间通讯的数据、操控及状况的总线。

简略来说便是:核算单元、操控单元和存储单元,架构如下图所示:

图:CPU微架构示意图

从字面上咱们也很好了解,核算单元首要履行算术运算、移位等操作以及地址运算和转化;存储单元首要用于保存运算中发生的数据以及指令等;操控单元则对指令译码,而且宣告为完结每条指令所要履行的各个操作的标签5操控信号。

所以一条指令在CPU中履行的进程是这样的:读取到指令后,经过指令总线送到操控器(黄色区域)中进行译码,并宣告相应的操作操控信号;然后运算器(绿色区域)依照操作指令对数据进行核算,并经过数据总线将得到的数据存入数据缓存器(大块橙色区域)。进程如下图所示:

图:CPU履行指令图

CPU遵从的是冯诺依曼架构,其间心便是:存储程序,次序履行。在这个结构图中,担任核算的绿色区域占的面积好像太小了,而橙色区域的缓存Cache和黄色区域的操控单元占有了许多空间。

因为CPU的架构中需求许多的空间去放置存储单元(橙色部分)操控单元(黄色部分),比较之下核算单元(绿色部分)只占有了很小的一部分,所以它在大规划并行核算才干上极受限制,而更拿手于逻辑操控。

别的,因为遵从冯诺依曼架构(存储程序,次序履行),CPU就像是个有板有眼的管家,人们叮咛的作业它总是一步一步来做。可是跟着人们对更大规划与更快处理速度的需求的增加,这位管家逐步变得有些无能为力。

所以,能不能把多个处理器放在同一块芯片上,让它们一起来干事,这样功率不就前进了吗?GPU便由此诞生了。

2、GPU即图形处理器。

GPU全称为Graphics Processing Unit,中文为图形处理器,就如它的姓名相同,GPU开端是用在个人电脑、作业站、游戏机和一些移动设备(如平板电脑标签14、智能手机等)上运转绘图运算作业的微处理器。

为什么GPU特别拿手处理图画数据呢?这是因为图画上的每一个像素点都有被处理的需求,而且每个像素点处理的进程和办法都十分相似,也就成了GPU的天然温床。

GPU简略架构如下图所示:

图:GPU微架构示意图

从架构图咱们就能很显着的看出,GPU的构成相对简略,有数量许多的核算单元和超长的流水线,特别适宜处理许多的类型一致的数据。

但GPU无法独自作业,必须由CPU进行操控调用才干作业。CPU可独自效果,处理杂乱的逻辑运算和不同的数据类型,但当需求许多的处理类型一致的数据时,则可调用GPU进行并行核算。

注:GPU中有许多的运算器ALU和很少的缓存cache,缓存的意图不是保存后边需求拜访的数据的,这点和CPU不同,而是为线程thread前进服务的。假如有许多线程需求拜访同一个相同的数据,缓存会兼并这些拜访,然后再去拜访dram。

再把CPU和GPU两者放在一张图上看下比照,就十分一望而知了。

GPU的作业大部分都核算量大,但没什么技能含量,而且要重复许多许屡次。

借用知乎上某大神的说法,就像你有个作业需求核算几亿次一百以内加减乘除相同,最好的鸟鸣涧-betway必威官网登录-betway必威手机版办法便是雇上几十个小学生一起算,一人算一部分,横竖这些核算也没什么技能含量,朴实体力活罢了;而CPU就像老教授,积分微分都会算,便是薪酬高,一个老教授资顶二十个小学生,你要是富士康你雇哪个?

GPU便是用许多简略的核算单元去完结许多的核算使命,朴实的人海战术。这种战略依据一个条件,便是小学生A和小学生B的作业没有什么依赖性,是相互独立的。

有一点需求着重,尽管GPU是为了图画处理而生的,可是咱们经过前面的介绍能够发现,它在结构上并没有专门为图画服务的部件,仅仅对CPU的结构进行了优化与调整,所以现在GPU不只能够在图画处理范畴大显神通,它还被用来科学核算、暗码破解、数值剖析,海量数据处理(排序,Map-Reduce等),金融剖析等需求大规划并行核算的范畴。

所以GPU也能够认为是一种较通用的芯片。

总结

从根本上说CPU和GPU它们的意图不同,且有不同侧重点,也有着不同的功用特性,在某些作业中CPU履行得更快,另一作业中或许GPU能更好。当你需求对许多数据做相同的作业时,GPU更适宜,当你需求对同一数据做许多作业时,CPU正好。

然而在实践运用中,后一种景象更多,也便是CPU更为灵敏能担任更多的使命。GPU能做什么?关于图形方面的以及大型矩阵运算,如机器学习算法、挖矿、暴力破解暗码等,GPU会大幅前进核算功率。

  • Cache, local memory:CPU > GPU
  • Threads(线程数): GPU > CPU
  • Registers: GPU > CPU 多寄存器能够支撑十分多的Thread,thread需求用到register,thread数目大,register也必须得跟着很大才行。
  • SIMD Unit(单指令多数据流,以同步办法,在同一时刻内履行同一条指令): GPU > CPU。

简略地说,CPU拿手分支猜测等杂乱操作,GPU拿手对许多数据进行简略鸟鸣涧-betway必威官网登录-betway必威手机版操作。一个是杂乱的劳作,一个是许多并行的作业

其实GPU能够看作是一种专用的CPU,专为单指令在大块数据上作业而规划,这些数据都是进行相同的操作,要知道处理一大块数据比处理一个一个数据更有用,履行指令开支也会大大下降,因为要处理大块数据,意味着需求更多的晶体管来并行作业,现在旗舰级显卡都是百亿以上的晶体管

CPU呢,它的意图是尽可能快地在单个数据上履行单个指令。因为它只需求运用单个数据单条指令,因而所需的晶体管数量要少得多,现在干流桌面CPU晶体管都是十亿以下,和尖端GPU相差十倍以上,但它需求更大的指令集,更杂乱的ALU(算术逻辑单元),更好的分支猜测,更好标签19的虚拟化架构、更低的推迟等等。

别的,像咱们的操作系统Windows,它是为x86处理器编写的,它需求做的使命履行的进程,在CPU上必定更为高效,你想每个线程的使命并不相同,基本上难以并行化,彻底发挥不了GPU的利益。

总而言之,CPU和GPU因为开端用来处理的使命就不同,所以规划上有不小的差异。CPU的运算速度取决于请了多么凶猛的教授。教授处理杂乱使命的才干是碾压小学生的,可是关于没那么杂乱的使命,仍是顶不住人多。当然现在的GPU也能做一些略微杂乱的作业了,相当于晋级成初中生高中生的水平。但还需求CPU来把数据喂到嘴边才干开端干活,终究仍是靠CPU来管的。

CPU+GPU并行核算的长处

一 、CPU多核转到GPU并行化(适宜算术密集型)

尽管GPU并不适用于悉数问题的求解,可是咱们发现那些对运算力气消耗巨大的科学出题都具有天然的特征。这类程序在运转时具有极高的运算密度、并发线程数量和频频地存储器拜访,无论是在音频处理、视觉仿真仍是到分子动力学模仿和金融风险评价范畴都有许多触及。这种问题假如能够顺畅迁移到GPU为主的运算环境中,将为咱们带来更高效的处理计划。

传统意义上的GPU不善于运转分支代码,可是ATI和NVIDIA经过长时刻改进其内部架构现已使得GPU能够较为高效地运转分支、循环等杂乱代码。一起因为GPU归于并行机范畴,相同的运算能够运用到每个数据元素的时分,它们能够到达最好的功用。在CPU编程环境中,写出每个输入数据元素有不同数量的输入的程序很简略,但在GPU这种并行机上仍是有不少费事。

通用的数据结构正是GPU编程的最大困难之一。CPU程序员常常运用的数据结构如列表和树在GPU身上并不简略完结。GPU现在还不答应恣意存储器拜访,而且GPU运算单元的规划为首要操作是在体现方位和颜色的四维向量上。

不过这些并不能阻挠GPU编程的加快开展,因为GPU不是真的为通用核算而规划的,需求一些尽力才干让GPU高速地服务通用核算程序。这些尽力前些年是程序员而独自完结的,而跟着ATI和NVIDIA开端看到高功用核算商场的硬件需求,咱们看到无论是Fermi架构增加万能二级缓存和一致定址仍是RV870架构不断优化LDS并扩大并发线程数,这些都是GPU自身硬件系统为了习惯未来的运算环境而做出的革新。

二、并行化编程长处

在GPU并行编程进程中,OpenCL是一个不错的挑选。OpenCL是Open Computing Language(敞开式核算言语)的简称,它是第一个为异构系统的通用并行编程而发生的一致的、免费的规范。OpenCL支撑由多核的CPU、GPU、Cell类型架构以及信号处理器(DSP)等其他的并行设备组成的异构系统。

OpenCL的呈现,使得软件开发人员编写高功用服务器、桌面核算系统以及手持设备的代码变得愈加方便。OpenCL由用于编写内核程序的言语和界说并操控途径的API组成,供给了依据使命和依据数据的两种并行核算机制,使得GPU的核算不在仅仅局限于图形范畴,而能够进行更多的并行核算。可是,假如经过传统的办法开发一个能够运转在异构途径(在CPU和GPU的途径)的程序是很难的。不同的厂商,不同的产品型号的GPU一般有着不相同的架构,这样要想开宣告一款能够高效的能够运用不同途径的悉数核算资源的软件是很难的。OpenCL的呈现有用地处理了异构途径的问题。

OpenCL规范是由Khronos Group推出的,OpenCL程序不只仅能够运转在多核的CPU上,也能够在GPU进步行履行,这充沛体现了OpenCL的跨途径性和可移植性,也让编程人员能够充沛运用GPU的强壮的并行核算才干,相关于CPU来说,GPU存在许多特征。

  • GPU具有的中心的数量要比高端CPU的中心数量多许多。尽管GPU的每个运算中心没有CPU的每个运算中心作业频率高,可是GPU的全体功用-芯片面积比以及功用-功耗比比CPU高许多,所以在处理越多线程的并行核算的使命功用高许多。
  • GPU能够经过许多并行线程之间的交错运转躲藏大局的推迟,除此之外GPU还具有许多的寄存器、部分存储器和cache等用来进步外部存储的拜访功用。
  • 在传统的CPU运算中,线程之间的切换是需求很大的开支的,所以在敞开了许多线程的算法的功率是很低的。可是,在GPU中,线程之间的切换是很廉价的。

GPU的核算才干比CPU强许多。

三、OpenCL环境下并行化编程

OpenCL是一个敞开的工业规范,它可认为CPU和GPU等不同的设备组成的异构途径进行编程。OpenCL是一种言语,也是一个为并行编程而供给的结构,编程人员能够运用OpenCL编写出一个能够在GPU上履行的通用程序。

OpenCL的技能中心包好了下面的四种模型:

途径模型(Platform Model):OpenCL途径模型界说了主机和设备的人物,为程序员写在设备上履行的OpenCL C函数(内核)供给了一个笼统的硬件模型。途径模型确认了主机上的处理器能够和谐履行,而且存在一个或许多个处理器能够履行OpenCL C代码(设备)。

履行模型(Execution Model):界说如安在主机上装备OpenCL环境以及内核(kernel)是如安在设备上履行的。这其间包含在主机上设置OpenCL上下文,供给主机和设备交互的机制,界说了内核在设备上履行的兵书形式。

内存模型(Memory Model):界说了内核运用的笼统的内存层次。

编程模型(Programming Model):界说了并发模型怎么让映射到物理硬件。

OpenCL结构被分红途径层API和运转时API,途径层API答应运用查询途径和设备,而且能够经过上下文来办理它们。运转时的API运用上下文去办理设备上的内核的履行。

四、OpenCL并行化调试东西

在运用OpenCL进行编程之后,咱们能够运用gDEBugger进行调试,gDEBugger是一个高档的OpenCL和OpenGL调试器,剖析器和内存剖析器。它能够完结其他东西无法完结的作业:追寻在OpenCL和OpenGL之上的运用程序的活动,并发现系统完结的内部发生了什么。

程序员能够在以下的状况下运用gDEBugger:

优化OpenCL和OpenGL运用程序功用。

快速找到与OpenCL和OpenGL相关的bug。

改进程序功用和鲁棒性

五、CPU和GPU同享记忆体空间

在曩昔的时刻,尽管GPU和CPU已整合到同一个晶片上(GPGPU技能),可是晶片在运算时要定位记忆体的方位依然得经过冗杂的过程,这是因为CPU和GPU的记忆体池依然是独立运作。之前为了处理两者记忆体池独立的运算问题,当CPU程式需求在GPU进步行部分运算时,CPU都必须从CPU的记忆体上仿制悉数的材料到GPU的记忆体上,而当GPU上的运算完结时,这些材料还得再仿制回到CPU记忆体上。

这些过程都会不断消耗时刻以及程式处理的效能。2012年,AMD就携手ARM、高通、三星、联发科等厂商建立HSA(Heterogeneous Systems Architecture)基金会,期望拓宽CPU和GPU协同运算的新架构,并辅佐此架构开展的异质运算新软体开发环境。

日前,标签5AMD进一步揭露阐明此运算架构的新技能:hUMA(heterogeneous Uniform Memory Access)。透过hUMA,CPU和GPU能同享同一个记忆体空间,而且CPU能够直接存取GPU的记忆体位址,不用像曩昔得花时刻再将GPU的运算材料复写到CPU上。近来,在HotChips会议上,AMD接连发布了桌面FX处理器运用的Steamroller架构、面向低功耗途径的Jaguar架构等,可是这都不是AMD的终极目标,他们宣称处理器速度的竞赛现已完毕,未来归于HSA。

六、未来开展趋势

在核算机开展进程中,为了处理各种特定的问题,不断有互不兼容的核算模块被参加系统,却很少从大局优化的视点加以调查。核算机全体功率不高的现状正是这种规划形式的直接结果。常见状况是软件的核算负载被调度在一个并不适宜当前使命的核算设备上低效履行。HSA则展示了一种全新的系统架构,能够习惯各种特性的核算使命。

HSA版别能够在CPU和GPU之间无缝地同享数据,而无需内存复制和缓存改写,因为使命以极低的开支被调度到适宜的处理器上。终究的结果是HSA版别的功用高出2.3倍,而功耗下降2.4倍。相较而言,无论是多核CPU、GPU、乃至非HSA办法的混合CPU和GPU都无法到达这样的功用水平。相同重要的是,无需转化到悬殊的编程模型,仅仅经过C++的简略扩展就能够完结程序。

xPU都是些什么鬼

▍APU

Accelerated Processing Unit。现在还没有 AI 公司将自己的处理器命名为 APU,因为 AMD 早就用过 APU 这个姓名了。APU 是 AMD 的一个处理器品牌。AMD 在一颗芯片上集成传统 CPU 和图形处理器 GPU,这样主板大将不再需求北桥,使命能够灵敏地在 CPU 和 GPU 间分配。AMD 将这种异构结构称为加快处理单元,即 APU。

Audio Processing Unit。声响处理器,望文生义,处理声响数据的专用处理器。不多说,出产 APU 的芯片商有好多家。声卡里都有。

▍BPU

Brain Processing Unit。地平线机器人(Horizon Robotics)以 BPU 来命名自家的 AI 芯片。比较于国内外其他 AI 芯片 start-up 公司,地平线的第一代 BPU 走的相对保存的 TSMC 的 40nm 工艺。BPU 现已被地平线申请了注册商标,其他公司就别打 BPU 的主见了。

▍CPU

上文也进行了详细的介绍。也不会有 AI 公司将自己的处理器命名为 CPU 的。不过,CPU 与 AI 处理器并不抵触。

▍DPU

Deep-Learning Processing Unit。深度学习处理器。创建于 2010 年的 wave computing 公司将其开发的深度学习加快处理器称为 Dataflow Processing Unit(DPU),运用于数据中心。

▍EPU

Emotion Processing Unit伴随机心情机器人而生,能够让机器人具有心情。从官方途径音讯看,EPU 自身并不杂乱,也不需求做使命量巨大的神经网络核算,是依据 MCU 的芯片。

▍FPU

Floating Point Unit。浮点单元,不多做解说了。现在高功用的 CPU、DSP、GPU 内都集成了 FPU 做浮点运算。

▍GPU

Graphics Processing Unit。图形处理器。GPU 本来最大的需求来自 PC 商场上各类游戏对图形处理的需求。可是跟着移动设备的晋级,在移动端也逐步开展起来。

▍HPU

Holographic Processing Unit。全息处理器。Microsoft 专为自家 Hololens 运用开发的。

▍IPU

Intelligence Processing Unit。智能处理器。以 IPU 命名芯片的有两家公司——Graphcore和Mythic。

Image Cognition Processor。图画认知处理器 ICP,加拿大公司 CogniVue 开发的用于视觉处理和图画认知的 IP。

Image Processing Unit。图画处理器。一些 SOC 芯片中将处理静态图画的模块称为 IPU。可是,IPU 不是一个常用的缩写,更常见的处理图画信号的处理器的缩写为下面的 ISP。

Image Signal Processor。图画信号处理器。这个论题也不是一个小论题。ISP 的功用,简略的来说便是处理 camera 等摄像设备的输出鸟鸣涧-betway必威官网登录-betway必威手机版信号,完结降噪、Demosaicing、HDR、颜色办理等功用。

▍KPU

Knowledge Processing Unit。嘉楠耘智(canaan)声称 2017 年将发布自己的 AI 芯片 KPU。嘉楠耘智要在 KPU 单一芯片中集成人工神经网络和高功用处理器,首要供给异构、实时、离线的人工智能运用服务。这又是一家向 AI 范畴扩张的不差钱的矿机公司。作为一家做矿机芯片(自称是区块链专用芯片)和矿机的公司,嘉楠耘智累计取得近 3 亿元融资,估值近 33 亿人民币。听说嘉楠耘智近期将发动股改并推动 IPO。

另:Knowledge Processing Unit 这个词并不是嘉楠耘智第一个提出来的,早在 10 年前就现已有论文和书本讲到这个词汇了。仅仅,现在嘉楠耘智将 KPU 申请了注册商标。

▍MPU

Micro Processing Unit。微处理器。MPU,CPU,MCU,这三个概念差不多,知道就行了。

Mind Processing Unit。意念处理器,听起来不错。「解读脑电波」,「意念沟通」,永久的科幻论题。假如收集许多人类「考虑」的脑电波数据,经过深度学习,再加上强壮的意念处理器 MPU,不知道能否成为 mind-reader。假如品德伦理上无法承受,先了解一下家里宠物猫宠物狗的「主意」也是能够的吗。再进一步,从 mind-reader 开展为 mind-writer,继续晋级之后,是不是就能够成为冰与火中的 Skinchanger?

▍NPU

Neural-Network Processing Unit。与 GPU 相似,神经网络处理器 NPU 现已成为了一个通用名词,而非某家鸟鸣涧-betway必威官网登录-betway必威手机版公司的专用缩写。因为神经网络核算的类型和核算量与传统核算的差异,导致在进行 NN 核算的时分,传统 CPU、DSP 乃至 GPU 都有算力、功用、能效等方面的缺乏,所以激发了专为 NN 核算而规划 NPU 的需求。这儿罗列几个以 NPU 名义发布过产品的公司,以及几个学术圈的神经网络加快器。

▍OPU

Optical-Flow Processing Unit。光流处理器。有需求用专门的芯片来完结光流算法吗?不知道,可是,用 ASIC IP 来做加快应该是要的。

▍PPU

Physical Processing Unit。物理处理器。要先解说一下物理运算,就知道物理处理器是做什么的了。物理核算,便是模仿一个物体在实在国际中应该契合的物理规律。详细的说,能够使虚拟国际中的物体运动契合实在国际的物理规律,能够使游戏中的物体行为愈加实在,例如布料模仿、毛发模仿、磕碰侦测、流体力学模仿等。开发物理核算引擎的公司有那么几家,运用 CPU 来完结物理核算,支撑多种途径。可是,Ageia 应该是仅有一个运用专用芯片来加快物理核算的公司。Ageia 于 2006 年发布了 PPU 芯片 PhysX,还发布了依据 PPU 的物理加快卡,一起供给 SDK 给游戏开发者。2008 年被 NVIDIA 收买后,PhysX 加快卡产品被逐步撤销,现在物理核算的加快功用由 NVIDIA 的 GPU 完结,PhysX SDK 被 NVIDIA 从头打造。

▍QPU

Quantum Processing Unit。量子处理器。量子核算机也是近几年比较火的研讨方向。作者供认在这方面所知甚少。能够重视这家建立于 1999 年的公司 D-Wave System。DWave 大约每两年能够将其 QPU 上的量子位个数翻倍一次。

RPU

Resistive Processing Unit。阻抗处理单元 RPU。这是 IBM Watson Research Center 的研讨人员提出的概念,真的是个处理单元,而不是处理器。RPU 能够一起完结存储和核算。运用 RPU 阵列,IBM 研讨人员能够完结 80TOPS/s/W 的功用。

Ray-tracing Processing Unit。光线追寻处理器。Ray tracing 是核算机图形学中的一种烘托算法,RPU 是为加快其间的数据核算而开发的加快器。现在这些核算都是 GPU 的作业了。

▍SPU

Streaming Processing Unit。流处理器。流处理器的概念比较早了,是用于处理视频数据流的单元,一开端呈现在显卡芯片的结构里。能够说,GPU 便是一种流处理器。乃至,还从前存在过一家姓名为「Streaming Processor Inc」的公司,2004 年创建,2009 年,跟着创始人兼董事长被挖去 NVIDIA 当首席科学家,SPI 封闭。

Speech-Recognition Processing Unit。语音辨认处理器,SPU 或 SRPU。这个缩写还没有公司拿来运用。现在的语音辨认和语义了解首要是在云端完结的,比方科大讯飞。科大讯飞最近推出了一个翻译机,能够将语音传回云端,做实时翻译,内部硬件没有去专门了解。和语音辨认相关的芯片如下。

Space Processing Unit。空间处理器。全景摄像,全息成像,这些还都是处理咱们的生活空间。当面临宽广的太阳系、银河系这些世界空间,是不是需求新的更强壮的专用处理器呢?飞向 M31 仙女座星系,对立漆黑武士,只靠 x86 估量是不可的。

▍TPU

Tensor Proc鸟鸣涧-betway必威官网登录-betway必威手机版essing Unit。Google 的张量处理器。2016 年 AlphaGo 打败李世石,2017 年 AlphaGo 打败柯洁,两次人工智能催化事情给芯鸟鸣涧-betway必威官网登录-betway必威手机版片职业带来的冲击无疑便是 TPU 的呈现和解密。Google 在 2017 年 5 月的开发者 I/O 大会上正式发布了 TPU2,又称 Cloud TPU。

▍UPU

Universe Processing Unit。世界处理器。和 Space Processing Unit 比较,你更喜爱哪个?

▍VPU

Vision Processing Unit。视觉处理器 VPU 也有期望成为通用标签5名词。作为如今最炽热的 AI 运用范畴,核算机视觉的开展确实能给用户带来史无前例的体会。为了处理核算机视觉运用中遇到的超大核算量,多家公司正在为此规划专门的 VPU。

Visual Processing Unit。

Video Processing Unit。视频处理器。处理动态视频而不是图画,例如进行实时编解码。

Vector Processing Unit。向量处理器。标量处理器、向量处理器、张量处理器,这是以处理器处理的数据类型进行的区分。

▍WPU

Wearable Processing Unit。一家印度公司 Ineda Systems 在 2014 年大肆宣扬了一下他们针对 IOT 商场推出的 WPU 概念,取得了高通和三星的注资。Ineda Systems 研制的这款「Dhanush WPU」分为四个等级,可习惯一般等级到高端等级的可穿戴设备的运算需求,能够让可穿戴设备的电池到达 30 天的继续续航、削减 10x 倍的能耗。可是,悉数好像在 2015 年戛然而止,没有了任何音讯。只在主页的最下端有文字显现,Ineda 将 WPU 申请了注册商标。

Wisdom Processing Unit。才智处理器。

▍ZPU

Zylin CPU。挪威公司 Zylin 的 CPU 的姓名。为了在资源有限的 FPGA 上能具有一个灵敏的微处理器,Zylin 开发了 ZPU。ZPU 是一种 stack machine(仓库结构机器),指令没有操作数,代码量很小,并有 GCC 东西链支撑,被称为「The worlds smallest 32 bit CPU with GCC toolchain」。Zylin 在 2008 年将 ZPU 在 opencores 上开源。有组织还将 Arduino 的开发环境进行了修正给 ZPU 用。

▍其他非 xPU 的 AI 芯片

寒武纪科技(Cambricon) 中科院布景的寒武纪并没有用 xPU 的办法命名自家的处理器。媒体的文章既有称之为深度学习处理器 DPU 的,也有称之为神经网络处理器 NPU 的。陈氏兄弟的 DianNao 系列芯片架构接连几年在各大尖端会议上刷了好几篇 best paper,为其公司的建立奠定了技能根底。寒武纪 Cambricon-X 指令集是其一大特征。现在其芯片 IP 已扩大范围授权集成到手机、安防、可穿戴设备等终端芯片中。据撒播,2016 年就已拿到一亿元订单。在一些特别范畴,寒武纪的芯片将在国内具有肯定的占有率。最新报导显现,寒武纪又融了 1 亿美元。

Intel Intel 在智能手机芯片商场的失利,让其痛定思痛,一改当年的犹疑,在 AI 范畴的几个运用方向上接连发了狠招。什么狠招呢,便是三个字:买,买,买。在数据中心/云核算方面,167 亿美金收买的 Altera,4 亿美金收买 Nervana;在移动端的无人机、安防监控等方面,收买 Movidius(未发布收买金额);在 ADAS 方面,153 亿美金收买 Mobileye。Movidius 在前面 VPU 部分进行了介绍,这儿弥补一下 Nervana 和 Mobileye(依据视觉技能做 ADAS 计划,不是单纯的视觉处理器,所以没写在 VPU 部分)。

Nervana Nervana 建立于 2014 年,总部在 SanDiego,以供给 AI 全栈软件途径 Nervana Cloud 为首要事务。和硬件扯上联系的是,Nervana Cloud 除了支撑 CPU、GPU 乃至 Xeon Phi 等后台硬件外,还供给有自家定制的 Nervana Engine 硬件架构。依据 The Next Platform 的报导「Deep Learning Chip Upstart Takes GPUs to Task」,Nervana Engine 运用 TSMC 28nm 工艺,算力 55 TOPS。报导发布不到 24 小时,就被 Intel 收买了,悉数 48 位职工并入 Intel。Intel 以 Nervana Engine 为中心打造了 Crest Family 系列芯片。项目代码为「Lake Crest」的芯片是第一代 Nervana Engine,「Knights Crest」为第二代。哦,对了,Nervana 的 CEO 在创建 Nervana 之前,在高通担任一个神经形状核算的研讨项目,便是上面说到的 Zeroth。

Mobileye 一家依据核算机视觉做 ADAS 的以色列公司,建立于 1999 年,总部在耶路撒冷。Mobileye 为自家的 ADAS 系统开发了专用的芯片——EyeQ 系列。2015 年,Tesla 宣告正在运用 Mobileye 的芯片(EyeQ3)和计划。可是,2016 年 7 月,Tesla 和 Mobileye 宣告将停止协作。随后,Mobile 于 2017 年被 Intel 以$153 亿收入囊中,现在是 Intel 的子公司。Mobileye 的 EyeQ4 运用了 28nm SOI 工艺,其间用了 4 个 MIPS 的大 CPU core 做主控和算法调度以及一个 MIPS 的小 CPU core 做外设操控,集成了 10 个向量处理器(称为 VMP,Vector Microcode Processor)来做数据运算(有点眼熟,回去看看 Movidius 部分)。Mobileye 的下一代 EyeQ5 将运用 7nm FinFET 工艺,集成 18 个视觉处理器,而且为了到达自动驾驶的 level 5 增加了硬件安全模块。

比特大陆 Bitmain 比特大陆规划的全定制矿机芯片功用优越,让其大赚特赚。在卖矿机芯片之余,比特大陆自己也挖挖矿。总归,芯片规划才干特殊、土豪有钱的比特大陆对标 NVIDIA 的高端 GPU 芯片,任性地用 16nm 的工艺敞开了自家的 AI 芯片之路。芯片测验已有月余,据传功耗 60W 左右,同步在吸引产品、商场人员。最近的推文爆出了这款 AI 芯片的姓名:「智子(Sophon)」,来自闻名的《三体》,可见野心不小,信任不就行将正式发布。

华为&海思 商场等待华为的麒麟 970 现已很长时刻了,内置 AI 加快器已成揭露的隐秘,据传用了寒武纪的 IP,就等秋季发布会了。仍是据传,海思的 HI3559 中用了自己研制的深度学习加快器。

苹果 苹果正在研制一款 AI 芯片,内部称为「苹果神经引擎」(Apple Neural Engine)。这个音讯我们并不惊奇,我们想知道的便是,这个 ANE 会在哪款 iphone 中用上。

高通 高通除了保护其依据 Zeroth 的软件途径,在硬件上也动作不断。收买 NXP 的一起,据传高通也一向在和 Yann LeCun 以及 Facebook 的 AI 团队坚持协作,一起开发用于实时推理的新式芯片。

还有一些比如 Leapmind、REM 这样的 start-up,就不一一列举。

来自:物联网智鸟鸣涧-betway必威官网登录-betway必威手机版库,我国科普饱览,半导体职业调查,架构师技能联盟等,如侵删。

标签:

Write a Comment

电子邮件地址不会被公开。 必填项已用 *标注