GPU和FPGA优缺点的对比详细概述你现在要开始了解FPGA了

FPGA极客空间 2018-06-10 11:44 次阅读
GPU和FPGA优缺点的对比详细概述你现在要开始了解FPGA了 我知道,我对与电子有关的所有事情都很着迷,但不论从哪个角度看,今天的现场可编程门阵列(FPGA),都显得“鹤立鸡群”,真是非常棒的器件。如果在这个long8龙8国际pt时代,在这个领域,想拥有一技之长的你还没有关注FPGA,那么世界将抛弃你,时代将抛弃你。 从几个方面来介绍一下GPU和FPGA。 从峰值性能来说,GPU(10Tflops)远远高于FPGA(<1TFlops)。GPU上面成千上万个core同时跑在GHz的频率上还是非常壮观的,最新的GPU峰值性能可达10TFlops以上。GPU的架构经过仔细龙8国际下载(例如使用深度流水线,retiming等技巧),在电路实现上是基于标准单元库而在critical path上可以用手工定制电路,甚至在必要的情形下可以让半导体fab依据龙8国际下载需求微调工艺制程,因此可以让许多core同时跑在非常高的频率。相对而言,FPGA首先龙8国际下载资源受到很大的限制,例如GPU如果想多加几个core只要增加芯片面积就行,但FPGA一旦你型号选定了逻辑资源上限就确定了(浮点运算在FPGA里会占用很多资源)。而且,FPGA里面的逻辑单元是基于SRAM-查找表,其性能会比GPU里面的标准逻辑单元差好多。最后,FPGA的布线资源也受限制(有些线必须要绕很远),不像GPU这样走ASIC flow可以随意布线,这也会限制性能。 除了芯片性能外,GPU相对于FPGA还有一个优势就是内存接口。GPU的内存接口(传统的GDDR,最近更是用上了HBM和HBM2)的带宽远好于FPGA的传统DDR接口,而众所周知服务器端机器学习算法需要频繁访问内存。 GPU和FPGA优缺点的对比详细概述你现在要开始了解FPGA了 但是从灵活性来说,FPGA远好于GPU。FPGA可以根据特定的应用去编程硬件(例如如果应用里面的加法运算非常多就可以把大量的逻辑资源去实现加法器),但是GPU一旦龙8国际下载完那就没法改动了,没法根据应用去调整硬件资源。目前机器学习大多数适合使用SIMD架构(即只需一条指令可以平行处理大量数据),因此用GPU很适合。但是有些应用是MISD(即单一数据需要用许多条指令平行处理,微软在2014年ISCA paper里面就举了一个MISD用于并行提取feature的例子),这种情况下用FPGA做一个MISD的架构就会比GPU有优势。不过FPGA的编程对于程序员来说并不容易,所以为了能让机器学习程序员能方便地使用FPGA往往还需要在FPGA公司提供的编译器基础上进行二次开发,这些都是只有大公司才能做。 FPGA实现的机器学习加速器在架构上可以根据特定应用优化所以比GPU有优势,但是GPU的运行速度(>1GHz)相比FPGA有优势(~200MHz)。 GPU和FPGA优缺点的对比详细概述你现在要开始了解FPGA了 所以,对于平均性能,看的就是FPGA加速器架构上的优势是否能弥补运行速度上的劣势。如果FPGA上的架构优化可以带来相比GPU架构两到三个数量级的优势,那么FPGA在平均性能上会好于GPU。例如,百度在HotChips上发布的paper显示,GPU的平均性能相比FPGA在矩阵运算等标准batch data SIMD bench上远好于FPGA;但是在处理服务器端的少量多次处理请求(即频繁请求但每次请求的数据量和计算量都不大)的场合下,平均性能会比GPU更好。 GPU和FPGA优缺点的对比详细概述你现在要开始了解FPGA了 功耗方面,虽然GPU的功耗(200W)远大于FPGA的功耗(10W),但是如果要比较功耗应该比较在执行效率相同时需要的功耗。如果FPGA的架构优化能做到很好以致于一块FPGA的平均性能能接近一块GPU,那么FPGA方案的总功耗远小于GPU,散热问题可以大大减轻。反之,如果需要二十块FPGA才能实现一块GPU的平均性能,那么FPGA在功耗方面并没有优势。 能效比的比较也是类似,能效指的是完成程序执行消耗的能量,而能量消耗等于功耗乘以程序执行的时间。虽然GPU的功耗远大于FPGA的功耗,但是如果FPGA执行相同程序需要的时间比GPU长几十倍,那FPGA在能效比上就没有优势了;反之如果FPGA上实现的硬件架构优化得很适合特定的机器学习应用,执行算法所需的时间仅仅是GPU的几倍或甚至于接近GPU,那么FPGA的能效比就会比GPU强。

热门推荐

原文标题:谈谈GPU与FPGA的一些看法 文章出处:【微信号:ALIFPGA,微信公众号:FPGA极客空间】欢迎添加关注!文章转载请注明出处。
收藏 人收藏
分享:

评论

相关推荐

FPGA成为数据中心发展的趋势及重要性

用AI防鲨鱼、用AI学写中国书法、用AI预测人类死亡时间、用AI审判罪犯……在人工long8龙8国际pt方兴未艾的今天....
的头像 电子发烧友网工程师 发表于 06-18 07:16 161次 阅读
FPGA成为数据中心发展的趋势及重要性

这种可编程衰减器最高可支持8×8输入输出的矩阵结构

可编程衰减器位于基站和终端之间,通过对射频信号的衰减控制,实现对无线信号的模拟,从而实现对测试场景的....
发表于 06-17 14:02 34次 阅读
这种可编程衰减器最高可支持8×8输入输出的矩阵结构

AMD公开展示了全球首款7纳米制程的GPU芯片原型

虽然7nm原型的发布,表明Radeon Instinct系列取得了良好的进步,但AMD的粉丝,尤其是....
的头像 新智元 发表于 06-16 17:13 261次 阅读
AMD公开展示了全球首款7纳米制程的GPU芯片原型

华为发布了革命性图形处理加速龙8娱乐城官网——GPU Turbo

华为打造出的GPU Turbo龙8娱乐城官网,是一种软硬协同的图形处理加速龙8娱乐城官网,其打破了软硬件的边界,在系统底....
的头像 华为终端 发表于 06-16 17:05 503次 阅读
华为发布了革命性图形处理加速龙8娱乐城官网——GPU Turbo

重磅!2018年中国人工long8龙8国际pt产业展望 四大亮点和四大问题

展望2018年,人工long8龙8国际pt软硬件龙8娱乐城官网创新将持续推进,认知long8龙8国际pt渐行渐近;产业进入稳步增长阶段,行业内资源....
的头像 章鹰 发表于 06-15 14:24 2545次 阅读
重磅!2018年中国人工long8龙8国际pt产业展望 四大亮点和四大问题

了解LatticeECP3 FPGA低功耗测量

看看LatticeECP3 FPGA的功耗是多么的低,无论是在实验室中测量,还是利用莱迪思的功耗计算....
的头像 Lattice视频 发表于 06-15 13:36 99次 观看
了解LatticeECP3 FPGA低功耗测量

介绍LatticeECP3 CPRI 的特点及解决方案

随着无线通信设备对低功耗低成本平台需求的日益增长, LatticeECP3 FPGA 成为降低器件成....
的头像 Lattice视频 发表于 06-15 13:26 100次 观看
介绍LatticeECP3 CPRI 的特点及解决方案

介绍MachXO迷你开发套件的特点与应用

看看利用MachXO迷你开发工具套件来龙8国际下载MachXO可编程逻辑器件是多么容易。 MachXO器件是....
的头像 Lattice视频 发表于 06-15 13:14 100次 观看
介绍MachXO迷你开发套件的特点与应用

介绍FPGA市场发展

2011年12月,Lattice收购了Silicon Blue,斥资6300万美元,使Lattice....
的头像 Lattice视频 发表于 06-15 09:46 89次 观看
介绍FPGA市场发展

你好,DM368中 请问怎么使IPIPEIF、ISIF产生中断信号?

发表于 06-15 02:32 44次 阅读
你好,DM368中  请问怎么使IPIPEIF、ISIF产生中断信号?

Lattice公司FPGA产品三大定位

Lattice公司总裁兼CEO Bruno Guilmart说,该公司FPGA产品定位叁大块:中等密....
的头像 Lattice视频 发表于 06-15 01:49 88次 观看
Lattice公司FPGA产品三大定位

基于omapl138的uart2和FPGA通讯,请问如何修改arm Linux内核的配置?

发表于 06-15 00:07 31次 阅读
基于omapl138的uart2和FPGA通讯,请问如何修改arm Linux内核的配置?

你一定想知道FPGA的那些事...

作者:张泽小脚丫STEP 导读:FPGA(Field Programmable Gate Array....
发表于 06-14 13:35 255次 阅读
你一定想知道FPGA的那些事...

厉害了我的华为!华为Mate 10系列搭载GPU Turbo

华为手机为国产机代言,其中P20销量破600万台了,最近还有个令人惊叹的旗舰机发布了,那就是华为Ma....
的头像 肖青梅 发表于 06-14 11:44 1118次 阅读
厉害了我的华为!华为Mate 10系列搭载GPU Turbo

苹果计划投资300亿美元在美国建立新园区 英特尔计划2020年推出首款GPU

据彭博社北京时间6月13日报道,苹果CEO蒂姆·库克(TimCook)在接受彭博社采访时表示,苹果计....
的头像 章鹰 发表于 06-14 10:32 728次 阅读
苹果计划投资300亿美元在美国建立新园区 英特尔计划2020年推出首款GPU

利用FPGA的可编程性和Java平台良好的移植性的嵌入式系统平台

传统的嵌入式系统龙8国际下载的主要目标是找到一种优化的体系结构来完成单一的,特定的功能。对这样的系统来说,A....
发表于 06-14 09:16 49次 阅读
利用FPGA的可编程性和Java平台良好的移植性的嵌入式系统平台

Skylaking服务器升级 支持Optane缓存和GPU

Hitachi Vantara利用Skylake处理器升级了更多服务器,并增加支持Optane SS....
的头像 存储界 发表于 06-14 09:13 144次 阅读
Skylaking服务器升级 支持Optane缓存和GPU

用FPGA来实现控制电阻的提供的龙8国际下载过程

本文介绍了用FPGA来实现控制电阻的提供,用软件的方式来龙8国际下载硬件,龙8国际下载过程中可用有关软件进行各种仿真....
发表于 06-14 09:06 54次 阅读
用FPGA来实现控制电阻的提供的龙8国际下载过程

一种基于fpga的多轴控制器,可以控制多轴电机的运动

介绍了一种基于fpga的多轴控制器,控制器主要由arm7(LPC2214)和fpga(EP2C5T1....
发表于 06-14 08:24 50次 阅读
一种基于fpga的多轴控制器,可以控制多轴电机的运动

可重构体系结构的异构加速器的发展和应用

近年来,在体系结构的顶级国际会议上,涌现了一批以可重构体系结构为基础的异构加速器工作,成为学术界的研....
发表于 06-13 15:49 103次 阅读
可重构体系结构的异构加速器的发展和应用

为应用选择最佳可编程SoC时进行的六个龙8国际下载考虑

SoC FPGA器件在一个器件中同时集成了处理器和FPGA体系结构。将两种龙8娱乐城官网合并起来具有很多优点,....
发表于 06-13 14:59 125次 阅读
为应用选择最佳可编程SoC时进行的六个龙8国际下载考虑

请问UART与MAC之间如何发送接收信息?

发表于 06-13 14:08 101次 阅读
请问UART与MAC之间如何发送接收信息?

回顾台北GTC的重要发布

计算系统将为全球范围内数万亿美元的产业带来改变,而GPU在计算生态系统中处于核心位置。
的头像 英伟达NVIDIA企业解决方案 发表于 06-13 11:36 347次 阅读
回顾台北GTC的重要发布

FPGA学习系列:13. 任意分频器龙8国际下载

龙8国际下载背景: 分频在 fpga的龙8国际下载中一直都担任着很重要的角色,而说到分频,我相信很多人都已经想到了利....
的头像 FPGA学习交流 发表于 06-13 11:21 490次 阅读
FPGA学习系列:13. 任意分频器龙8国际下载

FPGA学习系列:14. 锁相环pll龙8国际下载

龙8国际下载背景: 在我们龙8国际下载工程中我们会用到100M,500M等时钟,如果我们的晶振达不到我们就需要倍频,....
的头像 FPGA学习交流 发表于 06-13 11:21 643次 阅读
FPGA学习系列:14. 锁相环pll龙8国际下载

FPGA学习系列:15. 呼吸灯(pwm)龙8国际下载

龙8国际下载背景: 呼吸灯 广泛应用于手机之上,并成为各大品牌新款手机的卖点之一。如果手机里面有未处理的通知....
的头像 FPGA学习交流 发表于 06-13 11:21 805次 阅读
FPGA学习系列:15. 呼吸灯(pwm)龙8国际下载

FPGA学习系列:16. rom控制器龙8国际下载

龙8国际下载背景: ROM是只读存储器(Read-Only Memory)的简称,是一种只能读出事先所存数据....
的头像 FPGA学习交流 发表于 06-13 11:21 413次 阅读
FPGA学习系列:16. rom控制器龙8国际下载

补充: FPGA产生基于LFSR的伪随机数

大家好,又到了每日学习的时间了,上一篇《荐读:基于FPGA 的CRC校验码生成器》文中,提到了要实现....
的头像 FPGA学习交流 发表于 06-13 11:21 435次 阅读
补充: FPGA产生基于LFSR的伪随机数

FPGA学习系列:12. 边沿检测龙8国际下载

龙8国际下载背景: 在我们工程龙8国际下载中,有时会需要到上升沿和下降沿这么一个说法,通过上升沿和下降沿来驱动一个电....
的头像 FPGA学习交流 发表于 06-13 11:20 342次 阅读
FPGA学习系列:12. 边沿检测龙8国际下载

荐读:基于FPGA 的CRC校验码生成器

大家好,又到了每日学习的时间了,今天我们来聊一聊基于FPGA 的CRC校验码生成器。下面咱们就来具体....
的头像 FPGA学习交流 发表于 06-13 11:18 358次 阅读
荐读:基于FPGA 的CRC校验码生成器

英特尔进军显卡市场,预计2020年推出独立GPU

英特尔在CPU的地位已经难以撼动,尤其是在电脑端,可以说是称霸已久,但是在GPU方面却没有占据领导地....
的头像 肖青梅 发表于 06-13 11:05 531次 阅读
英特尔进军显卡市场,预计2020年推出独立GPU

IBM全新AI芯片龙8国际下载登上Nature,解决GPU的算力瓶颈

现如今的人工long8龙8国际pt的神经网络与GPU密不可分,但是GPU的算力对于未来神经网络的发展是不够用的,好在I....
发表于 06-13 09:28 77次 阅读
IBM全新AI芯片龙8国际下载登上Nature,解决GPU的算力瓶颈

Web Installer提供的各种特性及龙8国际下载方法

你有没有注意到在Netflix流媒体视频播放时,有时候视频模糊,然后很快恢复到高质量? 你知道Net....
的头像 FPGA开发圈 发表于 06-13 09:19 378次 阅读
Web Installer提供的各种特性及龙8国际下载方法

英伟达提供的GPU为“顶点”提供了95%的计算力

时隔5年后,美国暂时夺回了世界超级计算机领域的头把交椅。
的头像 重庆人工long8龙8国际pt 发表于 06-13 09:17 533次 阅读
英伟达提供的GPU为“顶点”提供了95%的计算力

DE2-115详细中文数据手册免费下载

DE2-115 套装包含了所有使用开发板会用到的器件资源,您额外需要的仅是一台装有微软视窗操作系统的....
发表于 06-13 08:00 32次 阅读
DE2-115详细中文数据手册免费下载

FPGA定点小数的常规格式、相对于浮点小数的优势与劣势和计算的概述

所谓定点小数,就是小数点固定地隐含在某一位置上的数据。由于小数点的位置是固定的,所以就没有必要储存它....
的头像 电子龙8娱乐城官网应用ChinaAET 发表于 06-12 19:34 322次 阅读
FPGA定点小数的常规格式、相对于浮点小数的优势与劣势和计算的概述

关于基于动态连续数据的GPU调试系统的龙8国际下载和实现

随着GPU龙8娱乐城官网的发展,GPU结构变得越来越复杂,对硬件的调试成为一个越来越困难的任务。硬件调试的困难....
的头像 电子龙8国际下载 发表于 06-12 16:35 223次 阅读
关于基于动态连续数据的GPU调试系统的龙8国际下载和实现

Tick-Tock战略或已完蛋,未来的10nm处理器上,英特尔正在考虑放弃核显GPU

还记得英特尔那个Tick-Tock战略吗?每两年升级一次处理器架构,两年升级一次处理器工艺,间隔升级....
的头像 半导体动态 发表于 06-12 15:50 715次 阅读
Tick-Tock战略或已完蛋,未来的10nm处理器上,英特尔正在考虑放弃核显GPU

荣耀9i上手评测:“很吓人的龙8娱乐城官网”加持, 一款如艺术品般的手机

6月6日,荣耀发布旗下新机荣耀9i,依然采用双面玻璃材质,背部12层纳米级工艺,拥有更绚丽的效果,而....
的头像 39度创意研究所 发表于 06-12 09:51 786次 阅读
荣耀9i上手评测:“很吓人的龙8娱乐城官网”加持, 一款如艺术品般的手机

如何在SDK系统中添加新的目标配置

赛灵思SDK允许您使用远程主机中的赛灵思硬件服务器来调试远程目标设备.....
的头像 FPGA开发圈 发表于 06-12 09:11 544次 阅读
如何在SDK系统中添加新的目标配置

FPGA龙8国际下载的WNS太高怎么办?五个窍门帮你打赢FPGA优化战役!

发表于 06-11 16:11 224次 阅读
FPGA龙8国际下载的WNS太高怎么办?五个窍门帮你打赢FPGA优化战役!

verilog 如何驱动AD9280采集电压

发表于 06-11 15:56 190次 阅读
verilog 如何驱动AD9280采集电压

推荐:如何看懂电路原理图

大家好,又到了每日学习的时间了,今天我们来聊一聊如何去看懂电路原理图。 电器修理、电路龙8国际下载都是要通过....
的头像 FPGA学习交流 发表于 06-11 15:15 730次 阅读
推荐:如何看懂电路原理图

如何区分同步复位和异步复位?

问:如何区分同步复位和异步复位?可以理解为同步复位是作用于状态,然后通过状态来驱动电路复位的吗(这样....
的头像 FPGA学习交流 发表于 06-11 15:15 469次 阅读
如何区分同步复位和异步复位?

几幅图弄清DFT、DTFT和DFS的关系

大家好,又到了每日学习的时间了,今天咱们来聊一聊数字信号处理中DFT、DTFT和DFS的关系,咱们通....
的头像 FPGA学习交流 发表于 06-11 15:15 546次 阅读
几幅图弄清DFT、DTFT和DFS的关系

荐读:如何学习FPGA

大家好。又到了每日学习的时候了,近期很多人问我该如何去学FPGA,那么今天咱们就来聊一聊。 一、入门....
的头像 FPGA学习交流 发表于 06-11 15:15 769次 阅读
荐读:如何学习FPGA

C语言包括哪些东西?哪些部分重要,哪些部分需要着重理解?

大家好,又到了每日学习时间了,学习过 verilog HDL 的各位都知道其和C语言有点类似,那今天....
的头像 FPGA学习交流 发表于 06-11 15:15 242次 阅读
C语言包括哪些东西?哪些部分重要,哪些部分需要着重理解?

如何使用 Nios II 处理器进行你中意的龙8国际下载之第二部分教程

使用 Nios II 处理器进行龙8国际下载”第二部分
的头像 英特尔 Altera视频 发表于 06-11 14:36 445次 观看
如何使用 Nios II 处理器进行你中意的龙8国际下载之第二部分教程

AMD在Computex大会上揭幕了全球首款7纳米GPU

AMD公开展示了全球首款7纳米制程的GPU芯片原型,含有32GB的高带宽内存,专为人工long8龙8国际pt和深度学习....
的头像 嵌入式资讯精选 发表于 06-11 09:32 408次 阅读
AMD在Computex大会上揭幕了全球首款7纳米GPU

如何使用FPGA控制ADC0809龙8国际下载一个量程为5V的数字电压表详细资料概述

使用FPGA控制ADC0809,龙8国际下载一个量程为5V的数字电压表。要求采用3位数码管显示电压值,可以显....
发表于 06-11 08:00 30次 阅读
如何使用FPGA控制ADC0809龙8国际下载一个量程为5V的数字电压表详细资料概述

FPGA如何对EM636165TS-6G进行初始化使其进入正常工作状态?

发表于 06-10 20:28 127次 阅读
FPGA如何对EM636165TS-6G进行初始化使其进入正常工作状态?

如何让tSNE在大型、高维数据库上实时进行可视化的详细资料概述

tSNE是目前最为流行的一种高维数据降维的算法。在大数据时代,数据不仅越来越多,而且变得越来越复杂,....
的头像 论智 发表于 06-10 10:06 614次 阅读
如何让tSNE在大型、高维数据库上实时进行可视化的详细资料概述

FPGA工程师的成长轨迹分析

搞定时序分析和约束– 看懂RTL视图和Technology视图第三阶段:从业 -> 专业从产品需求....
的头像 EDN电子龙8娱乐城官网龙8国际下载 发表于 06-09 09:05 418次 阅读
FPGA工程师的成长轨迹分析

基于NVIDIA Quadro GPU创建2000平穹顶大屏幕

在位于俄罗斯圣彼得堡的天文馆1号(Planetarium No. 1)中,通过基于NVIDIA Qu....
的头像 英伟达NVIDIA企业解决方案 发表于 06-08 16:33 582次 阅读
基于NVIDIA Quadro GPU创建2000平穹顶大屏幕

纯数字电路的FPGA,实现平方根是比较麻烦的

如图,使用CORDIC算法计算平方根,FPGA资源的使用情况。逻辑单元使用了10%,乘法器使用的6个....
的头像 FPGA极客空间 发表于 06-08 14:40 364次 阅读
纯数字电路的FPGA,实现平方根是比较麻烦的

解决行业挑战,华为GPU Turbo应运而生

随着人们的大众娱乐终端从主机转向手机,分辨率从VGA到1080P甚至4K,游戏从小型休闲益智类到大型....
的头像 蓝血研究 发表于 06-08 14:31 569次 阅读
解决行业挑战,华为GPU Turbo应运而生

fpga Default Latch FPGA龙8国际下载的独热码的使用和调试技巧的详细概述

发表于 06-07 17:57 208次 阅读
fpga Default Latch FPGA龙8国际下载的独热码的使用和调试技巧的详细概述

几个FPGA时序优化简单技巧

发表于 06-07 17:55 211次 阅读
几个FPGA时序优化简单技巧

如何看待华为发布的GPU turbo龙8娱乐城官网?

发表于 06-07 17:30 773次 阅读
如何看待华为发布的GPU turbo龙8娱乐城官网?

8 忠告 FPGA系统龙8国际下载时序检查问题

发表于 06-07 15:52 259次 阅读
8 忠告 FPGA系统龙8国际下载时序检查问题