回首页
小熊论坛 | 用户名: 密码: 没有注册?
我现在的位置:小熊在线首页 -> 显卡频道 -> 正文

NVIDIA夺面双雄 GT200全球同步首测

BEAREYES.COM 北京 [ 原创 ] 作者:小熊在线-硬件评测室 日期:2008年06月16日


第8页:夺面双雄第一面:GT200并行计算架构

    可以说,NVIDIA在开发GT200时更多的考虑是如何将其并行计算能力发挥到极致,下面以Geforce GTX 280为例来分析一下GT200的并行计算架构(Parallel Computing Arthitecture)。GT200庞大的核心Shader阵列和新增的功能单元,更多是出于提升并行计算的能力和效率而设计的。

  

  GT200并行计算模型包括一个庞大的TPC线程阵列,共有10组,每组TPC阵列拥有一个基于硬件的线程管理器(thread Scheduler)、材质纹理缓存(Texture caches)、L2纹理缓存、显存界面单元(Memory Interface units),纹理缓存通过“Atomic”单元来自动调整和控制对显存的读写访问操作。控制Combine内存访问,为实现更高效和更高带宽的内存读写操作。“”Atomic单元的功能是提供内存定址和减少并行,和并行数据结构管理。

 和传统CPU当中片上缓存占据大部分芯片面积不同,GeForce GTX 200 GPU当中,大部分芯片面积都用来进行图形和计算处理。粗略的统计显示,CPU芯片当中只有20%的晶体管专门用来进行逻辑计算,而GPU芯片当中有80%的晶体管都用来进行逻辑计算。

每个SM单元共享16k缓存

  GT200内部的每个TPC均集成3个TPA,NVIDIA在每个TPA均加入了16KB本地共享缓存。TPA单元中的线程处理核心不仅可以与同TPA中的其他处理器交换数据,与其他TPA单元中的线程处理也可以通过共享内存交换数据,不需进行读取、写入操作,也不用占用外部LI缓存,完全做到数据共享,这种架构设计会大大提升线程并行的效率,加速计算的速度,并且对各种类型的计算都有显著的加速效果,其实这种设计也是在将计算延迟降到最低。

  一个TPC单元,在每三个SM模块阵列中拥有16k片上共享缓存,位于SM中的每个流处理核心与其它核心共享数据,而不需要去访问外部的显存部分。

  线程处理器中包含3个部分,运算单元(包括浮点与整数运算)、寄存器,运算单元负责数据的浮点、整数及二进制位(bit)内存操作、,逻辑操作运算,寄存器组则相当于缓存的功能,负责数据的存储。

  通过240个线程计算器与1300MHz的线程处理器频率,GeForce GTX 280可提供933 gigaflops的浮点运算能力,比G80的浮点能力翻了一番,对比目前顶级的酷睿2处理器则可以提供的30~50 gigaflops能力,高出了几十倍。另外我们需要注意的是,之前在比较GPU与CPU处理能力的时候总是忽略的整数性能的比较,这是因为之前用于GPU与CPU不同的程序,而如果GPU要真正通过CUDA架构涉及桌面级的主流程序运算,整数能力也就变得至关重要,因为3D以为的程序通常考验的是处理器的整数能力。不过无须担心,因为GeForce GTX 280的整数能力同样是目前顶级CPU的几十倍。

《让线程满负荷高效工作 SIMT架构解析》...继续下一页>>

《CUDA要革谁的命?X86处理器很紧张》...返回上一页<<


[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [上一页] [下一页]

《NVIDIA夺面双雄 GT200全球同步首测》分页索引


第1页:前言
第2页:索引
第3页:超越自我 GT200目标1.5倍G80性能
第4页:GPU发展之路:从CPU手中夺权开始
第5页:谁能主导未来 GPGPU和CUDA差异比较
第6页:CUDA如何调用GPU众多线程
第7页:CUDA要革谁的命?X86处理器很紧张
第8页:夺面双雄第一面:GT200并行计算架构
第9页:让线程满负荷高效工作 SIMT架构解析
第10页:CUDA实例—Folding@home分布式计算
第11页:CUDA走进桌面应用 GPU视频转码比CPU快18X
第12页:CUDA PhysX物理加速
第13页:夺面双雄另一面:GT200图形处理架构
第14页:英雄难过美人关 GT200 Tech Demo解析
第15页:改进的几何着色和流输出
第16页:Register file寄存器数量翻倍
第17页:Dual-Issue的回归
第18页:改善的纹理性能
第19页:更高的像素/纹理比率
第20页:ROP为高分辨率改进 增加到32个
第21页:引入512bit位宽 带宽高达142GB/s
第22页:渲染管线和架构的额外增强
第23页:动态功耗管理
第24页:GTX280/260规格
第25页:更像是一款艺术品 GTX280实物赏析
第26页:GT200 Die Size达576mm2
第27页:GTX280采用P651版型
第28页:GPU、NVIO2、供电单元
第29页:公版GeForce GTX280细节
第30页:公版GeForce GTX280散热器
第31页:XFX GTX 280显卡
第32页:耕昇GTX 280显卡
第33页:耕昇GTX 260显卡
第34页:测试平台说明
第35页:GPU视频转码测试
第36页:Folding@home测试
第37页:3DMark Vantage
第38页:纹理/像素填充测试
第39页:GPU物理性能测试
第40页:LightMark 2007
第41页:Crysis
第42页:ASSASSINS CREED
第43页:Call of Duty 4:Modern Warfare
第44页:Unreal Tournament 3
第45页:BioShock
第46页:Company of Heroes:Opposing Fronts
第47页:Lost Planet: Extreme Condition
第48页:Call of Juarez benchmark
第49页:World in Conflict
第50页:Enemy Territory:Quake Wars
第51页:功耗需求情况
第52页:第七部分:GT200与G80性能比较
第53页:GTX200引领异构计算的未来

全文

BEAREYES.COM 北京 日期:2008年06月16日

网友评论:(请各位网友遵纪守法并注意语言文明,留言仅供参考不代表本站立场) TOP↑
用户名: 密码: 没有注册?
点击排行
留言排行
小熊在线公司版权所有 beareyes.com ©1999-2007 All Rights Reserved
本网站由 北京快网 提供FastDNS智能解析服务