回首页
小熊论坛 | 用户名: 密码: 没有注册?
我现在的位置:小熊在线首页 -> 显卡频道 -> 正文

拳打26XT脚踢86GTS-8600GT深入详测

BEAREYES.COM 北京 [ 原创 ] 作者:小熊在线——WolStame 日期:2007年09月19日


第9页:释放管线的能量(上)

如果你新开一家公司,当它规模还很小的时候,往往只需要简单的规划和控制,就能达到销售目标。但是如果公司的规模继续扩大,事业进入正轨,那么,一个高效的管理机构就非常重要。这个道理对于GPU来说是一样的,GPU规模越大,流水线越复杂,高效的管理体系就越发重要。小熊在线www.beareyes.com.cn

Multi-Threading(多执行诸架构)作为整个流水线的管理体系在次世代GPU中的重要性已经越来越高。单纯论FLOPS(理论浮点运算能力),G80并不会比ATi之前的R580芯片高多少,但凭借高效率的Multi-Threading设计,G80在所有的游戏中都可以轻易击败R580并将它抛离很远。从这个例子里,我们就会看到另一个增加IPC(Instruction per cycle,每周期指令吞吐量)的重要途径——提高TLP(Thread Level Parallelism,线程级并行性)在新一代GPU的架构中所发挥的作用。小熊在线www.beareyes.com.cn

在介绍G8X和R6XX的Multi-Threading体系之前,我们先来看看引入Multi-Threading的意义。

我们知道,随着时钟频率的提高,GPU受到外部存储器(显存)的影响越来越大。一个工作频率在600MHz的GPU,内部每个时钟周期的长度在1.6ns左右,而我们可怜的显存还在以200-300MHz(2.0GHz GDDR4)的速度工作(GDDR4使用8位预取结构[Octal Data Rate]设计,数据频率是核心频率的8倍)。更加糟糕的是,GPU对显存的存取动作的指令也会有延迟周期(CAS,RAS),这样,从GPU开始存取放在芯片外面的DRAM,到第一个data送出的时间差最小也有几十个ns,以GPU内部的时钟频率而言可能会有几十到上百个周期的损失。传统意义上的流水线在这种情况下会陷于无限的等待之中,这会对GPU的正常工作造成严重的影响。
下面是一个Multi-Threading掩盖存储器延迟的实例:

进入Shader时代后,事情开始进一步变得麻烦了。随着游戏引擎的复杂化,流水线再也没有固定的处理流程。例如,现在游戏中常见的HDR光照首先需要将一个预先写好的整个场景的光照信息保存在FP格式的texture里,然后利用ALU进行算术运算渲染到另一个目标纹理并求出平均亮度,输出的像素必须在TMU单元中经过一次混合过滤,最后根据已有的事先写好的效果再对像素进行Texture混合,整个过程要通过Pixel Shader不断的算术运算来为纹理加上想要的效果,不再是单方向的深度流水线;Displacement mapping需要颠覆正常的VS->PS的渲染流程,让VS利用顶点纹理拾取(Vertex Texture Fetch,实质上就是给VS配备mini TMU)或者渲染到顶点缓存(R2VB)的方式从PS读取纹理信息直接映射到顶点上,这又改变了流水线的行进方向;一些复杂的光照生成用到的Deferred shading(延迟渲染)技术,要先输出G-Buffer到MRT,等所有几何渲染都完成后,然后回过头来根据MRT再进行着色......

举个例子:
code:
add r1, r2, r3
add r3, r1, r2

很明显,第二条指令需要第一条指令的结果,对于这种相关性的指令,由于流水线的关系,add指令可能需要n个周期才retire,所以第二个add需要等待流水线完成才能进行处理。传统GPU只能白白浪费时钟周期,而R6XX或者G8X遇到这样的情况就直接切换到其他的thread执行,最大限度的保证处理单元的利用率。小熊在线www.beareyes.com.cn

《释放管线的能量(中)》...继续下一页>>

《流水线中的乾坤》...返回上一页<<


[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [上一页] [下一页]

《拳打26XT脚踢86GTS-8600GT深入详测》分页索引


第1页:前言
第2页:影响中端GPU的因素
第3页:摩尔定律的困境
第4页:参赛阵营简介1:NVIDIA GeForce 8600/8500
第5页:参赛阵营简介2:AMD-ATi Radeon HD 2600/2400
第6页:工艺制程的障碍与阻力
第7页:SIMD流水线的问题
第8页:流水线中的乾坤
第9页:释放管线的能量(上)
第10页:释放管线的能量(中)
第11页:释放管线的能量(下)
第12页:两家芯片的其他特点
第13页:参测产品ECS 8600GT介绍(上)
第14页:参测产品ECS 8600GT介绍(中)
第15页:参测产品ECS 8600GT介绍(下)
第16页:参测产品ECS 8600GT频率规格以及总结
第17页:测试环境和游戏选择
第18页:F.E.A.R. DX9.0c
第19页:上古卷轴4:湮没 DX9.0c
第20页:潜行者:切尔诺贝利的阴影 DX9.0c
第21页:幽灵行动:尖峰战士2 DX9.0c
第22页:科林麦克雷越野:尘埃 DX9.0c
第23页:英雄连 DX10
第24页:失落的星球:极限状态 DX10
第25页:狂野西部 DX10 benchmark
第26页:世界冲突 DX10
第27页:敌占区:雷神战争 OpenGL
第28页:性能测试结论
第29页:HDTV-电脑的专有玩物?
第30页:关于各类编码的详细分析(上)
第31页:我们用户关心的事情是?
第32页:什么编码最令人头痛
第33页:什么样的CPU能够满足H264/VC-1/MPEG2片源软解的要求
第34页:AMD/INTEL多达11款CPU的纯软解压测试-H.264
第35页:AMD/INTEL多达11款CPU的纯软解压测试-VC-1
第36页:AMD/INTEL多达11款CPU的纯软解压测试-MPEG2
第37页:NVIDIA PUREVIDEO介绍
第38页:解码器,分离器以及DXVA的概念
第39页:PowerDVD开启硬解设置指南
第40页:终极解码以及完美解码设置指南(上)
第41页:终极解码以及完美解码设置指南(下)
第42页:KMPlayer播放器设置指南(上)
第43页:KMPlayer播放器设置指南(下)
第44页:KMPlayer播放器设置H.264硬解指南
第45页:KMPlayer播放器设置VC-1硬解指南
第46页:KMPlayer播放器设置MPEG2硬解指南
第47页:如何确认自己已经打开硬加速(上)
第48页:如何确认自己已经打开硬加速(下)
第49页:PureVideo开启与否测试

全文

BEAREYES.COM 北京 日期:2007年09月19日

网友评论:(请各位网友遵纪守法并注意语言文明,留言仅供参考不代表本站立场) TOP↑
用户名: 密码: 没有注册?
点击排行
留言排行
小熊在线公司版权所有 beareyes.com ©1999-2007 All Rights Reserved
本网站由 北京快网 提供FastDNS智能解析服务