|
简单说说四核心Opteron 2007年9月10日,AMD在全球七大城市举行了巴塞罗那处理器(Barcelona)的盛大发布活动,而中国也成为此次四核皓龙的首发地。目前巴塞罗那百分之百是行业的焦点,甚至在未来很长一段时间内,它的威力都会震荡很久。本次AMD发布的是采用巴塞罗那核心的四核Opteron服务器处理器,包括Opteron 8300、2300系列。今天我们就抢先深入Opteron 2300的内部,看看这些巴塞罗那核心究竟有什么过人之处。 既然要说Opteron就无法避免Intel Xeon四核服务器处理器。所以今天我们也会好好地比较一下这两种产品的优劣。 Opteron 2300系列登场 巴塞罗那是原生四核处理器,也就是在单芯片上集成了四个处理器核心。每一个核心都可以动态地调整来提高每个时钟周期的性能。这些核心都支持32字节指令存取,浮点运算单元可以在一个时钟周期内执行128位SSE指令(包括Intel在Xeon处理器中增加的SSE3指令)。因此,为了提供更高的吞吐量,巴塞罗那核心具备更大的带宽——无论是芯片中的各个单元之间,还是L1和L2缓存之间,或是在L2缓存和北桥芯片、内存控制器之间。 这样新处理器的L1缓存是64KB, 每个核心的L2缓存是512KB,在此基础上,AMD还为新处理器添加了2MB L3缓存,四个核心之间可以共享L3缓存。尽管巴塞罗那处理器的总缓存仍不及Intel Xeon,但是AMD认为共享L3缓存可以有效避免类似Intel的L2缓存争夺问题。 L3缓存后面就是内存控制器,与以前的Opteron一样,巴塞罗那处理器的内存控制器也是集成在CPU里面。AMD说因为对技术进行了更好地调整,所以内存控制器可以更大限度地利用DDR2内存的带宽。另外,新的控制器可以单独访问每一个64位内存通道,在读取数据的同时进行数据写入。甚至在进行数据读取时,内存控制器会关闭写入逻辑模块,反之同理。 而时钟选择(Clock gating)在目前的很多处理器中都有应用,不过巴塞罗那处理器采用的时钟选择技术却有些让人不明白。与其他的x86处理器不同,每一个巴塞罗那处理器核心都有独立的时钟频率,所以每个核心都可以根据需要通过PowerNow技术动态地调高或调低自己的时钟频率。(在Intel目前的Xeon处理器中,任何一个核心在高频运行的同时,其他核心也要提高自己的核心频率。)巴塞罗那处理器电压也因每一个核心在高频时产生的能耗不同而有所差别,不过AMD芯片核心的功率与内存控制器的功率是相互独立的。因此,内存控制器和CPU核心可以在需求的情况下自行降低功耗。 我们已经知道,巴塞罗那处理器大约有4.63亿个晶体管,采用了65纳米工艺,芯片面积是285mm2。 巴塞罗那的目标也很明显:每一个接口的CPU核心数量都翻倍,增加每一个核心在每一个时钟周期内可执行的指令数量,通过利用动态的方法保持相对较低的功耗,以此来大幅提高瓦性能(performance per watt)。同时,AMD还不忘优化一下基于HyperTransport总线技术的系统架构,虽然这需要有更好的平台和芯片组与之相对应。当然,最大的目标莫过于击败Intel Xeon这个强大的微处理器架构,以巩固AMD自己在这个领域里的地位。 四核Opteron处理器的细节 虽然AMD推出了原生四核处理器,但是还有很多配套措施也要继续完善,其中包括支持Socket-F接口的服务器和工作站产品。不过方法很简单,只要对BIOS进行升级,原来的双核服务器处理器就可以升级为四核,而且还不用更换主板、散热器、电源。不过不支持巴塞罗那独立功耗的主板就会比较麻烦。例如,Opteron 2350的默认内存控制器频率是1.8GHz,如果不支持独立电压技术,2350的内存控制器频率就会跌至1.6GHz,如果你再考虑一下L2缓存也要有相同的频率,问题就会比较棘手了。 两颗Opteron 2350 另外,AMD还透露了巴塞罗那处理器的CPU平均功耗(ACP)。Intel和AMD在最大功耗和热设计功耗(TDP)方面的扯皮由来已久。很多年以前,AMD就声称自己的TDP绝对是最大功耗,而英特尔却不是,因此AMD感到很不公平。AMD认为只用简单的数字说话不具备说服力,尤其是在其处理器集成了北桥芯片的情况下,只看数字会误导消费者。 经过一番努力,AMD终于为自己的处理器创造了一种新的功率以解决这个不公平的问题。先不管名字正确与否,ACP其实与“平均”并无多大关系,倒是与高利用率工作量下(high-utilization workloads)的功率有关。AMD通过测试实际工作量来定义处理器平均功耗,并以此来说明自己的处理器功耗一直在降低,同时,AMD也会说清楚处理器的最大功耗。简单说就是这样:标准版Opteron处理器的最大功耗是95瓦,平均功耗不超过75瓦。虽然这看似有些自相矛盾,但的确更公正一些。 现在大家应该知道ACP的来历和意思了。下面就看看Opteron 2300系列的ACP、TDP功耗分别是多少吧。
这五款四核处理器与目前的Opteron产品的基本功耗相同,并且AMD也推出了更为节能、价格更高的HE版。虽然这几款处理器的主频都不算高,同时内存控制器、L3缓存频率也偏低,但是放心,AMD会在今年年底推出频率更高的巴塞罗那,例如主频达到2.5GHz的Opteron 2360 SE高频处理器。不过我们今天还是会让你提前知道2360 SE的性能的。 下面我们就要用Opteron 2350对比一下Intel Xeon E5345、L5335,用Opteron 2360 SE对比Opteron 2218 HE、Intel Xeon X5365。 测试平台和测试方法 ·Opteron 2350 vs. Xeon E5345 - 无论是价格还是性能,这一组的对比都是最直观的。目前E5345的价格是491美元,比Opteron 2350高,但是E5345的主频是2.33GHz,似乎价格高一点也是正常的。 ·Opteron 2350 vs. Xeon L5335 - 这是同频率四核处理器的比较。L5335是Xeon系列的一个新型号,频率较低,按理说应该用它与Opteron 2347 HE进行对比,但是估计很多人都想看看Opteron 2350和L5335的每瓦性能如何。 ·Opteron 2360 SE vs. Opteron 2218 HE - 这一组比较有意思,2218 HE的主频是2.6GHz,2360 SE的主频是2.5GHz。一个新皓龙打一个旧版皓龙,结果会如何? ·Opteron 2360 SE vs. Xeon X5365 - 用最好的Opteron挑战最好的Xeon! 下面有测试平台和测试软件清单,我们尽可能为大家呈现一个直观的对比,因此我们不惜用一样的散热方式来测试Xeon、Opteron处理器。本次我们还增加了一个SPECjbb2005测试。另外,我们还在测试中借用了一下Opteron 2200。 测试平台
以下是测试软件列表,这些都是很大众化的测试软件: ·SiSoft Sandra XI.SP4a 64-bit 内存子系统性能对比 内存子系统性能对比 AMD在很多场合都表示巴塞罗那处理器的整体性能有很大飞跃,下面我们就通过下面这个表格来对比一下。 巴塞罗那的表现的确如之前AMD“广而告之”的那样,在L1和L2缓存翻倍后,虽然主频有所下降,但新处理器果真比旧版Opteron 2200的表现好。 改善巴塞罗那内存控制器的效果在本项测试中体现得淋漓尽致。但Xeon的表现差如此之多还是很让人不解的。也许在后面的测试中会有更多的变化。 而与带宽联系最紧密的莫过于存储延迟(memory access latency)。因为集成了内存控制器,因此Opteron的存储延迟向来比较低,那么巴塞罗那核心的处理器又会怎样呢? 虽然总体优于Xeon,但巴塞罗那的表现也不算很出色。那么通过下面的内存延迟来看看效果吧。黄色代表L1缓存,浅桔色代表L2缓存,红色代表L3缓存,深桔色代表内存。 OK,简单总结一下。Opteron 2350的L2缓存的延迟时间约为23ns,2360的L3缓存延迟时间是19ns。在分级存储器中,延迟的时间是不断累积的,这也就是存储延迟不断增高的原因。巴塞罗那的L3缓存的频率与北桥芯片组的频率相同,因此Opteron 2350/2360 SE的L3缓存频率分别是1.8GHz/2.0GHz。此外,L3 cache在特定状况下可能会带来额外的延迟,四个核心通过缓存进行数据交换时,L3 Cache前端引入FIFO 缓冲设计来均衡巴塞罗那四核之间可能存在运行时钟差异。
SPECjbb2005与Valve VRAD地图编辑测试 SPECjbb2005测试 其实可以用很多不同的方法进行SPECjbb2005测试,通过调整JVM虚拟机、线程分配等就能测出不同的性能表现。我们使用了Sun JVM for Windows x64软件,然后发现Opteron 2360 SE异军突起得分最高,不过垫底的也是Opteron 2218 HE,Xeon处理器则夹在AMD中间。Java字符设置如下: - Xms2048m -Xmx4096m +XX:AggressiveOpts 结果如下: 在以上两项测试中,巴塞罗那的表现还是很抢眼的。Opteron 2350超越了Xeon E5345,2.5GHz Opteron 2360击败3.0GHz Xeon X5365——很有前途! Valve VRAD 地图编辑测试 我们在游戏《半条命2(Half-Life 2)》中使用VRAD lighting工具来进行地图编辑的测试。我们可以看看在《半条命2》这样的游戏里,这些处理器都有什么表现。需要说明的是,这并非实时测试,这也不直接反映游戏过程中处理器的性能。我们只是想让大家看看在游戏中多核心处理器有什么变化。 我们抓了一张任务管理器的图片。这简单说明在使用八个处理器核心时程序运行有多流畅。 是不是有些失望?在SPECjbb2005中独树一帜的Opteron在VRAD地图编辑测试中却几乎完全被Intel Xeon打败:2.5GHz 2360 SE不敌2.33GHz Xeon E5345,2.0GHz 2350也排名倒数。 Cinebench与POV-Ray着色测试 Cinebench测试 这是一个业内公认的基准测试软件,它使用Cinema 4D特效软件引擎,可以也能够CPU、显卡性能测试。虽然我们使用了同一片显卡,但不同的多核心处理器在同一个3D渲染程序下的效果还是不同的。 虽然巴塞罗那处理器在浮点运算方面有所加强,但结果仍然不能让人满意。看看Opteron 2218 HE(2.6GHz)和Opteron 2360 SE(2.5GHz)的单线程性能:它们的时钟周期性能差别就好似K8与巴塞罗那的差别一样。在单线程渲染中,Xeon E5345优于2360 SE,但在多线程渲染中相反。 POV-Ray着色测试 我们使用的是Beta版POV-Ray 3.7绘图软件,它可以支持原生多线程技术。最新的64位Beta版还是比3.6版慢不少,不过可以让我们更清楚地了解性能对比。 在浮点运算方面,巴塞罗那处理器没有什么优势,虽然Xeon L5335(2.0GHz)比Opteron 2350(2.0GHz)稍稍落后。 Beta版POV-Ray在单线程技术支持方面存在一些不足,这会导致在NUMA系统执行方面有一点问题。 MyriMatch与STARS Euler3d测试 MyriMatch测试 对我们来说最重要的是,MyriMatch是一个真正的多线程程序,它可以与相关的数据集一同使用。同时,MyriMatch还可以控制线程,因此我们可以进行一至八线程的测试。 这个应用程序会受到内存带宽或其他因素的限制,超过四线程以后它的运行就不甚理想了。所以现在看起来Opteron 2350、2360 SE可以略胜Xeon E5346、X5365一筹。 STARS Euler3d计算流体力学(Computational Fluid Dynamics,CFD)测试 这种测试软件有单线程和多线程版本。在本项测试中,这一程序主要会分析航行器在飞行时气流的变化:这个测试会计算AGARD 445.6机翼颤振。这里使用的是NACA(美国国家航空顾问委员会)的65A004翼剖面,机翼面板的高宽比例是1.65,锥度比是0.66,四分之一弦长扫描角是45度。计算流体力学包含123万个四面体单元网格和22.3万个节点。报告数值会用“Hz”为单位表示CFD周期频率。 从上述结果来看,2360 SE的确不如其中最差的2.0GHz Xeon。在相同的时钟频率下,2360 SE的性能比2218 HE强两倍左右,但总体来说,Opteron还是不如Xeon的性能强劲。 Folding@Home测试 Folding@Home测试 Folding@home是斯坦福大学的一个“研究蛋白质折叠、误折、聚合及由此引起的相关疾病的分布式计算工程”。简单地说,就是用你的计算机的空余CPU周期协助进行高级医学研究。这一工程利用了无数高度优化的程序来进行斯坦福大学各种不同的研究。例如,Gromacs core使用了Intel处理器中的SSE指令集、AMD处理器中的3DNow!指令集以及PowerPC中的Altivec指令。 The Panorama Factory与picCOLOR测试 The Panorama Factory影像测试 The Panorama Factory是一个专门制作具有360度环场效果的影像式虚拟现实软件,它可以把多幅图片放在一起制造出广角图片。这个软件对内存的要求比较高,但可以进行精确计算和测试,因此The Panorama Factory是64位版本,并支持多线程技术。我们在测试中使用了四张800万像素的图片。 不知道该不该说是意料之中,Opteron再次败给同频率的Xeon处理器。 picCOLOR测试 picCOLOR是FIBUS学院的Reinert HG Müller博士研发的一款图形处理器软件。与PhotoShop不同,picCOLOR完全可以作为质点流量研究等的科学应用程序。我们很幸运,Reinert HG Müller博士为我们提供了一个全新版本的picCOLOR软件,它可以对MMX、SSE2、Hyper-Threading等CPU新技术进行测试。另外,我们使用的picCOLOR软件也是64位版本,因此可以顺带测试x86-64位指令架构。该测试12项功能中的8项为超线程测试。 这一测试最多使用了四线程,而巴塞罗那Opteron处理器的性能与旧版双核Opteron相差不远。 Windows Media Encoder x64与Mandelbrot测试 Windows Media Encoder x64版 Windows Media Encoder是一款广泛使用的视频音频编码工具,它使用四线程来凸现出四核处理器的性能,现在已经有64位版本。如果对超过四线程,甚至对八核心进行测试,这个软件发挥不了什么作用了。为了更好地进行测试,我们用Windows Media Encoder工具把153MB 1080-line宽频视频转换为720-line WMV格式。因为在Windows Vista系统下,默认的“High definition quality audio(高清质量音频)”编码器会报错,因此我们改用“Multichannel audio(多波段音频)”编码器,两种音频编码器都可达到192Kbps的可变比特率峰值。 2.0GHz的巴塞罗那和Xeon处理器几乎不相上下,但Xeon似乎还是略微好一些。相对而言,2.5GHz Opteron 2360 SE也很不错。 SiSoft Sandra Mandelbrot测试 这是由SiSoft Sandra公司研发的一个测试软件,它包括数个不同的方面,其中最吸引我们的是“多媒体”基准测试,它可以展现诸如MMX、SSE、SSE2等多媒体扩展指令集的优劣。这一基准测试会生成著名的Mandelbrot(曼德尔布罗特)分形图(640×480)。我们使用的Mandelbrot测试软件也是64位版本。“Interger x16版”会使用整数来模拟浮点运算。在并行的情况下,“Floating Point”浮点运算版会利用SSE2指令集把Mandelbrot分形图的反复次数提高至8次。 虽然总体而言Xeon的性能比较突出,但从Opteron 2218 HE到2360 SE,近四倍的性能提升还是很让人惊喜的。 POV-Ray功耗对比 POV-Ray功耗对比 接下来我们要用Extech 380803能耗分析仪来看看在使用POV-Ray图形软件时机器的能耗情况,它包括CPU、主板、内存、显卡、硬盘以及其他需要耗能的部件。测试之前,我们通过Windows Server的“Server Balanced Processor Power and Performance”电源配置分别启动了Opteron和Xeon处理器的CPU能耗管理功能——PowerNow! 和Demand Based Switching。 下面大家看到的是无功功耗(Idle Power Consumption)。 与旧版Opteron处理器相比,新的巴塞罗那核心Opteron处理器的无功功耗要更高,也许是因为使用的晶体管更多的缘故,尽管如此还是比Intel Xeon的无功功耗低。另外,与Xeon搭配的FB-DIMM内存比DDR2的功耗更高。 从实际情况看,四核Opteron 2350的功耗居然比双核Opteron 2220低。当然,AMD采用了降低主频的方法来达到降耗的目的,不过效果还不错,尤其是Opteron 2350的功耗居然比低功耗Xeon L5335(TDP:55W)更低,这一点还是十分让人满意的。 运行SPECjbb 2005时的局部能耗对比 运行SPECjbb 2005时的局部能耗对比 这是最后一项测试了,我们要看看在运行SPECjbb 2005软件时的局部能耗。我们把所有的Opteron、Xeon处理器的能耗变化放在一起比较。 结论 结论 基于巴塞罗那核心的四核Opteron处理器与之前的双核Opteron相比,的确有很大的性能提升,无论是进行同频率处理器对比时,还是在Folding@Home Gromacs Core测试中,我们都看到巴塞罗那处理器有很多优势。但仍要指出的是,巴塞罗那的时钟周期性能并不如我们预期的那样理想,尤其是在3D渲染等浮点运算程序中的表现还是稍逊一些。新的处理器架构通常都会搭配不错的时钟频率,例如2.5GHz Opteron 2360 SE,但是L3缓存的作用却不是十分明显。 另外,Opteron 2350(2.0GHz)的价格在服务器市场中还是颇具吸引力的,尤其是与现行的Opteron处理器相比。AMD的HyperTransport总线技术还是有很大的优势,这也是Opteron 2350在SPECjbb2005等测试中有不俗表现的原因。过去几年中,AMD和Intel一直为了能耗与处理器性能的关系问题争论不休,毕竟能耗对于处理器、甚至服务器来说是十分关键的。我们在测试了处理器的无功功耗、最高功耗等,四核Opteron几乎完胜Xeon处理器。 尽管如此,AMD仍旧面临着十分严峻的现实。结合所有的测试结果来看,就算AMD在第四季度推出Opteron 2360 SE等高频版Opteron处理器,AMD处理器并不能很快超越Intel。再说,Intel很快就会推出采用45纳米的“Harpertown”Xeon服务器处理器,这些采用了6MB L2缓存、1066MHz前端总线、主频超过3.0GHz的处理器在时钟周期性能、能耗方面肯定都有提高,这就使得巴塞罗那以后的道路越发艰难。但是我们也要看到,与四核Xeon搭配的FB-DIMM内存的功耗比较大,而AMD处理器的能耗具有很大的竞争力。总之一句话,以后我们总会知道谁赢谁输的。 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||