浅谈近来国产CPU的成就

中无通讯61期文︰www.linkwan.com 林和安小洛夫

中国内地产业正在升级转型，从过去的劳工密集型升级到智识密集型产业。即以中国的IT产业为例，中国正逐渐全面掌握芯片的半导体技术，从早期的芯片封装、测试，中期的芯片生产技术，到现时掌握层次更高的芯片设计，中国CPU真的来了，这次笔者以申威超级计算机、龙芯服务器、华为(海思)4核心智能手机，从各方看看国产CPU的最新成就。

位列Top 100世界超级计算机—申威1600

申威 1600W超级处理器

2009年中国发表自主研发的超级计算机，位列Top500世界超级计算机排行榜第二名。而在2010年10月更升级为天河-1A，一跃成为第一位，此一纪录直至2011年6月才被日本的“京”超级计算机所超越。虽然天河-1A的成就令鼓舞，但它采用的CPU及GPU等核心配件分别为外国厂商Intel及NVIDIA的出品，所以天河-1A只属于中外技术的成品，不能说是真正的国产超级计算机。不过中国国产超级计算机之梦随即实现，在2011年10月27日揭幕的国家超级计算济南中心，以国产CPU达成超级计算机，成为中华民族之光。

世界超级计算机Top100排第14名

这台名为神威蓝光的国产超级计算机，采用8704颗16核心的申威1600处理器，采用外国厂商主导的:InfiniBand QDR技术交换器技术，连续浮点运算能力高达798TFLOPS、峰值可达1.07PFLOPS，LINPACK效率高达74.4%。这样出众的成绩一推出即位列2011年11月世界超级计算机Top500排行榜第14名(见http://www.top500.org/list/2011/11/100)、中国超级计算机Top100排行榜第2名(见http://www.samss.org.cn/sites/shuxue/pcC.jsp?contentId=2657331594092)，可见其性能强悍，足以挤身世界顶级超级计算机平台的前列位置。

神威蓝光国产超级计算机采用了8704颗申威1600处理器

在世界超级计算机Top500排行榜排第14名

在中国超级计算机Top100排行榜排第2名

技术源自DEC Alpha 21164

有谓万丈高楼从地起，申威1600技术源于鼎鼎大名的DEC Alpha 21164。DEC Alpha 21164是90年代盛极一时的高性能服务器/工作站处理器，其技术影响后世CPU的发展良多，如超纯量(Superscalar)的工作方式为Intel Pentium处理器所沿用，而EV6总线更成为AMD Athlon处理器的前端总线(FSB)，时至今日，DEC Alpha团队已被并入Intel Itanium研发团队中，继续从前顶级服务器处理器的研发工作。

虽然官方消息表明申威1600技术源于DEC Alpha 21164，但没有具体说明采用了后者甚么技术，只说明是采用国人自行开发的CPU指令集，属于精简指令集(RISC)微架构。另负责CPU研发的江南计算器所属于军方研究机构(总参56所)，得到国家「核高基」重大专项的支持，基于国家安全不公开最机密的指令集架构是可以理解的。

一代名处理器Alpha 21164成为申威1600设计的基础

产品己经历三代拥有16核心

据官方消息表示，申威1600属于第三代产品。第一代申威SW-1在

2006年发表，采用单核心设计、130nm制程工艺及900MHz工作频率。第二代申威SW-2在2008年发表，采用双核心设计、130nm制程工艺及1.4GHz工作频率，工作功耗在70-100W。至于第三代即本文的主角申威1600，内建16个RISC 64位核心，65nm制程工艺及975-1200MHz工作频率，浮点运算能力高达140.88GFLOPS(1.1GHz工作频率表现)，作为参考Intel Nehalem-EX 8核心为96GFLOPS(3.0GHz工作频率)、AMD Opteron 6100 12核心为83.2GLOPS(2.6GHz工作频率)、IBM Power 7 8核心为131.2GFLOPS(4.1GHz工作频率)。

申威1600采用低功耗设计，首先是它的最高工作频率不过是1.2GHz，其次是它设有标准及省电模式，使工作功耗低至35~70W左右，因此采用它的神威蓝光超级计算机功耗才1兆瓦，作为对比天河为4兆瓦，美州虎为7兆瓦。

申威1600处理器的介绍海报。

神威蓝光超级计算机采用胖树结构，各节点之间以QDR 4 x 10Gbps高速串行接口连接。

神威蓝光超级计算机采用液冷散热。

龙芯CPU正式染指服务器市场

龙芯3A服务器用CPU。

龙芯作为知名度高的国产CPU，其一举一动倍受华人世界所关注。早期的龙芯一、龙芯二因为运算性能不高，主要针对嵌入式方案及入门级笔者记计算机市场为主，而在累积两代产品的研发经验后，第三代的龙芯开始进军服务器市场，并跟宝德科技公司合作推出一系列产品，包括2x Socket的高阶版本，虽然与主流CPU性能存在不少的距离，但在国产CPU的发展上却写下新的一页。

龙芯3A采针对服务器的多核心设计

从龙芯1到龙芯3A，龙芯可说是经历了三代微架构的发展。从龙芯二开始，龙芯迎来了1GHz工作频率及对64bit的支持；而到了第三代，大突破是加入多核心设计，支持4-8个核心，并开始支持多SMP多CPU工作，令运算速度倍增。据说龙芯3A(4核心设计)的双精度浮点运算能力可达16GLOPS，而传说中的龙芯3B(8核心设计)更达128GLOPS，竟比Core i7 980X的107.55GFLOPS还要高，同一家族产品性能竟可差8倍，实教人难以相信，事实如何相信要待产品推出后才知分晓。

龙芯3A产品规格︰工作频率1GHz 核心数目4个指令集MIPS64及龙芯扩展指令集 L1 Cache64KB(Data) + 64KB(Instruction) L2 Cache4MB 工作总线2x HyperTransport 12.8GB/s 整合内存控制器2个64bit DDR2/3-800 晶体管数目4.25亿制程65nm CMOS 核心面积173mm2 封装40mm x 40mm, BGA 1121pin 功耗<15W

龙芯3A电路图，可以见到有2个HT控制器及4个核心。

支援双龙芯3A的主机板，采用的是旧式AMD RS780E + SB710芯片组。

另一款支援单龙芯3A的主机板。

借用外国厂商现成架构

龙芯3A在微架构方面仿照了AMD Athlon II的设计，特点是把内存控制器，北桥芯片等功能整成到CPU去，再以HyperTransport作为对外连接的接口，而Core与Core之间的通信以Xbar小型交换机处理，以加快处理速度。与此同时，每个Core还有专属的1MB L2 Cache存放重要的数据。笔者认为，龙芯3A的微架构使用市场上成熟的技术，可以降低研发时间及风险，但以现在的标准来看未免落后，特别是新一代CPU普遍加入共享L3 Cache设计，提升多核性能。

率先上市的两款龙芯3A服务器

这次展出龙芯3A服务器的，是一家名为宝德科技公司的深圳公司，共推出了两款龙芯3A产品，分别为PL-001及PR2920L。前者主要针对工业服务器使用，采用1U设计方便上架，后者则是2x Socket设计，可提供较高的效能。

PL-001工业服务器产品规格︰ CPU1x 龙芯3A 1GHz 主机板AMD RS780E + SB710 内存4x DDR3 DIMM，最大8GB 显示功能整合ATI M72显示控制器硬盘2x 3.5吋或4x 2.5吋SATA 其它Realtek Gigabit LAN & HD Audio 尺寸483mm(W) x 44.4mm(H) x 412mm(D), 19英寸1U标准上架机售价约$7000RMB

PR2920L双路部门级服务器产品规格︰ CPU1-2x 龙芯3A 1GHz 主机板AMD RS780E + SB710 内存8x DDR2 DIMM，最大8GB 显示功能整合ATI M72显示控制器硬盘8x 3.5/2.5吋SATA/SAS 其它2x Intel Gigabit LAN, SATA DVD-ROM 机型19英寸1U标准上架机尺寸675mm(W) x 88mm(H) x 430mm(D) 售价约$20000RMB

性能更胜国外同级产品—华为(海思)4核心智能手机

海思K3V2 4核心智能手机处理器。

最后要介绍的是华为(海思)4核心智能手机CPU。它由一家名为海思(HiSilicon Technologies Co., Ltd.)的公司开发，型号为K3V2。海思公司成立于2004年10月，前身是华为的ASIC 设计中心，总部位于深圳，设计团队分布北京、上海、美国硅谷、瑞典。2010年年底拥有3000名员工，有兴趣的读者可到www.hisilicon.com了解更多。首批采用海思K3V2 4核心CPU的手机为华为Ascend D quad及Ascend D quad XL。

采用K3V2 的华为4核心手机

采用英国ARM 公司授权架构

K3V2 CPU架构由英国ARM公司授权而来。提起ARM公司，严格来说只是一家芯片架构设计公司，既没有自己的半导体工厂，更没有面向最终市场的产品。他只负责CPU微架构的研究，而后通过授权的方式赚钱，有效避开风险及营销产品的各式各样的开支。而对于海思公司来说，马上便可取得市场上成熟可靠的架构，确保可与他牌基于ARM架构的CPU相容。海思公司仅需专心从事CPU的设计优化及市场推广，工作效率极高。

在架构的选用上，K3V2使用目前最流行的ARM Cortex-A9架构，在40nm制程下核心面积12×12 POP，比另一款外国厂商NVIDIA Tegra 3 4核心处理器的14×14 BGA细小，成为目前业界体积最小的4核心智能手机CPU。K3V2 拥有4个最高1.2/1.5GHz的处理核心，设有热管理技术，在确保CPU温度安全的情况下，最大发挥CPU效能。据海思方面表示，K3V2的Dhrystone MIPS达15000，超过Tegra 3已知的13800 DMIPS(编按︰MIPS是Million Instructoins per second的简写，即每秒执行100万次指令，是目前衡量智能手机CPU性能的重要指针。

K3V2的另一优势是在I/O性能，它拥有目前手机处理器最高端的64bit LPDDR2控制器，是外国Tegra 3 32bit控制器的一倍。不过Tegra 3可以支持DDR3-L 1500内存，以较高的内存工作频率补频宽之不足。

内建 16核心GPU

在多媒体性能方面，K3V2采用ARM公司的NEON多媒体指令集，兼容性比外国Tegra 3好。内建的GPU为32bit Immersion 16，拥有16个super GPU核心，数字上比Tegra 3的12个核心为多，但NVIDIA既为显示界的霸主，拥有强大的显示性能及兼容性，实际性能需视乎应用的不同而定。已知Immersion 16在超大型3D游戏，运行速度及流畅度可以与PC媲美。

采用各种省电技术

K3V2采用了多项技术降低功耗，宣称在同样电池容量下，比传统设计的手机可延长30%电池使用时间。它通过通讯算法优化、智能低功耗和全硬件调频调压技术，处理器各部件能因应当前的操作需求，灵活地配置性能水平，避免电力空耗的情况。不过与外国Tegra 3为省电而设的4+1架构，以慢速核心及快速核心负责不同的工作，则外国Tegra 3似乎更能针对省电作出优化，但代价是耗用更多的晶体管作为慢速核心之用，成本较高。

结论︰

总结申威、龙芯及华为(海思)等国产CPU成就，得出两点结论。第一是他们均避开Intel、AMD主导的x86，避免可能遇到的技术投权等复杂问题。事实上现时x86架构的主导权牢牢的控制在Intel手里，像最新的SSE4.1/SSE 4.2及AVX指令集均需要Intel授权。与其在授权问题上与外国厂商虚耗时间，不若把时间投放在产品研发上更为划算。第二是在发展自家CPU系统时，有效化借用外国成熟的技术。比如龙芯CPU使用AMD HyperTransport总线、AMD主机板芯片组等等，既可节省研发的时间、费用及技术风险，而且最重要的CPU核心设计智识产权控制在国人的手上，借力打力，四两拨千斤，在短短十年多时间追上西方社会花几十年时间才有的成就，体现了中华民族的智慧及刻苦耐劳的精神。展望未来，中国能够推出更多高性能的CPU，而且是技术上处于世界领先水平的作品。

大中华印艺网

大中华印艺网

毕昇简介

浅谈近来国产CPU的成就

近期文章

站内搜索

翻译-Translate