
国内外服务器液冷技术发展现状研究
产业观察
引言
微电子电器设备的高效散热一直是现代传热技术的主要应用之一[1] 。电子处理芯片的集成度越来越高, 体积却越变越小, CPU 制程以从65 纳米迈进到32 纳米为主流的年代,GPU 更进入到28 纳米的年代, 由此而引发的是高热流密度的散热问题[2] 。CPU 芯片的发热量已由几年前的1 伊105 W/ m2 左右猛增到现在的1 伊106 W/ m2 左右[3] 。如果散热不良,产生的过高温度不仅会降低芯片的工作稳定性, 增加出错率, 同时还会因为模块内部与外部环境间过大的温差而产生过大的热应力, 影响芯片的电性能、工作频率、机械强度及可靠性。研究和实际应用表明, 电子元件的故障发生率是随工作温度的提高而呈指数关系增长的[4] , 单个半导体元件的温度每升高10摄氏度, 系统的可靠性将降低50%。由于高温会对电子元器件的性能产生非常有害的影响, 例如高温会危及到半导体的结点、损伤电路的连接界面, 增加导体的阻值和形成机械应力的损伤, 研究表明, 超过55%的电子设备的失效形式是由温度过高引起的[5] 。
服务器自诞生以来其系统散热一直是伴随它的发展而无法消除的。常见的服务器大都依靠冷空气给机器降温。随着超级计算机的发展, 芯片的集成度和计算速度不断提高, 能耗也不断增加, 散热问题日趋突显。传统的气冷散热方式是直接移热方式, 依靠单相流体的对流换热方法和强制风冷方法只能用于热流密度不大于10W/ cm2的电子器件, 对于热流密度大于10W/ cm2就显得无能为力。近几年来, 国内的信息化发展日趋成熟, 对信息系统基础设施———数据中心的技术提出更高的要求。对于数据中心而言, 由于需要处理的数据量越来越大, 数据中心的规模也日益增大。随着数据处理业务需求的爆炸性增长和计算机、网络技术的飞跃发展, 银行、保险、证券等金融行业、交通运输、医疗卫生等大型企业及政府机构相继建立起许多数据中心。在数据业务需求和IT 技术的共同推动下, 我国的数据中心建设现已进入了高速发展的时期, 各地的云计算中心、数据中心如雨后春笋般涌现出来。
由于目前主要的冷却方式为风冷, 巨大的数据中心意味着巨额的电费支出。随着数据中心的纷纷兴建, 数据中心的巨大能耗也引起社会各行业的关注。例如, 2013 年中国数据中心保有量约为4.5 万个, 年耗电量约为200 亿千瓦时; 预计到达2020 年, 中国数据中心保有量将超过8 万个, 年耗电量将超过400 亿千瓦时(数据来源: ICTresearch)。国内运营电费动辄数百万元甚至上千万元的大型数据中心已不计其数, 数据中心成为耗电的“无底洞”。
目前的数据中心的能效比不高, 这是因为相关计算技术、供电技术、制冷技术均由历史演进而来。传统数据中心设计追求的是性能, 而新一代数据中心在当今能源紧缺、能源成本迅猛增长的情况下追求的必然是能源效率(PUE), 即数据中心能源利用率。鉴于全球气候日趋变暖、能源日趋紧张、能源成本不断上涨, 数据中心这个企业中的高能耗部门正面临着降低能耗、提高资源利用率、节约成本的严峻挑战, 构建节能型的数据中心受到越来越多的数据中心管理人员和IT 厂商的关注, 并成为未来数据中心发展的必然趋势。
国家相关主管部门对数据中心的能耗管理问题越来越重视。2013 年初, 《工业和信息化部、发展改革委、国土资源部、电监会、能源局: 关于数据中心建设布局的指导意见》(工信部联通也2013页13 号) 中提出了非常具体的要求, 要促进数据中心选址统筹考虑资源和环境因素, 推进资源集约利用, 提升节能减排水平; 出台适应新一代绿色数据中心要求的相关标准, 优化机房的冷热气流布局, 采用精确送风、热源快速冷却等措施, 从机房建设、主设备选型等方面降低运营成本, 确保新建大型数据中心的PUE 值, 即数据中心能源利用率, 达到1.5 以下, 力争使改造后数据中心的PUE 值下降到2 以下。
目前, 数据中心内大量采用的新型机架式服务器和刀片式服务器的热密度正在逐年增加, 采用风冷冷却技术的传统空调系统已经难以满足这类高密对机房的冷却要求。数据中心基础设施的设计者们必须另辟蹊径, 寻找一种高效、合理的冷却模式。
降低数据中心能耗的技术手段有很多, 但根本问题不是解决数据中心建设方式问题,而是要革命性地改变计算机等设备的冷却方式。从目前国内外最新的研究进展来看, 开发新一代的液冷计算机(或称液冷服务器), 使用液态冷媒替代空气对计算机发热元件进行冷却, 是未来计算机设备的一场技术革命。
1 液冷服务器简介
1.1液冷服务器的工作原理
在风冷已经不足以满足目前的制冷需求, 甚至散热已经制约了服务器和数据中心发展的情况下, 液冷服务器应运而生。液冷即利用工作流体作为中间热量传输的媒介, 将热量由热区传递到远处再进行冷却。由于液体比空气的比热大很多, 散热速度也远远大于空气, 因此制冷效率远高于风冷散热, 由于省去了风扇, 也能达到降低噪音的效果。制冷系统的制冷原理主要在于冷量传输的途径差异。冷媒的全热为显热与潜热之和:液体在加热或冷却过程中, 温度升高或降低而不改变其原有相态所需吸收或放出的热量,称为“显热冶, 此时不发生相变; 潜热, 相变潜热的简称, 指单位质量的物质在等温等压情况下, 从一个相变化到另一个相吸收或放出的热量, 这是物体在固、液、气三相之间以及不同的固相之间相互转变时具有的特点之一, 固、液之间的潜热称为熔解热(或凝固热), 液、气之间的称为汽化热(或凝结热), 而固、气之间的称为升华热(或凝华热)。
对于下一代超级计算机, 风冷技术难以实现对系统的高效散热, 而水冷或液冷有两大好处: 一是它把冷却剂直接导向热源, 而不是像风冷那样间接制冷; 二是和风冷相比, 每单位体积所传输的热量即散热效率高达3500 倍。水冷散热器在2008 年左右就出现在市场, 惠普、IBM 等服务器巨头和其他一些专注数据中心技术的公司都先后推出过水冷散热产品。
由于液体的比热容大, 能吸收大量的热量而保持温度不会明显的变化, 液冷系统中CPU 的温度能够得到好的控制, 突发的操作都不会引起CPU 内部温度瞬间大幅度的变化,因此能允许CPU 进行超频工作, 从而节省服务器的数量。此外, 由于泵的噪声很小, 整个液冷系统的噪音相比与风冷系统很小, 可达到“静音机房冶的效果。此外, 由于省却了风扇及机房专用空调系统, 因此节省了电费和耗能。该技术可广泛应用于超级计算机和大型服务器的散热, 为大规模计算中心和数据中心的散热问题提供一个优异的解决方案。
1.2液冷服务器的分类
液冷服务器按照工作介质的不同, 可分为水冷和制冷剂冷却; 按照冷却方式可分为直接液冷, 即制冷剂与电子设备直接接触; 以及间接冷却, 即制冷剂与电子设备间接接触;按照是否发生相变, 可分为温差换热, 即利用制冷剂的温升来带走热量; 以及沸腾换热,即利用制冷剂的气化潜热来带走热量。无论从采用的模式还是选用的冷媒来看, 液冷技术分为很多种。
就系统模式来说, 液冷散热系统主要分为直接冷却式(浸泡式液冷) 和间接冷却式(液冷板、液冷头)。此二种冷却模式各有利弊, 有不同的应用场合。
直接冷却式, 即使被冷却对象与冷媒直接接触, 将服务器主板、CPU、内存等发热量大的元器件完全浸没在冷媒中(见图1)。由于冷却液与被冷却对象直接接触, 散热效果更佳, 且能一次性解决全部元器件的散热问题, 完全不需要额外配置风扇、散热片等。但是此系统对原计算机系统的有较大改动, 需要制作密封舱体用来盛放冷媒; 另外, 该系统对冷媒的要求较高, 需具备绝缘性能好、无毒无害、无腐蚀性等物理化学特性。
间接冷却式, 即冷媒与被冷却对象分离, 并不直接接触, 而是通过液冷板等高效热传导部件将被冷却对象的热量传递到冷媒中(见图2)。此系统对计算机系统改动不大, 仅需将原风冷散热片替换为液冷散热片(液冷头), 并将冷媒管路引出机箱即可; 在间接冷却方式中, 冷媒有其自身通路, 并不与电子器件直接接触, 因此只要液体管路密封性好,冷媒不泄露, 该系统对冷媒的要求较低, 多种冷媒均可实现其功能。其缺点是由于增加了传热过程热阻, 传热温差增大, 制冷效果逊于直接冷却式, 须额外安装风扇对计算机的其他元器件进行散热。
直接式和间接式取决于工作介质是否绝缘, 而温差冷却和蒸发冷却则取决于工作液体的沸点的高低。其中, 使用制冷剂的直接式沸腾换热方法效率最高, 能解决非常高密度服务器的散热问题。
就冷媒来说, 在液冷散热系统中, 有多种产品可选, 如水、变压器油、矿物油、19.8%的乙二醇溶液、13.6%NaC 的盐水、FC_75、Coolanol45、二甲烷饱和溶液等。根据液冷散热系统的工作模式及使用条件的不同, 应选择适合的冷媒。
2 国内外液冷服务器的现状分析
液冷散热系统的散热能力远远大于常规风冷换热方式, 特别适合于解决发热严重、对散热系统要求较高的电气设备的散热问题, 因此适用于对高密度扩展、绿色节能、机房静音的需求比较迫切的大型数据中心和超级计算中心。2.1国内液冷服务器的现状
目前国内知名的多个设备、软件厂商推出了液冷服务器系统产品, 包括曙光、华为、神威蓝光等。联想的NextScale nx360 M5 冷板式液冷服务器产品如图3 所示。华为公司的液冷刀片服务器采用高集成LCS (Liquid Cooling System) 设计, 在1 个标准的42U 机柜中通过部署三台装配有高性能ColdPlate 冷板(CH121 CH140 刀片服务器) 的E9000 融合架构刀片服务器, 即, 在部署96 个2 路刀片服务器的情况下, 对86%的器件进行液体冷却, 相比传统的风冷散热设计可实现50%~60%的能耗降低, 有助于将数据中心PUE 值降至1.2 以下。(见图4)
神威蓝光: 其间接式液冷中的冷却用水是内部封闭循环, 是来自矿泉水厂处理过的纯水。中间是铝制液冷散热板。神威蓝光的优势是集成度高, 水冷散热高效, 可在一个机柜内存放更多的CPU, 仅依靠9 个运算机柜就达到了很高的运算能力。(见图5)
16 核的神威1600 在1.1ghz 的时候, 双精度浮点运算能力是140.8G, i7 980xe 6 核心在3.2ghz, 双精度浮点是107.55G。i7 的功耗是130W, 神威1600 的功耗仅为是70W。
COOLIT 是一家专门制作液冷散热零配件的厂商, 与ASETEK 是SC14 上最大规模的、已开始实现产业化的液冷方案专业制造商。其液冷热交换器有两种规格, 简易型的可对42U 机柜进行散热, 复杂型的可同时对20 个机柜进行散热。
DYNATRON 宣称其液冷可将CPU 的温度降低20%左右, 例如从65摄氏度降到55摄氏度。
可见, 目前国内有很多企业已经开始研发液冷服务器产品。但截至目前, 大部分企业使用液冷技术多采用纯水作为冷媒。众所周知, 含杂质的水是电的良导体,一旦冷媒泄漏, 与主板上的尘埃等杂质混合, 后果不堪设想。且选用水作为冷媒, 是利用水的温升带走发热元件的热量, 只利用了水的显热, 并没有发挥其全部功效, 还有很大的潜能可以发挥。
2.2国外液冷服务器的现状
液冷服务器的用户主要还是大型数据中心和超级计算中心, 已经有一些用户开始使用液冷服务器, 比如美国国家安全局、美国空军、CGG、ORANGE、VIENNA 科学计算集群、日本东京工业大学已经使用了Green Revolution Cooling 的浸没式液冷技术, 美国AFRL、ERDL、法国TUTAL、欧洲AWE 等使用了SGI 的液冷服务器, 德国LRZ 已经使用了联想(原IBM) 的NextScale nx360 M5 冷板式液冷服务器。IBM 的新SuperMUC 超级计算机中心(LRZ) SuperMUC 与IBM x iDataPlex 均采用了水冷技术, 即采用40摄氏度的温水作为IT 设备制冷的冷媒工质。比起普通的风冷系统, 这种水冷系统的散热效率高4000 倍, 能耗也大幅度降低。除此之外, 其产生的热水可以给莱布尼兹超级计算机中心园区的其他生活建筑供热, 每年可节约125 万美元开支。(见图6)
K-computer (京) 的液冷机柜在各系统板上都安装了冷却单元, 能分别向800 多个机架供应冷却水, 将冷却水分配给机架内的24 个系统板。冷却板经配管与冷却单元相连,并与CPU 和ICC 接触为其降温。
Asetek 的液冷机柜该系统在室外侧充分利用室外冷源, 实现自然冷却, 节约数据中心的运维成本。模块化设计为数据中心提供了最大的可扩展性。以1U 服务器(功耗为500W, 其中CPU 及内存功耗为400W) 为例: 80% (400W) 的热负荷来自于CPU 及内存, 采用液冷散热; 剩余20% (100W) 的热负荷采用风冷散热; 由PUE = 1.61 下降至PUE =1.08; 单机柜每年节省电费$ 7784, 能使数据中心节能50%、密度增加2.5 倍。
Green Revolution Cooling 在美国SC14 上展出了直接式液冷系统, 即把服务器浸没在一种矿物油中进行降温, 浸没其中的戴尔R730 机架服务器的CPU 温度为30摄氏度左右。(见图7)
3M 公司在SC14 上展示了其研制成功的一种可挥发的工程液体Nvoec, 这种液体比一般的纯净水、氟化液或矿物油的沸点更低, 能以相变换热的方式带走热量(见图8)。
SGI 展出了超高密度液冷刀片, 通过上下两块扁平的冷板取代了传统的有一定高度的风扇, 使得SGI 可以在一个1U 高、5U 宽的空间里装入两块刀片主板, 上下贴合后散热冷板正好与4 个CPU 直接接触, 散热能力优异, 刀片服务器的部署密度也大大提高。
富士通、超微也在展出了刀片式间接液冷服务器。BULL 展出的液冷服务器不仅在CPU 和内存上覆盖上了冷板, 此外还对INFINIBAND 交换模版也进行了液冷式散热。Liq-uid Cool 展出了自主设计的液冷刀片服务器, 其至强E7 处理器在满负荷运转下的CPU 的温度控制在55摄氏度左右, 其PUE 值可控制在1.1 以下。
NORTECH 的液冷机柜已在中国市场上开拓业务, 并与浪潮合作将其液冷机柜带入BAT 的天蝎计划中。ASETEK 是一家专业的液冷技术供应商, 在展出了多款简洁式液冷服务器。ICEOTOP 的液冷交换机外形类似暖气片, 表面温度约为40摄氏度。惠普推出的Apollo 8000 液冷节点采用间接式液冷, 包括采用水冷技术Apollo 8000 和采用空气冷却技术的Apollo 6000。思科研发的液冷服务器同时对CPU 和内存进行了水冷板散热。
3 结论
由上文可知, 液冷服务器的生态圈已基本成形。从散热方式看, 大多为间接冷板式,产业化规模初步形成, 但也有少量的更具创新性的浸没式, 如曙光的液冷工作站、Green Revolution Cooling 等。从产业链看, 有专门生产专用液体的厂商如3M, 生产液冷配件的厂商如ASETEK、COOLIT, 更多的是液冷服务器厂商CRAY、SGI、BULL、曙光、思科、华为、HP、DELL、超微、泰安等。从适用的机箱大小来看, 以液冷刀片服务器占多数,其次是1U 机架式服务器和塔式工作站。对于单台服务器而言, 使用液冷服务器能够高效准确制冷, 节能降耗, 且由于省却了风扇, 因噪音非常小。
对于机柜来说, 省却了机房专用空调, 节能、低噪, 省电费。而且由于液冷服务器的冷却能力优良, 能在单位空间内布置更多的刀片服务器, 提高热流密度。此外, 液冷服务器还能使得服务器的CPU 能够实现超频工作。
对于数据中心而言, 使用液冷服务器意义更加重大。虽然增加了泵和工作液体循环系统, 但是由于省却了整个空调系统以及基础设施层, 也无需地板下送风和冷热通道封闭技术, 能节省更多的成本和电费。而且能够在单位空间内, 容纳更多的服务器, 从而得到更高的效率。
此外, 液体冷却服务器能够无视海拔、地域的差异, 在任何地方都能正常工作, 高效制冷。而机房专用空调系统则不同, 在不同纬度和海拔的地区, 必须考虑当地的情况进行设计调整。
目前, 已开发的大多为冷板式即间接式液冷服务器。但是, 从长远角度看, 浸没式液冷能解决更高热流密度的散热问题, 而且不需要服务器壳体, 可以将主板直接插入制冷剂中, 能插多密就插多密。但此种方法的缺陷是必须对服务器的主板进行改革。因此, 当数据中心单机柜的热流密度进一步增加时, 浸没式液冷便会得到广泛的应用。
液冷服务器改变了传统的计算机产品形态和使用模式, 解决了服务器风冷散热不足的安全隐患, 为数据中心用户提供精确制冷、高效散热、节能降耗、静音低噪、动态管理等全方位的解决方案, 因此在数据中心的应用前景非常光明, 必然会成为未来数据中心的必然选择。它的兴起为我国高性能服务器的发展与提升提供了新的发展平台和机遇, 大力发展液体冷却服务器系统和相关技术可以改变我国在数据中心领域中建设成本居高不下、运营中能耗巨大且浪费严重的现状, 从而有力推动我国数据中心行业的健康、安全、快速发展, 并将辐射带动一大批涉及数据中心应用企业的发展, 最终推动数据中心在政府、商业、教育、公共安全等领域的应用, 具有十分重要的经济意义与政治意义。
参考文献:
[1] 熊建国. 小型重力型微槽道平板热管蒸发器内纳米流体沸腾换热特性的实验研究. 硕士学位论文. 上海: 上海交通大学, 2007
[2] 林梓荣. 自激式震荡流热管热输送性能研究郾博士学位论文. 广州: 华南理工大学, 2012
[3] 庄骏, 张红. 热管技术及其工程应用. 北京: 化学工业出版社, 2000
[4 ] G.P.Peterson.An Introduction to Heat Pipes-Modeling Testing and Applications.John Wiley&Sons Inc. New York, 1994
[5 ] M.Janicki, A.Napieralski.Modeling Electronic Circuit Radiation Cooling Using Analytical Thermal Model.Microelectronics Journal.2000, 31 (9 -10): 781 -785
本文摘自《数据中心基础设施规划设计中的若干问题》一书。
作者:曙光信息产业(北京) 有限公司 沈卫东 王晨 吴宏杰 崔新涛
《数据中心基础设施规划设计中的诺干问题》图书订购联系方式:
联系人:罗先生
联系电话:18600601575
邮箱:luolei@gdctech.org
北京汇信中通咨询有限公司 版权所有
电话:010-62361332 传真:010-82022211 客服邮件:service@ictresearch.com.cn
地址:北京市西城区有研大厦A座306室 邮编:100088
京ICP备10011962号
电话:010-62361332 传真:010-82022211 客服邮件:service@ictresearch.com.cn
地址:北京市西城区有研大厦A座306室 邮编:100088
京ICP备10011962号
