大规模集群系统的性能评价与通信优化研究

CORC > 软件研究所 > 中科院软件所 > 中科院软件所

题名	大规模集群系统的性能评价与通信优化研究
作者	唐渊
学位类别	博士
答辩日期	2004
授予单位	中国科学院软件研究所
授予地点	中国科学院软件研究所
关键词	大规模集群系统性能评价通信优化通信行为方式热点测试用户级通信 LINPACK标准 FFT标准
其他题名	Research on the Performance Evaluation and Communication Optimization of Large Scale Cluster System
学位专业	计算机软件与理论
中文摘要	传统上说，使用互连连接完整计算机称为“集群（clusters）”，用于分担程序的工作负荷，改善系统可用性。从历史上看，许多大规模科学计算的应用软件最初都是在早期的共享存储体系结构的超级计算系统上研制并开发的，要移植到分布式体系结构的集群系统上，除了从通信算法，减少全局通信，尽量使用局部通信；改进迭代算法等方向进行研究以外，很重要的一点是还必须从现代集群系统所用通信平台的底层，包括硬件和系统软件两方面来着手进行改进和有针对性的优化。这包括对原集群系统所用百兆以太网上的MPI-TCP/IP等通信协议进行相应简化，开发适宜的通信优化技术等。就大规模科学计算在现代高性能集群系统上的实际应用来说，比如孙家起老师主持863项目＜＜大规模整体油田的精细油藏数值模拟＞＞（ 863-306-2D01-03-1），曹建文主持863项目＜＜分布式大规模数值并行理论与算法研究＞＞（863-306-2D01-03-2）以及孙老师主持的973项目＜＜油藏模拟与波动问题及其反问题计算＞＞（ G1999032803）等，一致表现出来的是通信时间所占比重过大（如2000年并行中心的油藏模拟软件在当时的集群系统上通信时间占近60％强），而且随着使用节点处理器数目的增多，整个应用程序的并行性和可扩展性下降很快，理论峰值的利用率较低。在最近的ACM／IEEE联合举办的超级计算机界最高级别的学术会议SuPer Computing 2002／2003上，许多文献也都不约而同的指出，集合通信，特别是其开销随通信进程数增多而急剧增大的问题，是提高大规模科学计算的并行效率，使其能在几十、几百甚至上千个处理器上具有良好扩展性的一个非常关键而急需解决的问题。因此，如何从理论到实践上解决好高性能集群系统的使用及针刘一些关键性的实际应用做好通信上的优化就成了本文中重点想要解决的一个问题。为了能够对现代高性能集群系统上实际运行的一些大规模科学计算应用进行有针对性的优化，找准入手点，本文从系统软件到上层的具体应用做了大量的测试与分析。其中包括：对于现代高性能集群系统几种主要播建技术（包括不同的计算节点，不同的底层通信介质等）的优缺点进行了量化的研究；针对一些大规模科学计算的测试基准程序，如NAS Parallel Bench－marks等，在国家973项目集群系统一LSSCZ上实测了它们的性能，得到了它们的变化曲线。将具体的数据与国际上已公布的一些数据和结论等相比较，总结了一些规律。对如何利用好我国现有的高性能集群系统提出了一些合理化建议；在对国际上一个重要的用户级通信协议GAMMA进行大量测试与分析的基础上，总结了用户级通信协议的优缺点，给出了一个适用于小规模集群系统的用户级通信协议框架一，TMachine，当我们将2002年底刚发布的NAS Porollel Benchmarks版本2．4的Closs＝D这类大规模的并行应用在同时配备了MyrinetZ。。0和百兆快速以太网的国家973项目集群系统一LSSC2上实测的时候却发现了一个很奇怪的现象：相对低延迟、高带宽的Myrinet 2000对NPB2.4中LU程序的实测性能要远远低于百兆快速以太网。而且，无论是使用多大的问题规模（Class＝A／B／C／D），使用多少个计算节点（NPROCS＝2,4，…，256），使用何种编译优化选项（－O/-O2/-O3），使用何种Myrinet 2000上的消息接收方式（polling／blocking／hybrid），都是如此。在历史上，主要从以下两个角度看待集群网络的性能问题：主要考察网络的短消息延迟和长消息传输时的最大带宽。并以这两个指标作为评价网络性能的最重要指标。从通信模型的角度来考虑高性能网络的性能问题。如PRAM，BSP，LogP，LogGP等。但这两个观点都无法对上述奇特的LU现象作出合理的解释。为此，经过大量的实验研究，我们提出了“热点测试”的观点，以期对此类现象的研究给出一定的思路。进一步的，结合我们对NPB2.4系列程序的测试与建模的具体经验，给出了针对实际应用的大规模并行软件通信性能建模的一个方法体系。在我国，对高性能计算系统的性能评价历经了理论峰值评价，LIN－PACK峰值评价，到如今的应用评价三个阶段。而无论是国际TOP500排名，还是国内的TOP50排名对高性能计算系统的性能衡量标准-LIN-PACK测试峰值，对于现代高性能计算系统的衡量并不够全面。这主要是由于LINPACK测试所关注的问题领域，主要还是解稠密线性方程组，有一定的片面性；而且LINPACK测试中也没有一个具体而量化的对通信性能的衡量指标。所以我们迫切需要找到另一类能反映相当一类实际应用的测试基准程序，以对由LINPACK测试为主导的现代高性能计算系统的性能评估作出一定的补充。本文的主要创新和贡献是：以应用需求为驱动，推动对高性能计算平台通信硬件、系统软件的研究。从大规模科学计算实际应用的角度切入进行具体的研究工作。针对LU现象中所使用的一种主要通信优化方法“通信与通信的重叠”，做了深入的研究。提出“热点测试”的观点：测试集群网络通信协议（包括硬件和软件）对各种可能的上层程序行为方式的支持程度。在P2P＋LogGP测试的基础上必须增加“热点测试”，才能比较完整地反映一个特定系统对应用的影响。鉴于当今超级计算系统TOP500排名的基准一LINPACK测试的一些不足，提出大规模科学计算通信性能钡（试与评估的一些原则与方法。特别的，提出针对高性能计算中的集合通信能力测试的FFT标准，结合一个具体实例“一类非规则区域的快速广义离散傅立叶变换算法一HFFT算法”及其所属的FFTH软件包，给出了具体的目的、原则、方法及实测示例。结合我们对NPB2.4系列程序的测试与建模的具体经验，参考国际上相关文献工作经验，着重于程序的计算、通信行为及交互，给出了针对实际应用的大规模并行软件通信性能建模的一个方法体系。
语种	中文
公开日期	2011-03-17
页码	125
内容类型	学位论文
源URL	[http://ir.iscas.ac.cn/handle/311060/6056]
专题	软件研究所_中科院软件所_中科院软件所
推荐引用方式 GB/T 7714	唐渊. 大规模集群系统的性能评价与通信优化研究[D]. 中国科学院软件研究所. 中国科学院软件研究所. 2004.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们