HFFT算法的大规模集群性能评估及基于CUDA的并行化探索

CORC > 软件研究所 > 并行计算实验室 > 学位论文

题名	HFFT算法的大规模集群性能评估及基于CUDA的并行化探索
作者	余元
学位类别	硕士
答辩日期	2010-06-08
授予单位	中国科学院研究生院
授予地点	北京
导师	张云泉
学位专业	计算机软件与理论
中文摘要	近些年来，随着计算机硬件技术的高速发展，大规模并行集群系统被越来越多地用于各种科研应用等活动中，而随着多核CPU芯片的技术成熟，多核集群系统对于科学计算的处理能力得到了空前的提高，如何对科学计算中海量数据进行高效地并行计算，评估影响算法性能的相应因素，成为了一个很重要的研究方向。快速傅立叶变换作为上个世纪公认的最重要的基础算法之一，在包括大规模科学计算处理，数字信号处理，图形图像仿真等众多领域有着广泛的应用，对此，本文结合了2008年中国最快的超级计算机曙光5000A与大规模非规则区域上的快速傅立叶变换算法，深入研究分析了该算法应用在超大规模多核并行环境下的可扩展性测试及影响性能的因素。测试结果表明，该算法在现有的超大规模并行环境下具有较好的性能，在曙光5000A上，算法在8192核的加速比达到了277倍。本文的另一部分研究工作集中在探索现有HFFT算法在GPGPU上的并行化应用。GPU在处理能力和存储器带宽上相对CPU有明显优势，在成本和功耗上也不需要付出太大代价，这从而为并行数据处理问题提供了新的解决方案。由于图形渲染的高度并行性，使得GPU可以通过增加并行处理单元和存储器控制单元的方式提高处理能力和存储器带宽。在实际应用中，Nvidia公司的CUDA是用于GPU计算的并行开发环境，是一个全新的软硬件架构，这个架构可以使用GPU来解决商业、工业以及科学方面的复杂计算问题。CUDA是一个完整的GPGPU解决方案，它提供了直接访问硬件的接口。由于目前GPU已在科研领域中得到广泛研究，为了利用GPU的并行数据处理能力，本文探索了一种通过GPU计算提高现有HFFT算法执行速度的途径。之后，本文对CUDA并行算法进行了实际测试，实验结果表明，GPU对并行FFT部分具有20%的加速比，而除去I/O传输后，程序的加速比是34.4倍。
语种	中文
学科主题	计算机软件
公开日期	2010-06-21
内容类型	学位论文
源URL	[http://ir.iscas.ac.cn/handle/311060/2392]
专题	软件研究所_并行计算实验室 _学位论文
推荐引用方式 GB/T 7714	余元. HFFT算法的大规模集群性能评估及基于CUDA的并行化探索[D]. 北京. 中国科学院研究生院. 2010.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们