Ansys：如何减少有限元分析计算时间？

2016-11-28 by:CAE仿真在线来源:互联网

用ANSYS 结构力学仿真软件的组织机构希望获得尽快产生可靠设计所需要的精确度、效率与吞吐量。ANSYS 与英特尔携手合作,确保此类公司能够利用最新Intel® Xeon® E5 v3 处理器与Xeon Phi® 协处理器,以处理其仿真任务。

结构力学仿真往往需要大量计算资源,包括内存、磁盘空间和I/O。这会影响到计算所用的时间。由于CPU 时钟频率的提高速度不如10 年前那么快,保持这种计算速度无法依赖更快速的CPU。新的性能模式是并行计算,其可以利用每隔几年数量都会猛增的CPU 内核,以便在每个时钟周期提供更多计算。这显著提高了结构仿真软件的性能。但是工程师始终在努力尽可能减少仿真时间,这样他们就能够提高模型的复杂性 (例如,通过提高网格密度或非线性行为),或者在给定时间内执行更多仿真。

Ansys：如何减少有限元分析计算时间？ansys图片1

基准套件在两个极其相似的系统上采用ANSYS 16.0 运行:一个系统包含2 个Intel Xeon E5-2670(Sandy Bridge、2.6GHz、共16 个内核)处理器,另一个采用2 个 Intel Xeon E5-2697 v3(Haswell、2.6GHz、共28 个内核)处理器。采用1、2、4、 8 和16 个内核的基准套件运行总用时的几何平均值,可用于产生上表所示时间。对于迭代求解器基准,Haswell 系统比E5 v2 系统平均快20%,而对于直接求解器基准, Haswell 系统比E5 v2 快40%。

加速结构力学仿真的一种方法是充分利用可用的最新硬件。计算机行业利用持续的平台发展极大提高了计算性能,包括每个CPU 搭载更多的计算内核、集成型I/O 处理器(产生更高存储带宽)、更快的附加内存(通道)、更大的L3 高速缓存大小、更快的磁盘存储(如:用于ANSYS Mechanical 的固态驱动器)、更快的互连以及Intel Advanced Vector Extensions 2 (AVX2) 支持。英特尔与ANSYS 一直携手合作,以便ANSYS 解决方案能够充分利用这些硬件发展带来的优势。

采用INTEL XEON E5 V3 处理器

20 多年来,ANSYS 结构力学产品一直可支持并行处理,使工程师能够有效利用多核处理器和/ 或集群加速仿真。随着16.0 版的发布, ANSYS 继续进行投资,添加了能够利用最新英特尔处理器技术的相关功能。

A N S Y S 用户利用英特尔的最新 Xeon E5 v3 处理器能够显著缩短仿真运行时间,这主要归功于更多内核(多达18 个)、对Intel AVX2 的支持、更大的L3 高速缓存(多达35MB)和更高的存储速度(多达2133MHz)。ANSYS Mechanical 16.0 采用英特尔的名为 Haswell 的E5 v3 处理器系列提高了性能。E5 v3 系统针对迭代求解器基准(通常是存储带宽速度的良好指标)比E5 v2 平均快20%,而针对直接求解器基准 (通常是原始计算速度的良好指标)比 E5 v2 平均快40%。

采用INTEL XEON PHI 协处理器

为了利用最新硬件发展实现更快的工程仿真技术,ANSYS 自发布ANSYS 13.0 之后就开始与NVIDIA 合作开发和推出基于通用图形处理器(GPU)的并行求解器执行解决方案。GPU 目前能够加速流体、结构与电磁学仿真,以提高 ANSYS 高性能计算(HPC)功能的价值。

英特尔最近推出了设计上与高端 GPU 类似的Xeon Phi 系列协处理器。它们是可插入PCI Express 插槽的全高度卡,需要最低200W 的附加功率。但是,此类协处理器并非针对显卡,并且不具备图形显示输出连接(例如:HDMI 或显示器端口)。每个Xeon Phi 协处理器都包含大约60 个能够执行1 百万兆次浮点运算的内核,而且具有8GB~16GB 的G D D R 5 内存,以提供大量存储带宽。这种新款硬件加速器能够加快结构力学仿真。

实现方案

在结构力学产品中开始实施对Xeon Phi 协处理器的支持之前,ANSYS 需要:

用户体验直接简单。

Xeon Phi 硬件必须永远不降低仿真速度,而且在适用时能够加速仿真。

Xeon Phi 不会降低求解精确度。

为了利用Xeon Phi 协处理器加速 ANSYS 结构力学仿真,相关软件可以采用GPU 加速器功能。虽然Xeon Phi 可以实现其它执行模型,不过GPU 加速器是引入这种协处理器的最佳工具。由于稀疏直接求解器是默认求解器并且常用于各种分析,因此这种线性方程求解器是最佳切入点。

ANSYS 16.0 — 效率与鲁棒性

随着发布16.0 版,ANSYS 继续投资,以提高结构力学仿真的效率与鲁棒性。求解器指标的关键改进可以实现速度更快、更稳健的仿真。

众多增强功能可以提高非线性分析的收敛。

稀疏求解器的改进可以在内核执行更多任务,从而提高求解器性能。在分布式存储器并行计算方面进行了众多改进。

进一步改进了域分解,从而提高了性能和规模,特别在更多内核数量情况下尤为如此。

最新增加的功能包括支持惯性释放、 QRDAMP 特征值抽取法(模态分析中)和模态叠加法(谐波响应与瞬态分析中)。

Ansys：如何减少有限元分析计算时间？ansys图片2

ANSYS Mechanical 16.0 采用Intel Xeon Phi 协处理器时的整体仿真加速率

Ansys：如何减少有限元分析计算时间？ansys图片3

ANSYS 用户利用英特尔的最新Xeon E5 v3 处理器,能够显著缩短仿真运行时间。

A N S Y S M e c h a n i c a l 1 5 . 0 仅在 Linux® 平台支持采用共享存储器并行的 Xeon Phi 协处理器。但是,分布式存储器并行一般能够提供比共享存储器并行更高的加速效果,而且ANSYS 结构力学软件通常在Windows® 平台上运行。 ANSYS Mechanical 16.0 同时针对Linux 和Windows 平台支持共享与分布式存储器并行。几乎所有ANSYS 用户(包括其中每个计算节点都包含一个或多个协处理器的集群的访问用户)都能够采用 Xeon Phi 协处理器加速结构力学仿真。

采用XEON PHI 加速

为了在ANSYS Mechanical 中利用Xeon Phi 硬件,可以通过在命令行参数列表中添加选项-acc intel,从而在启动软件时激活GPU 加速器功能。此外,您还可以使用-na N 选择使用的 Xeon Phi 协处理器数量,其中N 是大于 0 的整数。(软件默认值是1,对应单个协处理器)。

通过修改‘求解过程设置’的‘高级属性’页面上的G P U 加速选项, ANSYS Workbench 用户在求解过程中可以轻松启用此功能。用户可以在相关下拉框中选择‘INTEL’,然后选择仿真过程中使用的Xeon Phi 协处理器数量。启用此功能需要每个协处理器有一个附加 HPC 许可证。

一旦启用后,此功能在可能的情况下可以通过自动采用Xeon Phi 硬件加快求解。无需用户输入。在无法加速的情况下会继续采用CPU 内核,而Xeon Phi 功能对求解进度不产生任何影响。

性能

ANSYS 对ANSYS Mechanical 进行了一系列标准基准测试,以获得性能数据。基准测试采用了运行Windows 7 x 64 SP1、具有128GB RAM、搭载 2 个总共具有16 个CPU 内核的Intel E5-2670 (2.6 GHz) 处理器的工作站。在工作站中使用了2 个Xeon Phi 7120A 协处理器。

结果显示采用Xeon Phi 通常能实现一定程度的加速。不过,不同基准测试实现的加速程度大相径庭,而且也取决于所涉及的CPU 内核数量。与仅采用2 个CPU 内核相比,采用2 个CPU 内核和1 个Xeon Phi 协处理器可以使整体仿真平均加速2.1 倍。在采用16 个CPU 内核情况下,增加2 个Xeon Phi 可以使整体仿真平均加速1.4 倍。由于各基准测试性能各异,需要指南才能了解哪些结构力学模型能够在采用Xeon Phi 协处理器时实现最大加速。

使用指南

采用Xeon Phi 协处理器对于不同硬件和仿真模型所实现的加速大相径庭。这些指南有助于确定相关协处理器是否能够提高性能。

采用更新、更快的CPU 硬件一般会降低采用Xeon Phi 卡所能实现的加速。每个Xeon Phi 协处理器使用更多CPU 内核也会降低实现的加速效果。如果请求一个或更多的协处理器,则可以使用所有可用的协处理器。不过,出于性能原因,每个Xeon Phi 协处理器的进程数量被限制到最多8 个。

特定类型的仿真采用X e o n P h i 时能够实现更高加速。对于A N S Y S Mechanical 仿真,在下列情况下可以实现更高加速:

● 在芯片内存储器模式下运行稀疏求解器。

● 组合矩阵规模超过200 万个方程式。

● 模型是三维,具有更大或更厚的几何结构,包含更高阶的单元类型或者包含特定类型的边界条件(如:约束方程式)。

通过持续协作提高价值

随着硬件厂商提供的计算能力不断提高,ANSYS 会继续发挥这种新技术的全部潜力。随着厂商提供更多并行硬件,ANSYS 开发人员会继续在软件中并行化更多算法。对于结构力学仿真而言,这些工作具有重要意义 - 能够确保企业通过快速执行日益复杂的仿真,而满足在市场中推出可靠创新产品的竞争需求。

英特尔和ANSYS 会继续携手提供极具价值、经过优化和测试的解决方案。对于Xeon Phi 协处理器等新型硬件加速器,主要限制是能够转移到加速器设备的计算量。未来Xeon Phi 产品的目标是在能够加速更多计算同时消除(通过PCI Express 通道)向设备传输数据的限制。

开放分享：优质有限元技术文章,助你自学成才