您的位置:主页 > 成功案例 > 斯伦贝谢软件使用技巧 > OTHERS 其它 >

OTHERS 其它>>

3.SCM系统简介

主要内容

1)SCM (Simulation Cluster Manager) 系统简介

2)某公司SCM系统简介:硬件,网络,配置

3)SCM作业提交

4)工作负载管理

5)SCM集群管理

6)SCM系统监控

7)SCM性能测试

8)在SCM上安装应用程序

9)SCM 参考文档


1 SCM (Simulation Cluster Manager) 系统简介

1)为什么要在Reservoir Simulation中用到集群系统

• 提高效率,并行运算减少运行时间

• 多用户/并发运行

• 可扩展

• 释放工作站/笔记本电脑以进行其它建模和解释任务

• 可运行大型复杂的油藏模型

• 集中计算资源,降低管理成本

2)部署集群的传统方法:非常复杂

• 硬件安装和设置(服务器,存储,网络)

• 每个节点上操作系统的安装,网络设置(IP地址,主机名等)

• OFED设置(驱动程序安装,配置,启动网络管理器等)

• 操作系统参数调整(如防火墙等)

• 用户创建,身份验证和ssh设置

• 外部NAS设置(网络设备,安装,配置)

• LSF安装和设置(许可,安装,用户,队列,资源,环境等)

• ECLIPSE/INTERSECT安装/升级和许可证设置

• MPI参数设置

• 设置用户环境

• 运行测试并与基准数据进行比较

3)SCM:集群系统优化的解决方案

• 在集群系统的部署阶段,系统的安装调试需要花费较长的时间;

• 由于集群系统的硬件/操作系统 /软件的复杂,管理起来难度很大,一旦出现故障不能及时解决,将导致生产时间的损失;

• 集群系统也很难进行优化。

SCM (Simulation Cluster Manager) 是由IBM Platform公司和Schlumberger 公司共同开发的集群系统优化的解决方案。

4)SCM的体系架构, 如下图:

5)SCM的主要特性

集群管理;工作负载管理;作业提交管理。

6)SCM集群管理,有以下特性:

• 服务器快速配置

• 基于Web的访问

• 轻松安装/升级ECLIPSE / INTERSECT

• 工作监控

• 轻松管理HPC集群(队列,用户,应用程序,操作系统)

• 资源利用综合报告(CPU,内存,节点,作业,许可证)

• 确保最长的正常运行时间

• 可以管理大型集群

7)强大的工作负载管理- LSF系统,有以下特性:

• 强大,全面,策略驱动的工作负载管理器

• 非常易于使用和维护

• 非常灵活和可定制

8)作业提交

用户可通过浏览器访问管理节点的Web页面, 通过Web GUI界面提交作业, 监控作业。

2 某公司SCM系统简介

1)硬件

• 管理节点 1个,硬件型号为HP DL380 G8。

不用于模拟计算,而是用于共享应用程序以及用户的home目录等,也用于管理资源,运行Admin和用户界面。

• 2个计算节点,CN01和CN02,共有60个核。

CN01:硬件型号为HP DL380 G9;

CN02:硬件型号为HP DL360 G9。

2)网络

• Public网络:可用于访问NAS和NIS,允许用户访问集群。地址范围为 10.x.x.41—43 /24。

• Private网络:用于运算节点访问管理节点上的资源如应用程序和NFS共享目录,在kick-start安装时运行DHCP服务,及各个节点之间内部通信。 地址范围为10.x.y.55—56 /24。

• iLO网络:iLO是管理接口,用于远程访问和管理服务器,开/关服务器的电源等。

• 未来还可以选择添加InfiniBand (IB),高速网络,使得作业在计算节点之间高速传输。这个选项很昂贵,目前没有采用。

3)配置

在这个集群中主要有2个系统。

第一个系统是SCM,SCM是集群的管理控制台,用于报告使用情况,控制作业,监视故障,以及其它任务。

第二个系统是Load Sharing Facility (LSF),LSF管理资源的使用,基于优先级和可用资源安排作业的运行。

3 SCM作业提交

1)用命令行提交作业

用putty登录管理节点,用命令行提交作业:

eclrun eclipse ONEM1.DATA

2)从用户工作站的Eclipse提交作业

从用户工作站的Eclipse可以提交作业, 并查看作业的状态。

3)通过Web GUI界面提交作业

用户也可通过浏览器访问管理节点的Web页面, 通过Web GUI界面提交作业, 监控作业;通过CLI命令行和PRT文件可以查看作业的运行情况。

4 工作负载管理

1)LSF 简介

LSF代表负载共享设施 (Load Sharing Facility) 。

• LSF是一个产品(来自IBM Platform Computing),它运行批处理作业,根据当前负载情况从集群中选择执行主机。

• 批处理作业保留在队列中,直到有适当的资源可用。

• LSF提供了对集群中的资源进行透明访问的功能。

• LSF可以将作业放入队列中。

• 队列可以限制主机的类型,作业何时可以运行(例如:晚上),用户等。

• 如果资源不足,作业将PEND,直到资源条件满足。

• LSF非常易于配置。

2)LSF常用命令

• Gives detailed information for all queues: # bqueues –l

• Shows user activity: # busers

• Displays load information for hosts: # lsload

• Displays hosts and their static and dynamic resources: # bhosts

• Displays information about LSF jobs: # bjobs -u all

• Shows old, completed jobs: # bhist -a

• Check lsf service status: # service lsf status/stop/start

• Starts LIMs on all hosts in the cluster: #lsadmin limstartup all

• Starts RESs on all hosts in the cluster: #lsadmin resstartup all

• Starts sbatchd on all batch server hosts: #badmin hstartup all

5 SCM集群管理

1)增加用户

# adduser

# passwd

# updatenode __Managed -F

在管理节点中编辑环境变量文件:/etc/profile.d/scm.sh,

/etc/profile.d/scm.csh, 然后:

# updatenode __Managed -F

2)增加外部共享NAS

在SCM安装前,在scm.conf中指定,当SCM安装完成后NAS会自动加载;

在SCM已经安装后,可手动安装NAS,在管理节点和计算节点中设置mount点:

1.在所有节点上创建mount目录。 以root用户登录管理节点并运行如下命令:

# mkdir 777 /data

# xdsh __Managed mkdir –m 777 /data

2.然后为所有节点在fstab中添加一行:

# xdsh __Managed “echo “headnode:/data /data nfs defaults 0 0" >> /etc/fstab"

注意:如果要从管理节点共享,还需要在/etc/exports中添加:

/data *(rw,async,no_root_squash)

3. 用以下命令将文件系统挂载到所有节点上:

# xdsh __Managed mount –a

3)节点安装和配置模板

• 节点安装是由配置模板来定义的。

• 配置模板由6部分组成:General, Components, Packages, Partitions, Networks, Post-Install Scripts。

• 配置模板可以在Web GUI中修改:Resources > Node Provisioning > Provisioning Templates。

节点安装可通过操作图形界面来完成, 非常方便。

6 SCM系统监控

登录到SCM系统后,可以监控并报告很多信息:

• Hardware Resources - Monitor and report overall cluster

• Each Compute Node – Summary

• Each Compute Node – Performance

• Each Compute Node – Jobs

• Each Compute Node – Alerts

• Each Compute Node – System Info

• Monitoring and Job Reporting

• Queue Utilization

• And others

7 SCM性能测试

可以使用ECLIPSE E100中的一百万个cell的基准测试来确定性能,并监控在对系统进行任何修改后它的性能是否发生了变化。可与之前运行的结果进行比较。

8 在SCM上安装应用程序

Schlumberger SIS应用程序(和第三方应用程序)可安装在SCM上。

有两种安装方式:用SCM 应用程序kit安装;手动安装。

Kit安装非常方便。当客户购买SCM及其支持时,他们将以kit方式获得SIS应用程序(前提是它支持SCM)。目前以kit格式提供的SIS应用程序包括:ECLIPSE,INTERSECT和PetroMod。VISAGE和PIPESIM计划包含在下一版本中。客户购买这些kit无需额外费用。

SCM 应用程序kit的安装方法以及手动安装应用软件的方法,请参见相关的文档。

9 SCM 参考文档

• SCM, ECLIPSE的文档能从Help 菜单页获得。

• 在缺省状态下, 只有 ECLIPSE的 文档能从Help菜单页获得。安装其它的kit 如INTERSECT和PetroMod后会增加相应的文档。

• 另外, SCM 手册的 pdf 文档能从SCM USB Stick 的 doc目录 以及管理节点的 /usr/local/scm目录获得。

地址:北京市朝阳区酒仙桥路14号兆维华灯大厦

邮编:100015 传真:010-64309502

Copyright © 2002-2020 斯伦贝谢科技服务(北京)有限公司  京ICP备 06043577 号

技术支持:北京天润智力智能科技有限公司