LSF 概览
了解 LSF 是如何满足您的作业要求,并找到最佳资源来运行该作业的。
IBM Spectrum LSF ("LSF", load sharing facility 的简称) 软件是行业领先的企业级软件。LSF 将工作分散在现有的各种 IT 资源中,以创建共享的,可扩展的和容错的基础架构,从而提供更快,更可靠的工作负载性能并降低成本。 LSF 平衡负载和分配资源,并提供对这些资源的访问。
LSF 介绍
IBM Spectrum LSF ("LSF", load sharing facility 的简称) 软件是行业领先的企业级软件。LSF 将工作分散在现有的各种 IT 资源中,以创建共享的,可扩展的和容错的基础架构,从而提供更快,更可靠的工作负载性能并降低成本。 LSF 平衡负载和分配资源,并提供对这些资源的访问。
LSF 提供了一个资源管理框架,可满足您的工作要求,找到最佳资源来运行该工作并监视其进度。 作业始终根据主机负载和站点策略运行。
A typical LSF Cluster
Cluster(集群)
运行 LSF 的一组计算机(主机),它们作为一个单元一起工作,结合了计算能力,工作量和资源。 集群为计算资源网络提供单系统映像。
可以通过多种方式将主机分组到集群中。 集群可以包含:
-
单个管理组中的所有主机
-
子网中的所有主机
Hosts(主机)
集群中的主机执行不同的功能。
-
Master host (主节点)
LSF 服务器主机,充当集群的整体协调器,负责所有作业的调度和分配。
-
Server host (服务主机)
提交并运行作业的主机。
-
Client host (客户主机)
仅提交作业和任务的主机。
-
Execution host (执行主机)
运行作业和任务的主机。
-
Submission host (提交主机)
从中提交作业和任务的主机。
Job(作业)
作业是在 LSF 系统中运行的工作单元。 它是一个提交给 LSF 来执行的命令。 LSF 则根据配置的策略,来调度,控制和跟踪作业。
作业可以是复杂的问题,模拟方案,大规模计算或任何需要计算力的事物。
Job slot(作业槽位)
作业槽是一个存储区,在 LSF 系统中将单个工作单元分配到该存储区中。
主机可以配置有多个作业槽,并且您可以从队列中分派作业,直到所有作业槽都被填满。 您可以将作业槽与集群中的 CPU 总数相关联。
Queue(队列)
集群范围内的作业容器。 所有作业都在队列中等待,直到将它们调度并分配到主机为止。
队列不对应单个主机; 每个队列都可以使用集群中的所有服务器主机,或服务器主机的已配置子集。
将作业提交到队列时,无需指定执行主机。 LSF 会将作业分派到集群中,最佳可用的执行主机来运行该作业。
队列执行不同的作业调度和控制策略。
Resources(资源)
资源是集群中可用于运行作业的对象。 例如,资源包括但不限于主机,CPU 槽和许可证。
LSF集群组件
LSF 集群管理资源,接受和调度工作负载以及监视所有事件。 用户和管理员可以通过命令行界面,API 或通过IBM Spectrum LSF Application Center (PAC) 访问 LSF。
IBM Spectrum LSF
-
LSF的核心包括守护程序和其他功能,用于调度和运行作业以及管理集群资源。
-
IBM Spectrum LSF License Scheduler 策略,控制组织中不同用户之间共享软件许可证的方式。 IBM Spectrum LSF License Scheduler 可与 FlexNet™ 和其他产品一起使用,以控制和监视许可证的使用情况。