核心概念

集群

定义

集群是由一组物理或虚拟主机组成的逻辑单元，用于承载大数据组件的分布式运行环境。每个集群具备独立的配置空间和资源隔离边界

关键特性

多集群管理：单个 Server 实例可同时管理多个集群（如生产集群、测试集群等）
主机绑定规则：每个 Host 仅能归属一个集群

组件栈

组件栈（Stack）

定义

预定义的标准化服务集合，包含安装脚本、配置模板及依赖关系描述

组件栈列表

组件栈	描述
Infra	所有集群共享的服务，比如监控系统 Prometheus
Bigtop	Apache Bigtop 提供的服务，如 Hadoop/Hive/Spark 等
Extra	社区提供或自定义服务，如 SeaTunnel

服务（Service）

定义

运行在集群上的服务单元，代表具体的大数据服务（如 Hadoop/Hive/Spark 等）

管理维度

配置管理

快照机制：支持配置快照拍摄及管理
模板引擎：使用 Freemarker 语法动态渲染配置文件

状态监控

心跳机制：Agent 每 30 秒上报服务健康状态

组件（Component）

定义

服务内部的运行实例，对应具体进程或功能模块。组件级别的操作（启动/停止等）由 Agent 执行。

组件示例

graph TB
Hadoop-->NameNode
Hadoop-->DataNode
Hadoop-->ResourceManager
Kafka-->KB[Kafka Broker]
Solr-->SI[Solr Instance]
SeaTunnel-->SM[SeaTunnel Master]
SeaTunnel-->SW[SeaTunnel Worker]
SeaTunnel-->SL[SeaTunnel Client]

作业

作业（Job）

定义

用户发起的最小可调度单元，代表一个完整的运维操作目标。例如： 启动 Hadoop 服务、更新 Spark 配置并重启 等

特性

原子性：Job 执行结果仅有成功/失败两种状态
操作域：作用于单个集群
生命周期：从创建到状态终态变更形成完整操作轨迹

阶段（Stage）

定义

作业（Job）分解后的逻辑执行单元，对应服务组件的独立操作步骤。例如： 启动 Hadoop Job → 启动 NameNode Stage、启动 DataNode Stage 等

划分原则

服务依赖：存在启动顺序约束的组件需拆分为独立 Stage（如 NameNode 需早于 DataNode 启动）
资源隔离：不同组件类别的操作需隔离执行
并行度控制：允许同一 Stage 内 Task 并行执行

任务（Task）

定义

阶段（Stage）在具体主机上的执行实例，代表最小粒度的操作指令。例如： 启动 NameNode Stage → 启动 host-01 上的 NameNode Task、启动 host-02 上的 NameNode Task

作业调度流程

Job 生成 Stages 及 Tasks

用户通过 REST API 提交操作请求后：

Server 解析请求并校验请求合法性
根据组件依赖关系生成 Stage DAG
为每个 Stage 生成主机级别的 Task 集合
持久化 Job/Stage/Task 元数据至数据库（状态初始化为 PENDING）

Stage 调度阶段

调度器按 DAG 顺序执行 Stage：

检查前置 Stage 状态（仅当前置 Stage 全部成功时触发）
提取 Stage 中的 Task 集合
将 Task 批量推送至对应主机上交由 Agent 执行

Task 执行阶段

Agent 接收 Task 后的处理流程：

资源预检：验证目标组件安装状态与依赖项
脚本执行：调用 Stack 中预定义的组件操作脚本
状态回传：实时写入任务日志并更新 Task 状态至 Server

执行保障机制：

超时熔断：单个 Task 执行超时（默认 30 分钟）自动标记失败
重试策略：网络异常类失败可自动重试（最大 3 次）
幂等设计：重复执行已成功 Task 不会引发副作用

状态管理机制

状态类型	触发条件	处理策略
PENDING	任务创建未调度	等待调用
RUNNING	任务执行中	监听超时阈值
SUCCESSFUL/FAILED	任务执行结果	更新组件状态
CANCELED	该任务被取消（仅 Stage/Task 存在该状态）	取消后续任务

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

核心概念

集群

定义

关键特性

组件栈

组件栈（Stack）

定义

组件栈列表

服务（Service）

定义

管理维度

配置管理

状态监控

组件（Component）

定义

组件示例

作业

作业（Job）

定义

特性

阶段（Stage）

定义

划分原则

任务（Task）

定义

作业调度流程

Job 生成 Stages 及 Tasks

Stage 调度阶段

Task 执行阶段

状态管理机制

FilesExpand file tree

concepts.md

Latest commit

History

concepts.md

File metadata and controls

核心概念

集群

定义

关键特性

组件栈

组件栈（Stack）

定义

组件栈列表

服务（Service）

定义

管理维度

配置管理

状态监控

组件（Component）

定义

组件示例

作业

作业（Job）

定义

特性

阶段（Stage）

定义

划分原则

任务（Task）

定义

作业调度流程

Job 生成 Stages 及 Tasks

Stage 调度阶段

Task 执行阶段

状态管理机制