GIS云套件

监管Spark集群

GIS云套件可监控管理内置Spark集群的环境运行情况,方便用户掌握该集群的健康状态。

Spark集群管理

在Spark集群页面,可看见已添加的Spark集群,如下图:

用户可在该页面查看集群配置信息、删除外接Spark集群、禁用内置Spark集群、通过控制台进入内置Spark集群服务列表页面。

sparklist

服务管理

点击控制台进入内置Spark集群服务列表页面,如下图,通过以下功能可对服务进行管理:

servicelist

  • 服务名称:列表中显示支撑Spark集群环境的主要服务,点击列表中的服务名称可进入节点详情页面,对容器进行管理,详情请参见容器管理
  • 地址:提供相关服务所在地址,可通过链接查看服务详细信息。
  • 描述:对各服务的作用解释说明。
  • 状态:显示服务的副本数以及预期副本数。表示状态的数字N/M,其中,M表示服务的预期副本数,N表示正常运行的副本数。可通过副本状态了解服务健康。
  • 重新部署:一键重新部署对应的服务,可在服务更新或故障时使用。
  • 伸缩:对服务节点进行手动/动态伸缩,如下图所示。

    sparkmanualelastic

    • 手动伸缩:用户自行设置伸缩后节点个数,服务节点会增加至设定的个数。

    sparkautoelastic

    • 动态伸缩:用户设置相应的指标,Spark集群环境会根据负载情况自行伸缩节点个数。例:如上图,当spark-worker节点的CPU使用率高于50%,Spark集群环境会在计算后自动增加spark-worker节点个数,若增加spark-worker节点后平均CPU使用率仍高于50%,则会在一段时间后继续增加spark-worker节点,直至增加到8个;当平均CPU使用率低于50%,Spark集群环境会自动减少spark-worker节点,直至节点个数为1。
    • 如不再需要动态伸缩,可使用服务名称旁的按钮删除。
  • 调整规格:调整服务节点CPU或内存大小。将运行压力大的服务节点规格提高,运行更稳定;将运行压力小的服务节点规格降低,释放系统资源。

容器管理

在Spark集群服务列表页面点击服务名称进入服务详情页面,容器列表中显示了容器名称、IP、状态、创建时长以及所在主机。若出现异常容器,可一键删除重建,删除过程中服务会中断,直到重建完毕。

点击容器列表中的日志可进入容器日志界面,该日志记载了容器运行的过程以及运行状态,如下图。

sparklog

点击容器列表中的命令行进入容器命令行界面,通过该界面可直接操作容器。

例:如下图, 输入’ls’命令查看目录下的文件。

sparkcontrollpad

提示:
复制文字后,可使用 【shift + insert】 粘贴至命令行。

Spark集群监控

环境监控

通过计算资源池->Spark集群->控制台进入Spark集群服务列表页面,使用右侧滚动条或鼠标滚动按钮将页面拖至下方统计图处。

Spark集群环境运行状态统计图如下图所示。通过该页面可监控各服务的CPU使用率,内存占用量,网络接收速率,网络传输速率,磁盘占用量等实时情况。点击图例中的服务名称可单独监控相应服务。用户可对监控面板进行放大或缩小,随意拖拽面板以调整页面布局。除此之外,还可在监控页面进行如下操作:

  • 时间范围:自定义选择时间段查看监控记录。
  • 自动刷新时间:设置自动刷新监控页面的时间间隔。
  • 手动刷新:点击刷新按钮对监控页面进行手动刷新。
  • 保存:对面板进行缩放、拖拽等调整后,可保存当前页面样式。
  • 版本:每次保存的页面样式都会存入系统中,使用版本管理可选择恢复任意一版页面样式。

备注:
以上功能按钮在下图右上角橘框处。

sparkenvironmentmonitor

容器监控

点击服务名称即可进入Spark集群详情页面,其容器运行状态统计图如下图所示。通过该页面可监控单个容器的CPU使用率,内存占用量,网络接收速率,网络传输速率,磁盘占用量等实时情况。用户可对监控面板进行放大或缩小,随意拖拽面板以调整页面布局。除此之外,还可保存页面样式、管理版本、设定监控时间段、设定自动刷新时间及手动刷新,详情请参见环境监控页面功能介绍。

sparkcontainermonitor