多机集群异常不可用(从节点脱离主节点或从节点加入主节点异常)分析处理原创
金蝶云社区-Romantic
Romantic
0人赞赏了该文章 517次浏览 未经作者许可,禁止转载编辑于2020年04月12日 17:22:35

多机集群异常不可用(从节点脱离主节点或从节点加入主节点异常)分析处理


【场景一】

问题描述:

如果主从集群配置好组建了一个集群(172.16.9.71为主节点,172.16.9.72/73为从节点)后,主节点集群管理控制台上单独对从节点添加了实例,会导致主从节点上\eas\server\cluster\ormrpc_loadbalance.properties与eas/admin/config/domain.xml信息不一致。

如果从节点出现了异常,打开从节点管理控制台,点击菜单项:"系统"-->"删除远程节点",把远程集群节点删掉。

从节点集群修复好后,要把从节点重新加入到主节点中,会发现从节点管理控制台上没有"添加远程节点"的按钮。

那如何才能把从节点实例加入到主节点集群中呢?


解决方案:

步骤一:

打开从节点上的eas/admin/config/domain.xml文件,删掉所有有主节点IP地址的行记录。

删掉所有有主节点IP地址的行记录,如:

<localNodeManagedmnIP="172.16.9.71"mnPort="10071">true</localNodeManaged>

步骤二:

重启从节点的EAS管理控制台。

步骤三:

点击EAS管理制台菜单项"系统"下的"添加远程节点"的按钮(只有重启管理控制台才会出现),把从节点加入到主节点中,之后主节点集群就可以使用。

场景1-1.png 

【场景二】

问题描述:

如果主从集群配置好组建了一个集群(172.16.9.71为主节点,172.16.9.72/73为从节点)后,对主节点的GUI管理控制台登录端口号做了改动(如一开始端口号都为10071,最后主节点的GUI管理控制台登录端口改为了10061),导致主从节点上那个端口号不一致,会导致主从节点上\eas\server\cluster\ormrpc_loadbalance.properties与eas/admin/config/domain.xml信息与从节点上的信息不一致。

如果从节点出现了异常,打开从节点管理控制台,点击菜单项"系统"-->"删除远程节点",把远程集群节点删除。

从节点集群修复好后,要把从节点重新加入到主节点中,会发现从节点管理控制台上没有"添加远程节点"的按钮。

那如何才能把从节点实例加入到主节点集群中呢?


解决方案:

步骤一:

打开从节点上的eas/admin/config/domain.xml文件,删掉所有有主节点IP地址的行记录。

删掉所有有主节点IP地址的行记录,如:

<localNodeManagedmnIP="172.16.9.71"mnPort="10071">true</localNodeManaged>

步骤二:

重启从节点的EAS管理控制台。

步骤三:

点击EAS管理制台菜单项"系统"下的"添加远程节点"的按钮(只有重启管理控制台才会出现),把从节点加入到主节点中,之后主节点集群可以使用。

场景2-1.png 

以上方法处理后,主从节点的GUI管理控制台登录端口号会不一致,但不影响使用。


如果要把主节点的GUI管理控制台登录端口号也改为10071,则通过改主节点上的两个配置文件把主节点的GUI管理控制台登录端口改为10071,如下所示:

步骤一:

改配置文件:

打开\kingdee\eas\server\bin\set-server-env.bat(windows)  set-server-env.sh(非windows) 文件 更改ADMINSERVER_PORT的值为10071,如下所示:

SETADMINSERVER_PORT=10071  

步骤二:

改配置文件:

打开kingdee\eas\admin\config\server_app.xml文件 更改name为drpc下的端口号为10071,如下所示:

<preferencename="drpc">

    <port>10071</port>

  <maxConnection>15</maxConnection>

</preference>

步骤三:

主节点端号改完后,打开从节点上的eas/admin/config/domain.xml文件,删掉所有有主节点IP地址的行记录。

删掉所有有主节点IP地址的行记录,如:

<localNodeManagedmnIP="172.16.9.71"mnPort="10071">true</localNodeManaged>

步骤四:

重启从节点的EAS管理控制台。

步骤五:

点击菜单项"系统"下的"添加远程节点"的按钮,把从节点加入到主节点,添加"管理节点管理接口"后面的端口号输入改后的端口号10071,做完后主节点集群可以用,相关主从节点的端口做到了同步。

场景2-2.png 


步骤六:

由于改了主节点GUI管理控制台的端口,可能对集群配置信息有些变更,为了同步信息,建议在集群主节点上,对集群重新配置,如下所示:

场景2-3.png 

【场景三】

问题描述:

配了两台或三台应用服务器做成的多机集群(172.16.9.71为主节点,172.16.9.72/73为从节点)。从节点实例出异常后,可能人为删除了群集配置信息,同时发现从节点连入主节点的GUI管理控制台登录端口号不是主节点的端口号,导致主节点集群也不可用。

打开从节点172.16.9.71上的eas/admin/config/domain.xml文件,可见到数第二行的mnPort值为10061,实际主节点上那个端口值为10071,因不一致,导致主节点认不到从节点,从而获取不到从节点的实例信息。

如下所示,端口号不是10071:

<localNodeManagedmnIP="172.16.9.71" mnPort="10061">true</localNodeManaged>

file:///C:/Users/YINFAN~1/AppData/Local/Temp/msohtmlclip1/01/clip_image008.jpg

场景3-1.png 

解决方案:

步骤一:

打开从节点上的eas/admin/config/domain.xml文件,删掉所有有主节点IP地址的行记录:

删掉所有有主节点IP地址的行记录,如:

<localNodeManagedmnIP="172.16.9.71"mnPort="10071">true</localNodeManaged>

步骤二:

重启从节点的EAS管理控制台。

步骤三:

点击菜单项"系统"下的"添加远程节点"的按钮(只有重启管理控制台才会出现),把从节点加入到主节点,添加时"管理节点管理接口"后面的端口号输入改后的端口号10071,做完后主节点集群可以用,相关主从节点的端口也做到了同步。

file:///C:/Users/YINFAN~1/AppData/Local/Temp/msohtmlclip1/01/clip_image009.jpg

场景3-2.png 

【多机集群中从节点实例出现异常规范化处理方法】

多机集群中从节点实例出现异常规范化处理方法

步骤一:

在多机集群的主节点上打开管理控制台,点击"群集控制器",接着点击"删除群集"的按钮,,选择“保存所有EAS实例”选项,把主从节点的群集配置信息删掉。

场景4-1.png

场景4-2.png


步骤二:

点击主节点管理控制台上"系统"菜单项,再点击"删除远程节点",从弹出的对话框中选择要删除的从节点信息,然后把从主节点从主节点集群中脱离出去。

场景4-3.png

场景4-4.png


步骤三:

上面第1,2步做完后,如果想让主节点集群单独使用,则可以点击"工具"菜单项下的"群集配置"进行主节点群集配置,配置好后,启动主节点集群,如果启动成功,则EAS客户端连主节点集群业务则能正常用。

场景4-5.png


步骤四:

对于有问题的从节点,分别打开从节点的管理控制台(eas/admin/admin.sh(非WINDOWS)或admin.cmd(WINDOWS)),重启集群,看集群能否正常启动,如果不能启动,收集admin/logs/admin.log, admin_client.log,eas/server/profiles/server#/logs/apusic.log,eas\cluster\logs\loadbalance.log等日志信息进行定位分析,找出原因后就可以解决从节点集群或实例无法启动问题。


步骤五:

当从节点集群恢复好后,如想加入到主节点集群中,则到从节点服务器操作系统上,打开从节点的管理控制台,在菜单项"系统"下点击"添加远程节点"的按钮,把从节点加入到主节点中。


步骤六:

回到主节点那台电脑,操作上面的第3步进行群集配置,群集配置完后,EAS客户端就可以连恢复好的EAS集群,业务可以正常使用。


收藏 打赏


赞 0