2

我正在恢复到由 3 个节点组成的全新 Cassandra2.2.5集群。

新集群的初始集群运行状况:

--  Address       Load       Tokens       Owns    Host ID                               Rack
UN  10.40.1.1   259.31 KB   256          ?       d2b29b08-9eac-4733-9798-019275d66cfc  uswest1adevc
UN  10.40.1.2   230.12 KB   256          ?       5484ab11-32b1-4d01-a5fe-c996a63108f1  uswest1adevc
UN  10.40.1.3   248.47 KB   256          ?       bad95fe2-70c5-4a2f-b517-d7fd7a32bc45  uswest1cdevc

作为Datastax docs 中恢复说明的一部分,我在新集群上执行以下操作:

1)cassandra stop在所有三个节点上一个接一个。

2)cassandra.yaml使用备份的令牌环信息编辑所有三个节点。[来自文档的第 2 步]

3) 从/var/lib/cassandra/data/system/*[Step 4 from docs]中删除内容

4)分别cassandra start在节点10.40.1.1,10.40.1.210.40.1.3

结果: 10.40.1.1重新启动成功:

--  Address       Load       Tokens       Owns    Host ID                               Rack
UN  10.40.1.1   259.31 KB   256          ?       2d23add3-9eac-4733-9798-019275d125d3  uswest1adevc

但是第二个和第三个节点无法重新启动说明:

java.lang.RuntimeException: A node with address 10.40.1.2 already exists, cancelling join. Use cassandra.replace_address if you want to replace this node.
    at org.apache.cassandra.service.StorageService.checkForEndpointCollision(StorageService.java:546) ~[apache-cassandra-2.2.5.jar:2.2.5]
    at org.apache.cassandra.service.StorageService.prepareToJoin(StorageService.java:766) ~[apache-cassandra-2.2.5.jar:2.2.5]
    at org.apache.cassandra.service.StorageService.initServer(StorageService.java:693) ~[apache-cassandra-2.2.5.jar:2.2.5]
    at org.apache.cassandra.service.StorageService.initServer(StorageService.java:585) ~[apache-cassandra-2.2.5.jar:2.2.5]
    at org.apache.cassandra.service.CassandraDaemon.setup(CassandraDaemon.java:300) [apache-cassandra-2.2.5.jar:2.2.5]
    at org.apache.cassandra.service.CassandraDaemon.activate(CassandraDaemon.java:516) [apache-cassandra-2.2.5.jar:2.2.5]
    at org.apache.cassandra.service.CassandraDaemon.main(CassandraDaemon.java:625) [apache-cassandra-2.2.5.jar:2.2.5]
INFO  [StorageServiceShutdownHook] 2016-08-09 18:13:21,980 Gossiper.java:1449 - Announcing shutdown

java.lang.RuntimeException: A node with address 10.40.1.3 already exists, cancelling join. Use cassandra.replace_address if you want to replace this node.
...

最终集群运行状况:

--  Address       Load       Tokens       Owns    Host ID                               Rack
UN  10.40.1.1   259.31 KB   256          ?       2d23add3-9eac-4733-9798-019275d125d3  uswest1adevc
DN  10.40.1.2   230.12 KB   256          ?       6w2321ad-32b1-4d01-a5fe-c996a63108f1  uswest1adevc
DN  10.40.1.3   248.47 KB   256          ?       9et4944d-70c5-4a2f-b517-d7fd7a32bc45  uswest1cdevc

我了解删除系统目录后节点的 HostID 可能会更改。

我的问题是:

我是否需要在开始时明确声明以替换自身?文档不完整还是我的步骤中遗漏了什么?

4

3 回答 3

0

原来有陈旧的目录 commit_log 和 saved_caches 我错过了早先删除。这些说明适用于删除的那些目录。

于 2016-09-02T22:38:26.940 回答
0
java.lang.RuntimeException: A node with address 10.40.1.3 already exists, cancelling join. Use cassandra.replace_address if you want to replace this node.

如果您仍然面临上述错误,则意味着您的 cassandra 进程正在该节点上运行。首先登录到10.40.1.3节点。然后按照以下步骤-

$ jps

您会看到一些进程正在运行。例如:

9107 Jps 1112 CassandraDaemon

CassandraDaemon然后通过执行后看到的进程 id杀死进程jps。在我的示例中,此处1112CassandraDaemon.

$ kill -9 1112

然后过一会再检查进程——

$ jps

您将看到CassandraDaemon将不再可用。

9170 Jps

然后删除您的saved_cachesandcommitlog并重新开始cassandra。对您遇到上述错误的所有节点执行此操作。

于 2016-10-05T08:24:12.783 回答
0

通常在这样的情况下,在我做了之后

$ systemctl 停止卡桑德拉

我将运行

$ ps awxs | grep 卡桑德拉

会注意到 cassandra 仍然有一些功能。

我通常做一个

$ kill -9 cassandra.pid

$ rm -rf /var/lib/cassandra/data/* && /var/lib/cassandra/commitlog/*

于 2016-10-04T14:00:09.743 回答