Redis搭建集群

一:Redis官方集群方案 Redis Cluster

Redis Cluster是一种服务器Sharding技术,3.0版本开始正式提供。

Redis Cluster中,Sharding采用slot(槽)的概念,一共分成16384个槽,这有点儿类pre sharding思路。对于每个进入Redis的键值对,根据key进行散列,分配到这16384个slot中的某一个中。使用的hash算法也比较简单,就是CRC16后16384取模。

Redis集群中的每个node(节点)负责分摊这16384个slot中的一部分,也就是说,每个slot都对应一个node负责处理。当动态添加或减少node节点时,需要将16384个槽做个再分配,槽中的键值也要迁移。当然,这一过程,在目前实现中,还处于半自动状态,需要人工介入。

Redis集群,要保证16384个槽对应的node都正常工作,如果某个node发生故障,那它负责的slots也就失效,整个集群将不能工作。

为了增加集群的可访问性,官方推荐的方案是将node配置成主从结构,即一个master主节点,挂n个slave从节点。这时,如果主节点失效,Redis Cluster会根据选举算法从slave节点中选择一个上升为主节点,整个集群继续对外提供服务。这非常类似前篇文章提到的Redis Sharding场景下服务器节点通过Sentinel监控架构成主从结构,只是Redis Cluster本身提供了故障转移容错的能力。

Redis Cluster的新节点识别能力、故障判断及故障转移能力是通过集群中的每个node都在和其它nodes进行通信,这被称为集群总线(cluster bus)。它们使用特殊的端口号,即对外服务端口号加10000。例如如果某个node的端口号是6379,那么它与其它nodes通信的端口号是16379。nodes之间的通信采用特殊的二进制协议。

对客户端来说,整个cluster被看做是一个整体,客户端可以连接任意一个node进行操作,就像操作单一Redis实例一样,当客户端操作的key没有分配到该node上时,Redis会返回转向指令,指向正确的node,这有点儿像浏览器页面的302 redirect跳转。

1.redis cluster节点分配

现在我们是三个主节点分别是:A, B, C 三个节点,它们可以是一台机器上的三个端口,也可以是三台不同的服务器。那么,采用哈希槽 (hash slot)的方式来分配16384个slot 的话,它们三个节点分别承担的slot 区间是:

节点A覆盖0-5460;
节点B覆盖5461-10922;
节点C覆盖10923-16383.

获取数据:

如果存入一个值,按照redis cluster哈希槽的算法: CRC16(‘key’)384 = 6782。 那么就会把这个key 的存储分配到 B 上了。同样,当我连接(A,B,C)任何一个节点想获取’key’这个key时,也会这样的算法,然后内部跳转到B节点上获取数据

新增一个主节点:

新增一个节点D,redis cluster的这种做法是从各个节点的前面各拿取一部分slot到D上,我会在接下来的实践中实验。大致就会变成这样:

节点A覆盖1365-5460
节点B覆盖6827-10922
节点C覆盖12288-16383
节点D覆盖0-1364,5461-6826,10923-12287

同样删除一个节点也是类似,移动完成后就可以删除这个节点了。

2、Redis Cluster主从模式

redis cluster 为了保证数据的高可用性,加入了主从模式,一个主节点对应一个或多个从节点,主节点提供数据存取,从节点则是从主节点拉取数据备份,当这个主节点挂掉后,就会有这个从节点选取一个来充当主节点,从而保证集群不会挂掉。

上面那个例子里, 集群有ABC三个主节点, 如果这3个节点都没有加入从节点,如果B挂掉了,我们就无法访问整个集群了。A和C的slot也无法访问。

所以我们在集群建立的时候,一定要为每个主节点都添加了从节点, 比如像这样, 集群包含主节点A、B、C, 以及从节点A1、B1、C1, 那么即使B挂掉系统也可以继续正确工作。

B1节点替代了B节点,所以Redis集群将会选择B1节点作为新的主节点,集群将会继续正确地提供服务。 当B重新开启后,它就会变成B1的从节点。

不过需要注意,如果节点B和B1同时挂了,Redis集群就无法继续正确地提供服务了。

二:redis集群的搭建

集群中至少应该有奇数个节点,所以至少有三个节点,每个节点至少有一个备份节点,所以下面使用6节点(主节点、备份节点由redis-cluster集群确定)。
下面使用redis-3.2.0安装,下载地址

1、安装redis节点指定端口

解压redis压缩包,编译安装

[root@localhost redis]# tar xzf redis-3.2.0.tar.gz  
[root@localhost redis-3.2.0]# cd redis-3.2.0  
[root@localhost redis-3.2.0]# make && make install PREFIX=/usr/ws/redis-cluster

在redis-cluster下 修改bin文件夹为redis01,复制redis.conf配置文件到redis01文件夹下

[root@localhost redis-3.2.0]# cd /usr/ws/redis-cluster
[root@localhost redis-cluster]# mv bin/ redis01
[root@localhost redis-cluster]# cd -
[root@localhost redis-3.2.0]# cp redis.conf /usr/ws/redis-cluster/redis01 

配置redis的配置文件redis.conf

daemonize yes         #后台启动
port 7001             #修改端口号,从7001到7006
cluster-enabled yes #开启cluster集群,去掉注释
cluster-config-file nodes.conf
cluster-node-timeout 15000
appendonly yes
protected-mode no  #关闭保护模式(允许远程访问)
bind 127.0.0.1     #注释内容开启远程访问

复制六份,修改对应的端口号

2、安装redis-trib所需的 ruby脚本

复制redis解压文件src下的redis-trib.rb文件到redis-cluster目录

[root@localhost src]# cp redis-trib.rb /usr/ws/redis-cluster/

安装ruby环境:

[root@localhost redis-cluster]# yum install ruby  
[root@localhost redis-cluster]# yum install rubygems  

安装redis-trib.rb运行依赖的ruby的包redis-3.2.2.gem,下载

[root@localhost redis-cluster]#wget https://rubygems.global.ssl.fastly.net/gems/redis-3.2.2.gem
[root@localhost redis-cluster]# gem install redis-3.2.2.gem  

3、启动所有的redis节点

启动所有redis脚本

vi start.sh

#脚本内容
cd redis01  
./redis-server redis.conf  
cd ..  
cd redis02  
./redis-server redis.conf  
cd ..  
cd redis03  
./redis-server redis.conf  
cd ..  
cd redis04  
./redis-server redis.conf  
cd ..  
cd redis05  
./redis-server redis.conf  
cd ..  
cd redis06  
./redis-server redis.conf  
cd ..  

#设置脚本启动权限
chmod +x start.sh
#启动redis服务
./start.sh

查看redis进程启动状态

[root@localhost redis-cluster]# ps -ef | grep redis  


可以看到redis的3个节点已经启动成功

杀死全部redis脚本

[root@localhost redis-cluster]# pkill -9 redis  

4、使用redis-trib.rb创建单台服务器集群

./redis-trib.rb create --replicas 1 127.0.0.1:7001 127.0.0.1:7002 127.0.0.1:7003 127.0.0.1:7003 127.0.0.1:7004 127.0.0.1:7005 127.0.0.1:7006

使用create命令 --replicas 1 参数表示为每个主节点创建一个从节点,其他参数是实例的地址集合。



上面显示创建成功,有3个主节点,3个从节点,每个节点都是成功连接状态。

以上集群安装成功了,如果安装未成功报如下错误

>>> Creating cluster
[ERR] Sorry, can't connect to node  ....

需要安装最新的ruby源码,[下载]

[root@localhost redis-cluster]# tar -zxvf ruby-2.3.1.tar.gz   
[root@localhost redis-cluster]# cd    
[root@localhost redis-cluster]# ./configure --prefix=/usr/local/ruby-2.3.1    
[root@localhost redis-cluster]# make && make install       
[root@localhost redis-cluster]#gem install redis   

5、使用redis-trib.rb创建多台服务器集群

分别在192.168.245.128和192.168.245.129搭建redis集群,192.168.245.128上面配置9个节点,192.168.245.128上面配置6个节点;设置3个主节点、12个从节点,一共15个节点。

#--replicas 4  代表没个主节点有4个从节点
./redis-trib.rb create --replicas 4 \
 192.168.245.128:9324 192.168.245.128:9325 192.168.245.128:9326 192.168.245.128:9327 \
 192.168.245.128:9328 192.168.245.128:9329 192.168.245.128:9330 192.168.245.128:9331 \
 192.168.245.128:9332 192.168.245.129:7001 192.168.245.129:7002 \
 192.168.245.129:7003 192.168.245.129:7004 192.168.245.129:7005 \
 192.168.245.129:7006

注:每个节点的redis.conf配置文件中,都要允许远程连接。

cluster-enabled yes #开启cluster集群,去掉注释
appendonly yes
protected-mode no  #关闭保护模式(允许远程访问)
bind 127.0.0.1     #注释内容开启远程访问

三:redis集群的测试

1、测试存取值

启动集群测试连接(支持远程连接)<-c:代表集群;-h:代表IP;-p:代表端口;>
[root@localhost redis01]# ./redis-cli -c -h 192.168.245.129 -p 7003

客户端连接集群redis-cli需要带上 -c ,redis-cli -c -p 端口号
[root@localhost redis01]# ./redis-cli -c -p 7001  
127.0.0.1:7001> set name ws  
-> Redirected to slot [5798] located at 127.0.0.1:7002  
OK  
127.0.0.1:7002> get name  
"ws"  
127.0.0.1:7002> 

根据redis-cluster的key值分配,name应该分配到节点7002[5461-10922]上,上面显示redis cluster自动从7001跳转到了7002节点。

[root@localhost redis06]# ./redis-cli -c -p 7006  
127.0.0.1:7006> get name  
-> Redirected to slot [5798] located at 127.0.0.1:7002  
"ws"  
127.0.0.1:7002>  

7006位7003的从节点,从上面也是自动跳转至7002获取值,这也是redis cluster的特点,它是去中心化,每个节点都是对等的,连接哪个节点都可以获取和设置数据。

2、集群节点选举

现在模拟将7002节点挂掉,按照redis-cluster原理会选举会将 7002的从节点7005选举为主节点。

[root@localhost redis-cluster]# ps -ef | grep redis  
root       7950      1  0 12:50 ?        00:00:28 ./redis-server 127.0.0.1:7001 [cluster]  
root       7952      1  0 12:50 ?        00:00:29 ./redis-server 127.0.0.1:7002 [cluster]  
root       7956      1  0 12:50 ?        00:00:29 ./redis-server 127.0.0.1:7003 [cluster]  
root       7960      1  0 12:50 ?        00:00:29 ./redis-server 127.0.0.1:7004 [cluster]  
root       7964      1  0 12:50 ?        00:00:29 ./redis-server 127.0.0.1:7005 [cluster]  
root       7966      1  0 12:50 ?        00:00:29 ./redis-server 127.0.0.1:7006 [cluster]  
root      11346  10581  0 14:57 pts/2    00:00:00 grep --color=auto redis  
[root@localhost redis-cluster]# kill 7952  

在查看集群中的7002节点

[root@localhost redis-cluster]# ./redis-trib.rb check 127.0.0.1:7002  
[ERR] Sorry, can't connect to node 127.0.0.1:7002  
[root@localhost redis-cluster]# ./redis-trib.rb check 127.0.0.1:7005  
>>> Performing Cluster Check (using node 127.0.0.1:7005)  
M: a5db243087d8bd423b9285fa8513eddee9bb59a6 127.0.0.1:7005  
   slots:5461-10922 (5462 slots) master  
   0 additional replica(s)  
S: 50ce1ea59106b4c2c6bc502593a6a7a7dabf5041 127.0.0.1:7004  
   slots: (0 slots) slave  
   replicates dd19221c404fb2fc4da37229de56bab755c76f2b  
M: f9886c71e98a53270f7fda961e1c5f730382d48f 127.0.0.1:7003  
   slots:10923-16383 (5461 slots) master  
   1 additional replica(s)  
M: dd19221c404fb2fc4da37229de56bab755c76f2b 127.0.0.1:7001  
   slots:0-5460 (5461 slots) master  
   1 additional replica(s)  
S: 8bb3ede48319b46d0015440a91ab277da9353c8b 127.0.0.1:7006  
   slots: (0 slots) slave  
   replicates f9886c71e98a53270f7fda961e1c5f730382d48f  
[OK] All nodes agree about slots configuration.  
>>> Check for open slots...  
>>> Check slots coverage...  
[OK] All 16384 slots covered.  

可以看到集群连接不了7002节点,而7005有原来的S转换为M节点,代替了原来的7002节点。我们可以获取name值:

[root@localhost redis01]# ./redis-cli -c -p 7001  
127.0.0.1:7001> get name  
-> Redirected to slot [5798] located at 127.0.0.1:7005  
"ws"   

从7001节点连入,自动跳转到7005节点,并且获取name值。 现在我们将7002节点恢复,看是否会自动加入集群中以及充当的M还是S节点。

[root@localhost redis-cluster]# cd redis02  
[root@localhost redis02]# ./redis-server redis.conf 

在check一下7002节点

[root@localhost redis-cluster]# ./redis-trib.rb check 127.0.0.1:7002  
>>> Performing Cluster Check (using node 127.0.0.1:7002)  
S: 1f07d76585bfab35f91ec711ac53ab4bc00f2d3a 127.0.0.1:7002  
   slots: (0 slots) slave  
   replicates a5db243087d8bd423b9285fa8513eddee9bb59a6  
M: f9886c71e98a53270f7fda961e1c5f730382d48f 127.0.0.1:7003  
   slots:10923-16383 (5461 slots) master  
   1 additional replica(s)  
M: a5db243087d8bd423b9285fa8513eddee9bb59a6 127.0.0.1:7005  
   slots:5461-10922 (5462 slots) master  
   1 additional replica(s)  
S: 50ce1ea59106b4c2c6bc502593a6a7a7dabf5041 127.0.0.1:7004  
   slots: (0 slots) slave  
   replicates dd19221c404fb2fc4da37229de56bab755c76f2b  
S: 8bb3ede48319b46d0015440a91ab277da9353c8b 127.0.0.1:7006  
   slots: (0 slots) slave  
   replicates f9886c71e98a53270f7fda961e1c5f730382d48f  
M: dd19221c404fb2fc4da37229de56bab755c76f2b 127.0.0.1:7001  
   slots:0-5460 (5461 slots) master  
   1 additional replica(s)  
[OK] All nodes agree about slots configuration.  
>>> Check for open slots...  
>>> Check slots coverage...  
[OK] All 16384 slots covered.  
[root@localhost redis-cluster]#   

可以看到7002节点变成了a5db243087d8bd423b9285fa8513eddee9bb59a6 7005的从节点。

四:错误解析

一、创建集群

1:错误显示:

[ERR] Node 127.0.0.1:7000 is not empty. Either the node already knows other nodes (check with CLUSTER NODES) or contains some key in database 0.

1:错误解决:

删除生成的配置文件nodes.conf,如果不行则说明现在创建的结点包括了旧集群的结点信息,需要删除redis的持久化文件后再重启redis,比如:appendonly.aof、dump.rdb

rm -rf appendonly.aof dump.rdb nodes.conf

2:错误显示:

Sorry, can't connect to node 192.168.245.129:7001

2:错误解决:

修改redis.conf文件,找到bind 127.0.0.1,修改成本地的ip名称,就可以远程使用了。

3:错误显示:

(error) MOVED 5798 192.168.245.129:7001

3:错误解决:

每个节点的redis.conf配置文件中,都要允许远程连接。

cluster-enabled yes #开启cluster集群,去掉注释
appendonly yes
protected-mode no  #关闭保护模式(允许远程访问)
bind 127.0.0.1     #注释内容开启远程访问

微信公众号,欢迎扫码关注