Java之品优购部署_day02（2）

阅读量：6821 次

发布时间：2019-06-26

本文共 5571 字，大约阅读时间需要 18 分钟。

1.1 MyCat分片-海量数据存储解决方案

1.1.1 什么是分片

简单来说，就是指通过某种特定的条件，将我们存放在同一个数据库中的数据分散存放到多个数据库（主机）上面，以达到分散单台设备负载的效果。

数据的切分（Sharding）根据其切分规则的类型，可以分为两种切分模式。

（1）一种是按照不同的表（或者 Schema）来切分到不同的数据库（主机）之上，这种切分可以称之为数据的垂直（纵向）切分

（2）另外一种则是根据表中的数据的逻辑关系，将同一个表中的数据按照某种条件拆分到多台数据库（主机）上面，这种切分称之为数据的水平（横向）切分。

Java之品优购部署_day02（2）

MyCat 分片策略：

1.1.2 分片相关的概念

逻辑库(schema) ：

前面一节讲了数据库中间件，通常对实际应用来说，并不需要知道中间件的存在，业务开发人员只需要知道数据库的概念，所以数据库中间件可以被看做是一个或多个数据库集群构成的逻辑库。

逻辑表（table）：

既然有逻辑库，那么就会有逻辑表，分布式数据库中，对应用来说，读写数据的表就是逻辑表。逻辑表，可以是数据切分后，分布在一个或多个分片库中，也可以不做数据切分，不分片，只有一个表构成。

分片表：是指那些原有的很大数据的表，需要切分到多个数据库的表，这样，每个分片都有一部分数据，所有分片构成了完整的数据。总而言之就是需要进行分片的表。

非分片表：一个数据库中并不是所有的表都很大，某些表是可以不用进行切分的，非分片是相对分片表来说的，就是那些不需要进行数据切分的表。

分片节点(dataNode)

数据切分后，一个大表被分到不同的分片数据库上面，每个表分片所在的数据库就是分片节点（dataNode）。

节点主机(dataHost)

数据切分后，每个分片节点（dataNode）不一定都会独占一台机器，同一机器上面可以有多个分片数据库，这样一个或多个分片节点（dataNode）所在的机器就是节点主机（dataHost）, 为了规避单节点主机并发数限制，尽量将读写压力高的分片节点（dataNode）均衡的放在不同的节点主机（dataHost）。

分片规则(rule)

前面讲了数据切分，一个大表被分成若干个分片表，就需要一定的规则，这样按照某种业务规则把数据分到某个分片的规则就是分片规则，数据切分选择合适的分片规则非常重要，将极大的避免后续数据处理的难度。

1.1.3 MyCat分片配置

（1）配置 schema.xml

schema.xml 作为 MyCat 中重要的配置文件之一，管理着 MyCat 的逻辑库、逻辑表以及对应的分片规则、DataNode 以及 DataSource。弄懂这些配置，是正确使用 MyCat 的前提。这里就一层层对该文件进行解析。

schema 标签用于定义 MyCat 实例中的逻辑库

Table 标签定义了 MyCat 中的逻辑表 rule 用于指定分片规则，auto-sharding-long 的分片规则是按 ID 值的范围进行分片 1-5000000 为第 1 片 5000001-10000000 为第 2 片.... 具体

设置我们会在第 5 小节中讲解。

dataNode 标签定义了 MyCat 中的数据节点，也就是我们通常说所的数据分片。

dataHost 标签在mycat 逻辑库中也是作为最底层的标签存在，直接定义了具体的数据库实例、读写分离配置和心跳语句。

在服务器上创建 3 个数据库，分别是 db1 db2 db3

修改 schema.xml 如下：

<?xml version="1.0"?>

<!DOCTYPE mycat:schema SYSTEM "schema.dtd">

<mycat:schema xmlns:mycat=";

</schema>

<dataHost name="localhost1" maxCon="1000" minCon="10" balance="0"

writeType="0"

slaveThreshold="100"> dbType="mysql dbDriver="native switchType="1"

<heartbeat>select user()</heartbeat>

</writeHost>

</dataHost>

</mycat:schema>

（2）配置 server.xml

server.xml 几乎保存了所有 mycat 需要的系统配置信息。最常用的是在此配置用户名、密码及权限。在 system 中添加 UTF-8 字符集设置，否则存储中文会出现问号

修改 user 的设置 , 我们这里为 PINYOUGOUDB 设置了两个用户

<property name="schemas">PINYOUGOUDB</property>

</user>

<property name="schemas">PINYOUGOUDB</property>

</user>

1.1.4 MyCat分片测试

进入 mycat ，执行下列语句创建一个表:

CREATE TABLE tb_test (

id BIGINT(20) NOT NULL,

title VARCHAR(100) NOT NULL , PRIMARY KEY (id)

) ENGINE=INNODB DEFAULT CHARSET=utf8

创建后你会发现，MyCat 会自动将你的表转换为大写，这一点与 Oracle 有些类似。

我们再查看 MySQL 的 3 个库，发现表都自动创建好啦。好神奇。

接下来是插入表数据，注意，在写 INSERT 语句时一定要写把字段列表写出来，否则会出现下列错误提示：

错误代码： 1064

partition table, insert must provide ColumnList

我们试着插入一些数据：

INSERT INTO TB_TEST(ID,TITLE) VALUES(1,'goods1'); INSERT INTO TB_TEST(ID,TITLE) VALUES(2,'goods2');

INSERT INTO TB_TEST(ID,TITLE) VALUES(3,'goods3');

我们会发现这些数据被写入到第一个节点中了，那什么时候数据会写到第二个节点中呢？

我们插入下面的数据就可以插入第二个节点了

INSERT INTO TB_TEST(ID,TITLE) VALUES(5000001,'goods5000001');

因为我们采用的分片规则是每节点存储 500 万条数据，所以当 ID 大于 5000000 则会存储到第二个节点上。

目前只设置了两个节点，如果数据大于 1000 万条，会怎么样呢？执行下列语句测试一下

INSERT INTO TB_TEST(ID,TITLE) VALUES(10000001,'goods10000001');

1.1.5 MyCat分片规则

rule.xml 用于定义分片规则，我们这里讲解两种最常见的分片规则

（1）按主键范围分片 rang-long

在配置文件中我们找到

<rule>

</rule>

</tableRule>

tableRule 是定义具体某个表或某一类表的分片规则名称 columns 用于定义分片的列

algorithm 代表算法名称我们接着找 rang-long 的定义

<property name="mapFile">autopartition-long.txt</property>

</function>

Function 用于定义算法 mapFile 用于定义算法需要的数据，我们打开 autopartition-long.txt

range start-end ,data node index # K=1000,M=10000.

0-500M=0

500M-1000M=1

1000M-1500M=2

（2）一致性哈希 murmur

当我们需要将数据平均分在几个分区中，需要使用一致性 hash 规则

我们找到 function 的 name 为 murmur 的定义，将 count 属性改为 3，因为我要将数据分成

3 片

<property name="count">3</property><!-- 要分片的数据库节点数量，必须指定，否则没法分片

-->

<!-- <property name="bucketMapPath">/etc/mycat/bucketMapPath</property>

用于测试时观察各物理节点与虚拟节点的分布情况，如果指定了这个属性，会把虚拟节点的 murmur hash 值与物理节点的映射按行输出到这个文件，没有默认值，如果不指定，就不会输出任何东西 -->

</function>

我们再配置文件中可以找到表规则定义

<rule>

<algorithm>murmur</algorithm>

</rule>

</tableRule>

但是这个规则指定的列是 id ,如果我们的表主键不是 id ,而是 order_id ,那么我们应该重新定义一个 tableRule：

<rule>

<columns>order_id</columns>

<algorithm>murmur</algorithm>