fun on the canal？-科压科技

一、fun on the canal？

"Fun on the canal"是一个英语短语，意思是在运河上玩乐或享受娱乐活动。运河是一种人工或自然形成的水道，通常用于船舶运输、灌溉或水利工程等目的。在一些地方，人们会选择在运河上进行各种娱乐活动，如划船、钓鱼、观光游船等。这些活动可以让人们享受水上的美景和休闲时光。

二、canal安装需要安装数据库吗？

本文主要描述Alibaba Canal中间件，官方文档请参考：

1）gitlab：https://github.com/alibaba/canal

2）主要原理介绍：https://github.com/alibaba/canal/wiki/canal%E4%BB%8B%E7%BB%8D

2）运维操作文档：https://github.com/alibaba/canal/wiki/AdminGuide

下文的介绍，基于大家对上述文档的基本了解！

1）Canal版本为：1.0.24

2）通过Canal同步数据库数据变更事件，并由下游的消费者消费，将数据转存到ES或者跨机房的DB中。

一、设计目标

1、监控canal组件以及客户端消费者

2、通过平台，能够实时查看监控数据。canal问题的定位应该快速，且运行状态数据可见。

3、按需提供报警策略。

4、平台支持添加canal集群的监控。

5、canal组件的部署和使用遵守约定，canal的实施应该快速。

我们希望构建一个canal服务：根据用户需求，能够快速构建canal集群，包括环境隔离；此外canal组件、上游的MySQL、下游的consumer等数据链路的整体状态都在监控之中，且数据可见。我们希望任何利益相关者，都可以参与到数据决策中，并按需提供报警、预警机制。

二、基于Canal架构设计

1、整体架构

1）、每个Canal 集群应该至少有2个Canal实例，软硬件配置应该对等。我们不应该在同一个Cluster的多个节点上，配置有任何差异。

2）、一个Canal可以多个“instances”，每个instance对应一个“MySQL实例”的一个database（专业来说，一个instance对应一个MySQL实例，支持其上的多个databases）；简单而言，我们认为一个instance相当于一个逻辑Slave。

3）、由2、可以得出，每个Canal Instance的全局处理的数据总量与一个正常的MySQL Slave相同，如果保持同等SLA，从Canal instance角度考虑，它的硬件能力应该与MySQL Slave保持相同。（同为单线程处理）。

4）、原则上，每个Canal可以支持“数十个instance”，但是instance的个数最终会影响instance同步数据的效能。我们建议，一个Canal尽量保持一个instance；除非Slave数据变更极小，我们才会考虑合并instances，以提高Canal组件的利用效率。

5）、每个instance，一个单独的处理线程，用于负责“binlog dump”、“解析”、“入队和存储”。

6）、Canal集群模式，必须依赖Zookeeper，但是对Zookeeper的数据交互并不频繁。

7）、Canal集群运行态，为“M-S”模式。但是“M-S”的粒度为“instance”级别。如果当前Canal的instance，与MySQL建立连接并进行binlog解析时，发生一定次数的“网络异常”等，将会判定为当前instance失效，并stop（备注：此时会删除注册在ZK的相关临时节点）。同时，集群中的每个Canal都会注册所有“destination”（每个destination将有一个instance服务）的状态变更事件，如果“临时节点”被删除（或者不存在），则会出发抢占，抢占成功，则成为此instance的Master。

（源码：CanalController.initGlobalConfig(),

ServerRunningMonitor.start(),

HeartBeatHAController.onFailed()

）

8）、根据7、，我们得知，如果Canal组件中有多个instances，有可能这些instances的Master会分布在不同的Canal节点上。

9）、在运维层面，我们基于“default-instance.xml”配置，基于“spring”模式；每个instance的配置，放置在各自的文件夹下。（${canal.root}/conf/${destination}/instance.properties）

10）、每个Canal节点，在启动时会初始化一个“嵌入式server”（NettyServer），此server主要目的是向Consumer提供服务。server的“ip:port”信息会注册在ZK中，此后Consumer通过ZK来感知。

（源码：

ServerRunningMonitor.initRunning(),

ClusterNodeAccessStrategy构造方法，

ZookeeperPathUtils.getDestinationServerRunning(destination)

）

11）、在Canal运行期间，可以动态的增加instances配置、修改instances配置。

2、Canal内部组件解析

1）Canal节点，可以有多个instances，每个instance在运行时为一个单独的Spring Context，对象实例为“CanalInstanceWithSpring”。

2）每个instances有一个单独的线程处理整个数据流过程。

3）instance内部有EventParser、EventSink、EventStore、metaManager主要四个组件构成，当然还有其他的守护组件比如monitor、HA心跳检测、ZK事件监听等。对象实例初始化和依赖关系，可以参见“default-instance.xml”，其配置模式为普通的Spring。

（源码参见：SpringCanalInstanceGenerator）

4）Parser主要用于解析指定"数据库"的binlog，内部基于JAVA实现的“binlog dump”、“show master status”等。Parser会与ZK交互，并获取当前instance所有消费者的cursor，并获其最小值，作为此instance解析binlog的起始position。目前的实现，一个instance同时只能有一个consumer处于active消费状态，ClientId为定值“1001”，“cursor”中包含consumer消费binlog的position，数字类型。有次可见，Canal instance本身并没有保存binlog的position，Parser中继操作是根据consumer的消费cursor位置来决定；对于信息缺失时，比如Canal集群初次online，且在“default-instance.xml”中也没有指定“masterPositiion”信息(每个instance.properties是可以指定起始position的)，那么将根据“show master status”指令获取当前binlog的最后位置。

（源码：MysqlEventParser.findStartPosition()）

5）Parser每次、批量获取一定条数的binlog，将binlog数据封装成event，并经由EventSink将消息转发给EventStore，Sink的作用就是“协调Parser和Store”，确保binglog的解析速率与Store队列容量相容。

（参见源码：AbstractEventParser.start(),

EntryEventSink.sink()

）

6）EventStore，用于暂存“尚未消费”的events的存储队列，默认基于内存的阻塞队列实现。Store中的数据由Sink组件提交入队，有NettyServer服务的消费者消费确认后出队，队列的容量和容量模式由“canal.properties”中的“memory”相关配置决定。当Store中容量溢满时，将会阻塞Sink操作（间接阻塞Parser），所以消费者的效能会直接影响instance的同步效率。

7）metaManager：主要用于保存Parser组件、CanalServer（即本文中提到的NettyServer）、Canal Instances的meta数据，其中Parser组件涉及到的binlog position、CanalServer与消费者交互时ACK的Cursor信息、instance的集群运行时信息等。根据官方解释，我们在production级别、高可靠业务要求场景下，metaManager建议基于Zookeeper实现。

其中有关Position信息由CanalLogPositionManager类负责，其实现类有多个，在Cluster模式下，建议基于FailbackLogPositionManager，其内部有“primary”、“failback”两级组合，优先基于primary来存取Position，只有当primary异常时会“降级”使用failback；其配置模式，建议与“default-instance.xml”保持一致。

（参看源码：CanalMetaManager，PeriodMixedMetaManager）

3、Consumer端

1）Consumer允许分布式部署，多个对等节点互备。但是任何时候，同一个destination的消费者只能有一个（client实例），这种排他、协调操作由zookeeper承担。在Cluster模式下，指定zkServer的地址，那么Consumer将会从meta信息中获取指定destination所对应的instance运行在哪个Canal节点上，且CanalServer（即NettyServer）的ip:port信息，那么此时Consumer将根据“ip:port”与NettyServer建立连接，并进行数据交互。

（参见源码：SimpleCanalConnector.connect(),

ClientRunningMonitor.start()

）

2）Consumer有序消费消息，严格意义上说，我们强烈建议Consumer为单线程逐条处理。尽管研发同学，有很多策略可以让消息的处理过程使用多线程，但是对于消息的ACK将需要特殊的关注，而且非有序情境下，或许会对你的数据一致性有一定的影响。

3）消费者的消费效率，取决于“业务本身”，我们建议业务处理尽可能“短平快”。如果你的业务处理相对耗时，也不建议大家再使用“比如MQ、kafka”等其他异步存储做桥接，因为这本质上对提高endpoint端效能没有太大帮助，反而增加了架构的复杂性。

4）我们严格限制：消费者在处理业务时，必须捕获所有异常，并将异常的event和处理过程的exception打印到业务日志，以备将来进行数据补偿；捕获异常，有助于Consumer可以继续处理后续的event，那么整个canal链路不会因为一条消息而导致全部阻塞或者rollback。

5）Consumer单线程运行，阻塞、流式处理消息，获取event的方式为pull + batch；每个batch的size由配置决定，一个batch获取结束后，将会逐个调用业务的process方法，并在整个batch处理结束后，按需进行ack或者rollback。

6）需要注意：rollback操作是根据batchId进行，即回滚操作将会导致一个batch的消息会被重发；后续有重复消费的可能，这意味着业务需要有兼容数据幂等的能力。

7）消费者的ClientId为定值：1001，不可修改。

三、部署与最佳实践（建议）

1、Canal集群部署

1）Production场景，节点个数至少为2，考虑到Canal自身健壮性，也不建议Canal单组集群的节点数量过多。

2）Canal节点为“网络IO高耗”、“CPU高耗”（并发要求较高，体现在instance处理、consumer交互频繁）型应用，对磁盘IO、内存消耗很低。

3）不建议Canal与其他应用混合部署，我们认定Canal为核心组件，其可用性应该被保障在99.99%+。

4）每个Canal集群的instances个数，并没有严格限制，但其所能承载的数据量（TPS，包括consumer + binlog parser）是评估instances个数的主要条件。考虑到Production级别数据变更的场景不可控，我们建议每个Canal集群的instance个数，应该在1~3个。

5）对于核心数据库、TPS操作较高的数据库，应该使用单独的Canal。

6）Canal集群的个数多，或者分散，或者利用率低，并不是我们特别关注的事情，不要因为过度考虑“资源利用率”、“Consumer的集中化”而让Canal负重。

7）Canal的配置，绝大部分可以使用“默认”，但是要求在Production场景，instance模式必须使用Spring，配置方式采用“default-instance.xml”。“default-instance.xml”默认配置已满足我们HA环境下的所有设计要求。（版本：1.0.24）

8）Canal机器的配置要求（最低）：4Core、8G；建议：8Core、16G。

9）Canal的上游，即MySQL实例，可以是“Master”或者任意level的Slave，但是无论如何，其binlog_format必须为ROW，通过使用“show variables like 'binlog_format"”来确定。目前已经验证，使用mixed模式可能导致某些UPDATE操作事件无法被消费者解析的问题。

2、Zookeeper集群

1）Zookeeper集群，要求至少3个节点。网络联通性应该尽可能的良好。

2）多个Canal Cluster可以共享一个ZK集群，而且建议共享。那么只需要在canal.properties文件中“zkServers”配置项增加“rootPath”后缀即可，比如“10.0.1.21:2181,10.0.1.22:2181/canal/g1”。但是不同的Canal cluster，其rootPath应该不同。我们约定所有的Canal集群，rootpath的都以“/canal/”开头。（这对我们后续的ZK监控比较有利，我们只需要遍历"/canal"的子节点即可知道集群信息）

3）业界也有一种通用的部署方式，zookeeper集群与canal共生部署，三个节点，每个节点上都部署一个ZK和canal；这种部署模式的出发点也是比较简单，分析canal问题时只需要通过本地zk即可。（仅为建议）

4）需要非常注意，rootpath必须首先创建，否则canal启动时将会抛出异常！

3、Consumer集群

1）Consumer实例为普通application，JAVA项目，Spring环境。

2）Consumer集群至少2个节点，分布式部署。运行态为M-S。

3）每个Consumer实例为单线程，Consumer本身对CPU、内存消耗较低，但是对磁盘有一定的要求，因为我们将会打印大量的日志。建议磁盘为200G + ，logback的日志格式应该遵守我司规范，后续承接ELK基础数据平台。

4）一个Application中，允许有多个Consumer实例。

5）Consumer的业务处理部分，必须捕获全部异常，否则异常逃逸将可能导致整个链路的阻塞；对于异常情况下，建议进行日志记录，稍后按需进行数据补偿。

6）Consumer的业务处理部分，我们要求尽可能的快，业务处理简单；最重要的是千万不要在业务处理部分使用比如“Thread.sleep”、“Lock”等阻塞线程的操作，这可能导致主线程无法继续；如果必须，建议使用分支线程。

7）如果你对消息的顺序、事务不敏感，也允许你在业务处理部分使用多线程，这一部分有一定的歧义，所以需要开发者自己评估。从原理上说，多线程可以提高消息消费的效率，但是对数据一致性可能会有影响。但是Consumer的Client框架，仍然坚守单线程、有序交付。

8）在CanalServer和Consumer端，都能指定“filter”，即“过滤不关注的schema消息”；在CanalServer启动时将会首先加载“instance.properties”中的filter配置并生效，此后如果instance的消费者上线且也指定了filter，那么此filter信息将会被注册ZK中，那么CanalServer将会基于ZK获取此信息，并将Consumer端的filter作为最终决策；由此可见，我们在Consumer端指定filter的灵活性更高（当然隐蔽性也增加，这对排查问题需要一些提前沟通），无论如何，CanalServer不会传送“不符合filter”的消息给Consumer。

4、Filter规则描述：适用于instance.properties和Consumer端的subscribe()方法

1）所有表：.* or .*\\..*

2） canal schema下所有表： canal\\..*

3） canal下的以canal打头的表：canal\\.canal.*

4） canal schema下的一张表：canal.test1

5）多个规则组合使用：canal\\..*,mysql.test1,mysql.test2 (逗号分隔)

5、运行状态监控

非常遗憾的是，Canal监控能力相当的弱，内部程序中几乎没有JMX的任何export机制，所以如果需要监控比如“slave延迟”、“消费速率”、“position”等，需要开发代码。思路如下：

1）开发一个JAVA WEB项目。

2）读取ZK中的相关META信息，解析出每个destination对于的slave地址，并创建JDBC连接，发送“show master status”等指令，查看此slave binlog的位置，用于判断Canal延迟。

3）读取ZK中相关META信息，解析出每个destination对应的consumer cursor，与2）进行对比，用于判定consumer的消费延迟。

四、Canal核心配置样例

1、canal.properties (${canal.root}/conf)

Java代码

## 当前canal节点部署的instances列表，以“,”分割

##比如：test,example

canal.destinations= example

##canal配置文件主目录，保持默认即可。

##除非你为了提高canal的动态管理能力，将conf文件迁移到了其他目录（比如NFS目录等）

canal.conf.dir = ../conf

# 是否开启“instance”配置修改自动扫描和重载

##1）conf.dir目录下新增、删除instance配置目录

##2）instance配置目录下的instance.properties变更

##不包含：canal.properties，spring/*.xml的配置变更

##如果环境隔离、测试充分的环境下，或者应用试用初期，可以开启

##对于高风险项目，建议关闭。

canal.auto.scan = true

canal.auto.scan.interval = 5

##instance管理模式，Production级别我们要求使用spring

canal.instance.global.mode = spring

##直接初始化和启动instance

canal.instance.global.lazy = false

##Production级别，HA模式下，基于default-instance.xml

##需要即备的ZK集群，且不应该修改此文件的默认配置。

##如果有自定义的场景，应该新建${instance}-instance.xml文件

canal.instance.global.spring.xml = classpath:spring/default-instance.xml

##canal server的唯一标识，没有实际意义，但是我们建议同一个cluster上的不同节点，其ID尽可能唯一（后续升级）

##数字类型

canal.id = 1

##canal server因为binding的本地IP地址，建议使用内网（唯一，集群可见，consumer可见）IP地址，比如“10.0.1.21”。

#此IP主要为canalServer提供TCP服务而使用，将会被注册到ZK中,Consumer将与此IP建立连接。

canal.ip =

##conal server的TCP端口

canal.port = 11111

##Production场景，HA模式下，比如使用ZK作为服务管理，此处至少指定“多数派ZK Node”的IP列表

##如果你的多个Canal Cluster共享ZK，那么每个Canal还需要使用唯一的“rootpath”。

canal.zkServers = 10.0.1.21:2818,10.0.1.22,10.0.2.21:2818/canal/g1

# flush data to zk

##适用于metaManager，基于period模式

##metaManager优先将数据（position）保存在内存，然后定时、间歇性的将数据同步到ZK中。

##此参数用于控制同步的时间间隔，建议为“1000”（1S），单位：ms。

##运维或者架构师，应该观察ZK的效能，如果TPS过于频繁，可以提高此值、或者按Canal集群分离ZK集群。

##目前架构下，Consumer向CanalServer提交ACK时会导致ZK数据的同步。

canal.zookeeper.flush.period = 1000

##canal将parse、position数据写入的本地文件目录，HA环境下无效。

##（file-instance.xml）

canal.file.data.dir = ${canal.conf.dir}

canal.file.flush.period = 1000

##内存模式，EventStore为Memory类型时。（default-instance.xml）

##可选值：

##1) MEMSIZE 根据buffer.size * buffer.memunit的大小，限制缓存记录的大小，简答来说，就是内存容量大小限制

##2) ITEMSIZE 根据buffer.size进行限制，简单来说，就是根据event的条数限制。

##如果Canal上的instances个数有限，且Consumer的消费效率很高，甚至接近或者高于binlog解析效率，那么可以适度增加memory有关的数值。

##此外batchMode还与消费者的batchSize有些关系，消费者每次能消费的数据量，取决于此mode。

##如果mode为itemSize，则consumer每次获取的消息的条数为batchSize条。

##如果mode为memSize，那么consumer消费的数据总量为batchSize * memunit

canal.instance.memory.batch.mode = MEMSIZE

canal.instance.memory.buffer.size = 16384

canal.instance.memory.buffer.memunit = 1024

# 所能支撑的事务的最大长度，超过阈值之后，一个事务的消息将会被拆分，并多次提交到eventStore中，但是将无法保证事务的完整性

canal.instance.transaction.size = 1024

# 当instance.properties配置文件中指定“master”、“standby”时，当canal与“master”联通性故障时，触发连接源的切换，

##那么切换时，在新的mysql库上查找binlog时需要往前“回退”查找的时间，单位：秒。

##良好架构下，我们建议不使用“standby”，限定一个数据库源。因为多个源时，数据库的调整频繁、协调不足，可能会引入一些数据问题。

canal.instance.fallbackIntervalInSeconds = 60

## 有关HA心跳检测部分，主要用在Parser管理dump连接时使用。

## 我们在HA环境时建议开启。

canal.instance.detecting.enable = true

#如果你需要限定某个database的可用性验证（比如库锁），

#最好使用复杂的、有效的SQL，比如：insert into {database}.{tmpTable} ....

canal.instance.detecting.sql = select 1

##心跳检测频率，单位秒

canal.instance.detecting.interval.time = 6

##重试次数

##非常注意：interval.time * retry.threshold值，应该参考既往DBA同学对数据库的故障恢复时间，

##“太短”会导致集群运行态角色“多跳”；“太长”失去了活性检测的意义，导致集群的敏感度降低，Consumer断路可能性增加。

canal.instance.detecting.retry.threshold = 5

#如果在instance.properties配置了“master”、“standby”，且此参数开启时，在“探测失败”后，会选择备库进行binlog获取

#建议关闭

canal.instance.detecting.heartbeatHaEnable = false

# CanalServer、instance有关的TCP网络配置，建议保持抱人

canal.instance.network.receiveBufferSize = 16384

canal.instance.network.sendBufferSize = 16384

canal.instance.network.soTimeout = 30

# Parser组件，有关binlog解析的过滤

##是否过滤dcl语句，比如“grant/create user”等

canal.instance.filter.query.dcl = false

##dml语句：insert/update/delete等

canal.instance.filter.query.dml = false

##ddl语句：create table/alter table/drop table以及一些index变更

canal.instance.filter.query.ddl = false

canal.instance.filter.table.error = false

canal.instance.filter.rows = false

# binlog格式和“镜像”格式检测，建议保持默认

canal.instance.binlog.format = ROW,STATEMENT,MIXED

canal.instance.binlog.image = FULL,MINIMAL,NOBLOB

# ddl是否隔离发送，保持默认

canal.instance.get.ddl.isolation = false

canal.properties为全局配置，约束所有的instances、CanalServer等。

2、instance.properties （${canal.root}/conf/{instance}）

Java代码

## 每个instance都会伪装成一个mysql slave，

## 考虑到binlog同步的机制，我们需要指定slaveId，注意此ID对于此canal前端的MySQL实例而言，必须是唯一的。

## 同一个Canal cluster中相同instance，此slaveId应该一样。

## 我们约定，所有Canal的instance，其slaveId以“1111”开头，后面补充四位数字。

canal.instance.mysql.slaveId = 11110001

# 数据库相关：master库

##备注，master并不是要求是“MySQL 数据库Master”，

## 而是Canal instance集群模式下，HA运行态中“master”（首选节点）

## 当在故障恢复、Canal迁移时，我们需要手动指定binlog名称以及postition或者timestamp，确保新Canal不会丢失数据。

## 数据库实例地址，ip:port

canal.instance.master.address = 127.0.0.1:3306

##指定起始的binlog文件名，保持默认

canal.instance.master.journal.name =

##此binlog文件的position位置（offset），数字类型。获取此position之后的数据。

canal.instance.master.position =

##此binlog的起始时间戳，获取此timestamp之后的数据。

canal.instance.master.timestamp =

##standby库

##考虑到我司现状，暂不使用standby

#canal.instance.standby.address =

#canal.instance.standby.journal.name =

#canal.instance.standby.position =

#canal.instance.standby.timestamp =

# 数据库连接的用户名和密码

# 貌似Consumer与CanalServer建立连接时也用的是此用户名和密码

canal.instance.dbUsername = canal

canal.instance.dbPassword = canal

# 默认数据库

canal.instance.defaultDatabaseName =

canal.instance.connectionCharset = UTF-8

# schema过滤规则，类似于MySQL binlog的filter

# canal将会过滤那些不符合要求的table，这些table的数据将不会被解析和传送

# filter格式，Consumer端可以指定，只不过是后置的。

## 无论是CanalServer还是Consumer，只要有一方指定了filter都会生效，consumer端如果指定，则会覆盖CanalServer端。

canal.instance.filter.regex = .*\\..*

# table black regex

canal.instance.filter.black.regex =

3、default-instance.xml （${canal.root}/conf/spring）

建议保持默认

三、canal是什么牌子？

是:男装品牌。

canal，1934年由Giovanni Canali和Giacomo Canali俩兄弟创立于意大利，是意大利男装品牌。CANALI的产品种类包括：休闲装、配饰，以及特许生产的香水、袖扣、袜子等。因为专注于精美男士服装的制作，该公司服装的非凡风采开始影响整个意大利服装市场。

1934年, Giovanni Canali和Giacomo Canali兄弟俩秉承19世纪的制衣传统，在布里安扎（Brianza）的特里乌乔（Triuggio）成立了一家制衣工坊，生产高档服装。

四、canal和river区别？

canal是运河的意思，是人工开凿的。river是江、河的意思，是天然的。

五、canal的优点和缺点？

优点：操作简单。

缺点：与业务操作代码耦合度变高；执行效率低。

六、canal如何实现高并发？

canal通过底层逻辑算法实现高并发

七、canal tube和duct的区别？

我不是解剖专业的，只能给点建议 tube可以用来形容软管，可以用在身体部位上。

duct一般指人体或植物体内运输液体的导管。

八、canal能代替mysql主从吗？

不能的，canal只是做binlog同步用，并不具备真实的主从功能

九、canal能解析sql server吗？

应该不可以吧，canal本来就是同步mysql数据的，原理也是利用了mysql主从同步的原理，对sql server应该不适用。

十、阿里云dts和canal区别？

a) Canal是基于Mysql binlog变动，实时同步数据变化的工具

b) DTS是阿里云提供的一套数据产品，原理和Canal类似，我们想监听某个表的变动，只需订阅，就可以获取到数据的实时变化

c) 迁云之后，主要使用DTS

d) 数据落地我们使用kafka，topic一般是schema.table_name

e) 消费方一般是streaming、airflow调度的spark作业等，计算后的数据二次落地在redis、hbase、es等数据集群中

一、fun on the canal？

二、canal安装需要安装数据库吗？

三、canal是什么牌子？

四、canal和river区别？

五、canal的优点和缺点？

六、canal如何实现高并发？

七、canal tube和duct的区别？

八、canal能代替mysql主从吗？

九、canal能解析sql server吗？

十、阿里云dts和canal区别？

相关文章

大数据 量化交易

大数据使用的语言

相关推荐

1民意民声口号？

2fun on the canal？

3orgin怎么退款？

4holo船长几岁？

5graph applications

大数据量化交易