Datax 数据同步-使用总结(一)

 1,实时同步?

datax 通常做离线数据同步使用。

目前能想到的方案

利用 linux 的定时任务+时间戳的方式做增量同步。

2,同步速度快不快?

单表同步速度还是挺快的

但是如果遇到复杂的 sql 查询,其同步效率,依赖于读取数据的 sql 的执行效率

单表使用 querySql,数量 三千五百万数据,全量同步时间

3,writeMode模式选择

总共三种:insert/replace/update

对于导入端是 mysql的话,

insert 就是单纯的插入。不判重。如果遇到主键冲突,就报错提示。

replace,原理类似 mysql 的 replace into 的原理,

update,原理类似 mysql 的on duplicate key update的原理。

总之,在设计目标的表时候,需要增加唯一索引,避免出现数据重复插入的问题。

4, 优化

这个目前还在研究中。。。。

另外,如果不设置splitPk属性,datax 按单通道执行。