高效数据移动指南 | 如何快速实现数据库 MySQL 到 MongoDB 的数据同步？

在现代企业中，数据无处不在，贯穿于各个业务环节和系统之间。无论是跨系统的数据集成、多地域的数据协同，还是实时应用的数据同步，数据的一致性和及时性都至关重要。在数字化转型的过程中，如何确保不同系统、地域、设备之间的数据同步，成为了企业面临的重要挑战。

本专题将基于实践经验，从常见需求入手，为大家介绍热门数据源与数据目标之间的数据同步（全量/增量）如何实现？了解如何快速搭建数据管道，实现数据的高效迁移与无缝同步。

>>> 本文教程为：MySQL → MongoDB 的数据同步任务。

在实际应用中，数据同步涉及诸多场景，如容灾备份、应用改造/替代、数据库版本升级/回退、数据库替代、业务分流等，不同的场景在数据流向、同步需求、数据处理等方面会有不同的需求，需要针对性地选择迁移工具和方案。

以 MySQL 到 MongoDB 的数据同步需求为例，这样从关系型数据库到非关系型数据库的数据移动需要考虑数据结构的差异和转换规则。MySQL 基于表结构，而 MongoDB 是文档型数据库，数据格式更为灵活。同步过程中，需要将 MySQL 中的表结构映射到 MongoDB 的文档结构，并确保数据类型兼容。此外，还需考虑数据一致性、实时性要求，以及增量同步机制的实现。

一、什么是 MySQL？

MySQL 是一个流行的开源关系型数据库管理系统（RDBMS），其特点是高性能、可靠性和易用性，广泛应用于 Web 应用、企业应用和数据仓库。基于 SQL（结构化查询语言），MySQL 适用于各种规模的应用、具有跨平台特性、提供多种存储引擎、支持事务和外键。其中，MySQL 的高性能和可靠性在实际应用中尤为重要，因为它能够处理大量的数据和高并发的请求，而不会显著降低系统的响应速度。MySQL 的易用性也是一个关键优势，用户可以通过图形化界面或者命令行进行数据库管理，相对简单易学。

优势

开源：社区活跃，提供持续的更新和支持。
跨平台：支持多种操作系统，如 Windows、Linux 和 macOS。
高性能：优化了读写性能，适合处理大量数据。
灵活性：支持多种数据类型，包括整型、浮点数、字符串和日期等。
安全性：提供多层次的安全特性，包括用户权限管理、加密连接等。

二、什么是 MongoDB？

MongoDB 是一款面向文档的、分布式数据库系统，用于存储和管理大量结构化和非结构化数据。其核心概念包括文档存储和分布式，主要特性有动态模式、索引、聚集、映射-归约和复制。它广泛应用于内容管理系统、电子商务平台、社交媒体网站、物联网应用和移动应用开发等领域。MongoDB 利用灵活的文档取代表和行来处理和存储各种形式的数据。作为 NoSQL 数据库解决方案，MongoDB 提供了一个弹性数据存储模型，可以让用户轻松地存储和查询多元数据类型。不仅简化了数据库管理，而且为跨平台应用程序和服务创建了高度可扩展的环境。MongoDB 的设计理念是为了应对大数据量、高性能和灵活性需求，它以 JSON-like 的格式存储数据，使得数据结构更加灵活和丰富。

优势

负载均衡：MongoDB 的负载均衡共享过程一次性跨多个虚拟机分布大量数据，同时仍保持可接受的读写吞吐量。这种水平扩展可以帮助组织避免硬件垂直扩展的成本，同时还能扩展基于云的部署的容量。
特设数据库查询：MongoDB 能够处理不需要预定义模式的特设数据库查询。通过使用一种类似于 SQL 数据库的查询语言，对于入门和高级开发人员而言都非常容易上手。这种便利性使用户能够通过常见的帮助命令和简单的 shell 命令轻松地推送、查询、排序、更新和导出数据。
多语言支持：MongoDB 曾发布了多个版本，并且仍在持续开发中，具备对流行编程语言的驱动程序支持，包括 Python、PHP、Ruby、Node.js、C 、Scala、JavaScript 等。

三、方案选择：如何实现 MySQL → MongoDB 的数据同步？

实现 MySQL 到 MongoDB 的数据同步的常见方式包括，手动构建数据管道或使用自动化工具： 手动构建数据管道

例如编写 Python 脚本来处理数据的提取、转换和加载（ETL）。这里可以借助 Apache Airflow 等工具来调度和管理这些任务。然而，这种手动方法需要开发者具备深厚的编程和数据工程知识，通常需要花费一周甚至更长时间来完成整个开发流程。此外，手动构建的数据管道需要持续的维护和监控，以确保数据的准确性和实时性。

自动化工具

例如选择使用 TapData 这样的自动化数据集成平台，只需三步就可以在几分钟内开启所需的数据同步任务：

将 MySQL 设置为源连接
将 MongoDB 设置为目标连接
定义要传输的数据以及传输频率

TapData 内置 100 数据连接器，提供了友好的用户界面和强大的实时同步功能，无需编写复杂的代码即可轻松实现数据的迁移和同步。这样不仅节省了大量的时间和人力成本，还能保障数据同步过程的稳定性和可靠性。对于那些希望快速、高效地完成 MySQL 到 MongoDB 数据同步的企业和开发者来说，这样的便捷工具无疑是一个理想的选择。

四、TapData 高效同步完整教程

完成 TapData Agent 部署后，即可跟随以下教程在 TapData 中添加源与目标的数据连接（支持版本：MySQL 5.0、5.1、5.5、5.6、5.7、8.x；MongoDB 3.4、3.6、4.0 ），并快速构建数据管道。（*涉及工具版本为 TapData 本地部署版）

版本指路：

>>> 点击登录 Tapdata Cloud >>> 申请试用 Tapdata 本地部署版

① 准备工作（作为源库）

数据源：MySQL

为保障任务的顺利执行，您需要为 MySQL 数据库开启 Binlog（可实现增量数据同步），然后为数据复制/开发任务创建一个数据库账号。

1. 登录 MySQL 数据库，执行下述格式的命令，创建用于数据同步/开发任务的账号。

MySQL 5.x
MySQL 8.x

代码语言：javascript复制

CREATE USER 'username'@'host' IDENTIFIED BY 'password';

username：用户名。
password：密码。
host：允许该账号登录的主机，百分号（%）表示允许任意主机。

示例：创建一个名为 tapdata 的账号。

代码语言：javascript复制

CREATE USER 'tapdata'@'%' IDENTIFIED BY 'Tap@123456';

2. 为刚创建的账号授予权限，简易示例如下，推荐基于业务需求设置更精细化的权限控制。

授予指定库权限

授予所有库权限

代码语言：javascript复制

GRANT REPLICATION SLAVE, REPLICATION CLIENT ON . TO 'username' IDENTIFIED BY 'password';
GRANT SELECT ON database_name.* TO 'username' IDENTIFIED BY 'password';

database_name：要授予权限的数据库名称。
username：用户名。
password：密码。

3. 为保障读取 MySQL 数据库的增量数据，您需要跟随下述步骤开启 Binlog。

使用 vim 命令，修改 $MYSQL_HOME/mysql.cnf 中的配置，例如：

代码语言：javascript复制

server_id         = 223344
log_bin           = mysql-bin
expire_logs_days  = 1
binlog_format     = row
binlog_row_image  = full

server_id：对于 MySQL 中的每个服务器和复制客户端必须是唯一的，设置为大于 0 的整数
log_bin：Binlog 序列文件的基本名称
expire_logs_days：二进制日志文件保留的天数，到期自动删除
binlog_format：设置为 row
binlog_row_image：设置为 full

修改完成后，执行下述命令重启 MySQL 进程。

代码语言：javascript复制

/etc/inint.d/mysqld restart

（可选）登录 MySQL 数据库，执行下述命令确认配置已生效，即输出的结果中，format 的值为 ROW。

代码语言：javascript复制

SHOW VARIABLES LIKE 'binlog_format';

输出示例如下：

代码语言：javascript复制

 --------------- ------- 
| Variable_name | Value |
 --------------- ------- 
| binlog_format | ROW   |
 --------------- ------- 
1 row in set (0.00 sec)

数据目标：MongoDB

基本配置

目标端 MongoDB 支持副本集和分片集群。
如果您的目标端 MongoDB 只有一个节点，您可以将其配置为单成员的复制集，以开启 oplog 功能。
确保为目标 MongoDB 配置了足够的资源来处理源数据库的工作负载。

账户权限

如果目标 MongoDB 启用了安全身份验证，则 Tapdata 使用的用户帐户必须具有以下角色 / 权限：

clusterMonitor（数据验证功能需要使用）
readWrite（作为目标数据库需要拥有的角色）要创建具有以上权限的用户，您可以参考以下示例：

代码语言：javascript复制

use admin
db.createUser({
    "user" : "johndoe",
    "pwd"  : "my_password",
    "roles" : [
        {
            "role" : "clusterMonitor",
            "db" : "admin"
        },
        {
            "role" : "readWrite",
            "db" : "my_db"
        },
        {
            "role" : "read",
            "db" : "local"
        }
    ]
}

*注意：只有 MongoDB 版本 3.2 需要 local 数据库的读取权限。

② 创建 MySQL 的连接

1. 进入 TapData 控制台，在左侧导航栏，单击连接管理。

2. 单击页面右侧的创建，在弹框中，搜索并选择 MySQL。 3. 在跳转到的页面，根据下述说明填写 MySQL 连接信息：

连接信息设置
- 连接名称：填写具有业务意义的独有名称。
- 连接类型：支持将 MySQL 作为源或目标库。
- 地址：数据库连接地址。
- 端口：数据库的服务端口。
- 数据库：数据库名称，即一个连接对应一个数据库，如有多个数据库则需创建多个数据连接。
- 账号：数据库的账号。
- 密码：数据库账号对应的密码。
高级设置
- 连接参数：额外的连接参数，默认为空。
- 时区：默认为数据库所用的时区，您也可以根据业务需求手动指定。如果源库为默认数据库时区（ 8:00），目标端数据库为指定时区 0:00，那么假设源端数据库存储的时间为 2020-01-01 16:00:00，目标端数据库存储的时间则为 2020-01-01 08:00:00。
- 共享挖掘：挖掘源库的增量日志，可为多个任务共享源库的增量日志，避免重复读取，从而最大程度上减轻增量同步对源库的压力，开启该功能后还需要选择一个外存用来存储增量日志信息。
- 包含表：默认为全部，您也可以选择自定义并填写包含的表，多个表之间用英文逗号（,）分隔。
- 排除表：打开该开关后，可以设定要排除的表，多个表之间用英文逗号（,）分隔。
- Agent 设置：默认为平台自动分配，您也可以手动指定 Agent。
- 模型加载频率：数据源中模型数量大于 1 万时，TapData 将按照设置的时间定期刷新模型。
SSL 设置：选择是否开启 SSL 连接数据源，可进一步提升数据安全性，开启该功能后还需要上传 CA 文件、客户端证书、客户端密钥文件等，相关文件已在开启 SSL 连接中获取。