1.数据源(mysql),数据源的变化的主要特点:页面操作,定时任务,工单sql人工处理
需求痛点:数据源变化形式多样,避免对业务数据库造成多余压力,既要全量也需要满足增量需求,延迟尽可能低,保证数据一致性
2.cdc技术选型:
cloud.tencent.com/developer/article/1893807
基于查询的 CDC:
- 离线调度查询作业,批处理。把一张表同步到其他系统,每次通过查询去获取表中最新的数据;
- 无法保障数据一致性,查的过程中有可能数据已经发生了多次变更;
- 不保障实时性,基于离线调度存在天然的延迟。
基于日志的 CDC:
- 实时消费日志,流处理,例如 MySQL 的 binlog 日志完整记录了数据库中的变更,可以把 binlog 文件当作流的数据源;
- 保障数据一致性,因为 binlog 文件包含了所有历史变更明细;
- 保障实时性,因为类似 binlog 的日志文件是可以流式消费的,提供的是实时数据。
3、flink任务的执行模式
- 会话模式(Session Mode)
- 单作业模式(Per-Job Mode)
- 应用模式(Application Mode)
zhuanlan.zhihu.com/p/502273829
4、flink任务监控