Replies: 3 comments 3 replies
-
是一个好的建议,现在有个任务需要加载:9个按天分表的任务,大概有: 3294张表,加上其他杂七杂八的:100多个表,大概: 3400+个表,生产每次任务启动,大概是: 70张表/分钟,每次都要处理Schema Event CreateTable事件需要: 48-55分钟左右,很头疼 |
Beta Was this translation helpful? Give feedback.
-
所以,我现在也是没有办法,只能设置checkpoint的超时时间为: 60分钟,然后拆分开任务,之前9个按天分表的,我拆分成两个任务,一个是: 6个按天分+普通表,另外一个flink cdc 3的任务就是: 3个按天分表,都设置checkpoint超时时间为: 60分钟,目前看到基本都能正常同步。 我观察到,其实checkpoint的失败导致taskManager从新来,基本上都是第一次checkpoint失败导致的,后面checkpoint的时常,我观察到大概就只有: 5s-10s之间,短的有2-3s的样子,很快速 |
Beta Was this translation helpful? Give feedback.
-
现在又遇到一个问题: 就是我是使用了flink cdc 3的k8s的配置yaml的形式同步mysql的数据。然后我配置了jobManager和taskManager的podTemplate的时区都和所在的Node一致,我也进入到容器内执行了 bash > date 命令,看到的也确实是东8区的时间点。但是我看到flink cdc 3输出的日志,以及在资源文件的 transform: 使用的NOW() 函数返回的还是0时区的时间,找了很多配置,测试了还是不行,真的奇怪 |
Beta Was this translation helpful? Give feedback.
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
Flink CDC PostgreSQL连接器分区表Schema加载优化
问题描述
在使用Flink CDC PostgreSQL连接器监控按月分区的表时,遇到以下性能问题:
当前痛点
优化方案
核心思路
启用分区表schema加载优化机制,改变现有的全量加载策略:
具体优化点
跳过单个分区表schema加载
显著提升性能
优化内存使用
简化事件处理
预期收益
这种优化方案的技术可行性如何?
这个PR也提到了相关问题,但后续没跟进:#2571
我的分支已经修好了,通过新增两个配置来实现:
https://github.com/tchivs/flink-cdc/tree/release-3.5-pg
如果提交PR,则需要再修改一些东西,因为改动较大
Beta Was this translation helpful? Give feedback.
All reactions