记录在生产环境部署一个基于 Kafka + Redis 的 Flink 风控过滤作业,包括实机参数配置、多条优化规则的设计思路与业务部署实践。
-
RDS 到 ClickHouse 全量快照 + 增量 CDC 一体化同步架构实践
展示如何利用 AWS RDS S3 快照作为全量基线再配合 Debezium Binlog CDC 完成增量结合,通过 ReplicatedReplacingMergeTree 入库,实现大表零干扰迁移。
-
使用 Docker Compose 快速搭建 Flink Session 集群
提供一份可直接运行的 docker-compose.yml,在本地开发环境快速拉起带 Web UI 的 Flink Session Cluster,方便调试 Flink SQL 和 UDF。
-
Bash split + xargs 并行处理 ClickHouse 批量数据更新
将海量 ID 文件用 split 切分后,通过 xargs 并行分发给 clickhouse-client 执行,是一种安全、可控的大批量补丁方法。
-
ClickHouse 数据外发:使用 Kafka Engine 表将数据回写消息队列
展示如何在 ClickHouse 中创建 Kafka Engine 外挂表,通过 INSERT INTO ... SELECT 将已清洗的报表数据写入指定 Kafka Topic。
-
Flink ML 性能瓶颈分析与流式机器学习架构演进
实验通过 Flink ML 在流处理中执行干扰识别演算,发现严重性能问题后转为离线训练+在线轻量推断分离架构的分析与最终決策。
-
Nginx SSL + Basic Auth 保护内网大数据 Web 管理界面
利用 Nginx 反向代理 + Let's Encrypt SSL + auth_basic 对 Flink UI 、Airflow 等内网 Web 管理界面进行认证防护。
-
ClickHouse 分层存储实践:基于 S3 宽温分离
通过 ClickHouse 原生的 XML storage_policy 配置,将不再高频查询的旧分区平滑卸载到 AWS S3,实现冷热数据分离。
-
ClickHouse 原子化表名交换与零停机表结构更新
使用 ClickHouse REPLACE TABLE 实现套表原子切换,配合 Debezium CDC 全量+增量同步模式,解决历史数据导入期间缺少结构想局的问题。
-
ClickHouse 分区管理与 System 表空间清理实践
总结在生产 ClickHouse 集群中按分区删除、迁移和归档数据的常用 DDL 操作,以及系统日志表占用空间过大的处理方法。