在过去的一年多,笔者工作中心逐渐从 Flink 转移到 Iceberg 上。Iceberg 近年发展迅猛,在与 Hudi、Delta 并称的数据湖御三家竞争中脱颖而出,目前基本已是事实标准。这点在不久前的 Databricks 和 Snowflake 这对老对手在 Iceberg 话语权的针锋相对上就足以体现[1]。
虽然自数据湖(准确来说应该是数据湖表格式)兴起已经过去四五个年头,但直至今日数据湖仍未称得上成熟,加上 Hive 迁移数据湖涉及到的业务改造工作量巨大,不少核心业务和老业务仍未有动力推进,可以说数据湖仍有很多未竟之事。文本谈下笔者在 Iceberg 实践中的随想,笔之所至即思之所至。