Summary

深入讲解工业数据血缘的三层级划分(字段级、表级、应用级),元数据管理的三大类(技术元数据、业务元数据、操作元数据),工具选型对比(Apache Atlas、DataHub、自研方案),以及SQL血缘解析、Flink作业血缘和端到端血缘的自动采集实现方法,实现从PLC信号到报表的全链路可追溯。

Key Claims

  • 数据血缘的核心价值:影响分析、根因定位、合规审计、变更管理和数据资产盘点
  • 字段级血缘最有价值但最难自动获取,需解析SQL和代码逻辑
  • 三类元数据:技术元数据(表结构/存储/调度)、业务元数据(业务含义/口径/所有者)、操作元数据(执行记录/访问日志)
  • 工厂场景需支持OPC UA地址、MQTT Topic等工业数据源的元数据采集和设备-采集点-字段的层级血缘
  • 推荐从表级血缘开始,覆盖”采集到数仓到报表”和”采集到实时到看板”两条核心路径

Connections