工厂数据平台总体架构
引言
工厂数据平台是智能制造的数字底座,承上启下地连接设备层与业务应用层。一个设计良好的数据平台需要处理从毫秒级设备传感数据到天级经营分析报告的全频谱数据需求。本文从分层架构的视角,系统阐述工厂数据平台的总体设计思路。
五层分层架构全景
工厂数据平台的架构遵循经典的分层设计原则,自下而上分为五层:
数据采集层
数据采集层是平台的”感官系统”,负责从各类数据源获取原始数据。主要职责包括:
- 设备数据采集:通过SCADA-数据采集与监视系统和PLC网关,实时采集设备运行状态、工艺参数、报警信息等
- 业务数据接入:对接MES-制造执行系统、ERP-企业资源计划等业务系统的结构化数据
- 外部数据集成:环境监测数据、市场数据、供应链数据的接入
关键设计决策包括采集频率的确定(高频振动数据需1ms级,温度数据秒级即可)、断点续传机制、以及边缘预处理策略。详细架构设计参见数据采集层架构。
数据存储层
数据存储层是平台的”记忆系统”,需要满足多模态数据的存储需求:
| 存储类型 | 适用场景 | 典型技术 |
|---|---|---|
| 时序数据库 | 设备实时数据、传感器数据 | TDengine、InfluxDB |
| 数据湖 | 历史数据归档、批量分析 | Iceberg、Hudi |
| 关系型数据库 | 业务数据、主数据 | PostgreSQL、MySQL |
| 文档数据库 | 非结构化数据、日志 | MongoDB、Elasticsearch |
存储层的核心挑战在于热冷数据的分层管理。时序数据库选型的详细分析参见时序数据库选型。
数据计算层
数据计算层是平台的”大脑”,分为实时计算和离线计算两条路径:
- 实时计算:基于Flink流处理引擎,实现秒级/分钟级的数据处理,支撑实时OEE-设备综合效率计算、实时告警、异常检测等场景
- 离线计算:基于Spark批处理引擎,实现小时级/天级的数据加工,支撑报表生成、趋势分析、模型训练等场景
实时与离线的统一设计是现代工厂数据平台的关键能力,详见实时与离线统一架构。
数据服务层
数据服务层是平台的”接口系统”,通过标准化的API将数据能力开放给上层应用:
- 指标查询API:提供OEE、良率、MTBF等核心指标的标准查询接口
- 报表服务:日报、周报、月报的自动生成与分发
- 数据订阅服务:基于消息总线的实时数据推送
服务层的设计需要兼顾性能(毫秒级响应)与灵活性(多维度查询),详见数据服务与API层。
数据应用层
数据应用层是平台的”价值出口”,直接面向业务用户:
- 实时看板:产线状态、设备状态、产量进度的实时可视化
- 智能告警:基于规则的异常检测与告警推送
- 决策支持:产能分析、质量追溯、预测性维护
- 数字孪生-Digital Twin:基于实时数据的虚拟工厂映射
与ISA-95架构的对应关系
ISA-95参考架构定义了企业与控制系统集成的国际标准,工厂数据平台的各层与ISA-95的层级存在清晰的映射关系:
| 数据平台层级 | ISA-95层级 | 说明 |
|---|---|---|
| 数据采集层 | Level 0-1 | 设备传感器、执行器、PLC |
| 数据存储/计算层 | Level 2 | SCADA、DCS等监控系统 |
| 数据服务层 | Level 3 | MES制造执行系统 |
| 数据应用层 | Level 3-4 | 经营管理、决策分析 |
这种映射关系确保了数据平台的设计与工厂现有的自动化体系无缝衔接。
典型技术栈
基于当前技术生态和工厂实践,推荐以下技术栈组合:
数据采集:MQTT/Kafka + EdgeX Foundry + OPC-UA
数据存储:TDengine(时序) + Iceberg(数据湖) + PostgreSQL(业务)
数据计算:Flink(实时) + Spark(离线)
数据服务:Doris(OLAP) + Spring Boot(API) + GraphQL
数据应用:Grafana(看板) + Superset(报表) + React(自研)
其中,Flink作为实时计算引擎、Iceberg作为数据湖格式、Doris作为OLAP引擎的组合,构成了湖仓一体的核心架构。这套技术栈在实时数据流水线设计中起到关键作用。
实时与离线统一的设计思路
传统的工厂IT架构中,实时系统(SCADA/MES)与离线系统(数据仓库/BI)往往是割裂的。现代数据平台追求实时与离线的统一:
- 统一数据源:所有数据通过Kafka消息总线进行统一接入,实时和离线任务共享同一数据源
- 统一存储模型:通过湖仓一体技术(如Iceberg),实时数据与历史数据存储在同一底层格式中
- 统一计算引擎:Flink同时支持流处理和批处理模式,一套代码两种执行
- 统一服务接口:无论数据是实时还是历史的,应用层通过统一的API进行查询
关键设计原则
可扩展性
工厂数据量随设备接入数和采集频率线性增长。平台架构需支持水平扩展,存储层通过分片和分区策略应对数据增长,计算层通过并行度和资源调度应对计算压力。
高可用性
数据平台承载生产关键业务,需要多副本存储、故障自动切换、数据备份恢复等高可用设计。核心数据链路的可用性目标通常为99.95%以上。
数据一致性
工厂场景对数据时序一致性要求极高,特别是跨设备数据关联分析时。需要统一的时间同步机制(NTP/PTP)和事件时间(Event Time)处理策略。
安全合规
工厂数据涉及生产机密和设备安全,需要完善的数据权限管理、数据脱敏、审计日志等安全机制,符合等保要求。
实施路径建议
工厂数据平台的建设通常分三个阶段推进:
- 第一阶段(3-6个月):搭建数据采集层和存储层,实现设备数据统一接入和存储,建设基础实时看板
- 第二阶段(6-12个月):完善数据计算层和服务层,实现核心指标(如OEE-设备综合效率)的实时计算和统一服务
- 第三阶段(12-18个月):丰富数据应用层,建设高级分析能力,实现预测性维护、智能排产等AI应用
每个阶段都应以明确的业务价值交付为目标,避免”建了平台、没有应用”的陷阱。
总结
工厂数据平台的五层架构提供了一个清晰的技术蓝图,各层职责明确、边界清晰。核心设计理念是”实时与离线统一、采集与应用解耦”,通过数据采集层架构的标准化接入、工厂数据仓库建模的规范化存储、数据服务与API层的统一服务,最终实现数据驱动的智能制造转型。