预测性维护

预测性维护（Predictive Maintenance, PdM）是AI在制造业中最成熟、投资回报最明确的应用场景之一。它通过分析设备运行数据，在故障发生之前预测设备健康状态，从而提前安排维护，避免非计划停机。预测性维护与设备管理全流程深度整合，是CMMS-设备维护管理系统的智能化升级方向。

维护策略演进

事后维护（Run-to-Failure）

“坏了再修”——最原始的维护策略：

适用场景：不关键设备、维修成本低、停机影响小
问题：可能导致生产中断、二次损坏、安全风险

预防性维护（Preventive Maintenance）

按固定时间间隔或使用量进行维护，不关心设备实际状态：

依据：设备说明书推荐的维护周期、MTBF-平均故障间隔时间的统计值
优点：简单易行，能减少部分非计划停机
问题：过度维护（设备状态良好也被维护）或维护不足（两次维护间隔内发生故障）

预测性维护（Predictive Maintenance）

基于设备实际状态数据，智能预测故障时间和类型：

依据：传感器数据的异常模式、历史故障记录、运行工况
优点：精准维护——“在需要的时候，维护需要维护的设备”
价值：减少30-50%的维护成本，减少70-75%的意外停机

技术路线

预测性维护的技术路线经历了四个阶段的演进：

第一阶段：统计方法

基于历史故障数据的统计分析：

MTBF-平均故障间隔时间和MTTR-平均修复时间的趋势分析
威布尔分布（Weibull Distribution）拟合设备寿命分布
可靠性函数计算：R(t) = e^(-(t/η)^β)
优点：数据需求低，实现简单
局限：无法考虑运行工况的影响，预测精度有限

第二阶段：规则引擎

基于领域专家经验定义告警规则：

振动值超过阈值 → 轴承可能损坏
温度持续升高 → 可能过载或散热不良
电流波动增大 → 电机可能异常
优点：可解释性强，领域专家可以直接参与
局限：阈值设定依赖经验，复杂故障难以用规则覆盖

第三阶段：机器学习

基于历史数据训练预测模型：

分类模型：预测设备在未来N天内是否会发生故障（二分类）或故障类型（多分类）
回归模型：预测设备的RUL（Remaining Useful Life，剩余使用寿命）
异常检测：识别设备状态的异常模式
优点：可以发现复杂的非线性关系，预测精度高
局限：需要大量标注数据（故障样本），模型可解释性较弱

第四阶段：深度学习

利用深度学习处理高维时序数据：

LSTM/GRU：处理长序列时序数据，捕获长期依赖关系
1D-CNN：提取时序数据的局部特征模式
Transformer：基于注意力机制，捕获多传感器数据之间的关联
物理信息神经网络（PINN）：将物理方程融入神经网络，提高泛化能力
优点：表达能力强，适合多传感器融合
局限：数据需求量大，计算资源需求高，可解释性最弱

数据需求

预测性维护的模型质量取决于数据质量，需要多源数据的融合：

传感器数据（来自SCADA-数据采集与监视）

数据类型	典型传感器	采样频率	故障指示
振动	加速度计	1-10kHz	轴承磨损、不平衡
温度	热电偶/红外	1-60s	过热、冷却失效
电流	CT传感器	1-10kHz	电机异常、过载
压力	压力传感器	1-10s	泄漏、堵塞
声音	声学传感器	20-44kHz	异常噪声、气蚀
油液	油液分析	每周/每月	磨损金属含量

维修记录（来自CMMS-设备维护管理）

工单记录：故障描述、维修措施、更换备件
故障代码：标准化的故障分类（ISO 14224）
维修耗时：实际维修时间，用于计算MTTR-平均修复时间
维修成本：人工、备件、停机损失

运行工况

设备负载率：满载/半载/空载
运行环境：环境温度、湿度
产品类型：不同产品对设备的磨损不同
累计运行时间和循环次数

模型类型

故障预测（分类）

预测设备在未来时间窗口内是否会发生故障：

数据准备：以时间窗口（如未来24小时）为标签，故障前N小时标记为正样本
特征工程：统计特征（均值、方差、峰值）、频域特征（FFT频谱）、趋势特征
模型选择：Random Forest、XGBoost、LightGBM
评估指标：Precision、Recall、F1-Score（Recall尤其重要——漏报的代价远高于误报）

RUL估计（回归）

预测设备的剩余使用寿命：

数据准备：从设备投用或上次维修到故障的完整时间序列，标签为距离故障的时间
特征工程：退化趋势特征、健康指数
模型选择：LSTM、CNN-LSTM混合模型
评估指标：RMSE、MAE，以及预测区间覆盖率

异常检测

识别设备运行状态的异常模式：

数据准备：正常运行数据（无需故障样本）
方法：Isolation Forest、AutoEncoder、One-Class SVM
优势：不需要故障标签，适合故障样本少的场景
输出：异常分数，超过阈值触发预警

端到端实施流程

1. 数据采集

确定目标设备和关键传感器
确保传感器数据通过实时数据流水线可靠地采集和存储
补充历史数据（至少1-2年，包含正常和故障状态）

2. 特征工程

时域特征：均值、标准差、峰值、峰度、偏度
频域特征：FFT频谱、功率谱密度、特征频率幅值
时频特征：小波变换、短时傅里叶变换
趋势特征：滑动窗口内的变化率、累积值
特征选择：使用领域知识+统计方法筛选最有价值的特征

3. 模型训练

数据划分：按时间顺序划分（不能用未来数据训练预测过去）
处理样本不平衡：故障样本远少于正常样本（SMOTE、欠采样、代价敏感学习）
交叉验证：使用时间序列交叉验证（TimeSeriesSplit）
超参数调优：Optuna或网格搜索

4. 模型部署

边缘部署：在工控机或边缘网关上运行轻量级模型，实现低延迟推理
云端部署：复杂模型在云端运行，适合RUL预测等非实时场景
与实时数据流水线集成：Flink中调用模型进行实时预测
推理频率：异常检测每分钟，故障预测每小时，RUL每天

5. 模型监控

数据漂移检测：监控输入特征分布是否偏移
预测性能监控：定期评估预测准确率
模型更新策略：当性能下降时触发重新训练
反馈闭环：将实际故障记录反馈到训练数据中

与数字孪生的结合

预测性维护与数字孪生-Digital Twin的结合是未来的发展方向：

数字孪生提供设备的虚拟镜像，可以在其中模拟不同工况下的设备行为
将预测模型的输出映射到数字孪生的可视化界面，直观展示设备健康状态
在数字孪生中模拟维护操作的后果，优化维护策略

实施建议

选对设备：从关键且故障模式明确的设备开始（如关键CNC主轴、注塑机螺杆）
数据先行：至少积累6个月的运行数据（含故障记录）再开始建模
从简单开始：先用统计方法和规则引擎建立基线，再逐步引入ML/DL
业务闭环：预测结果必须接入CMMS-设备维护管理的工单流程，形成闭环
持续迭代：模型上线只是开始，持续收集反馈、优化模型

预测性维护是AI在制造业中投资回报率最高的场景之一。通过系统化的数据采集、特征工程和模型建设，可以显著降低非计划停机、延长设备寿命、优化维护资源。

JRY's digital garden

Explorer

预测性维护

预测性维护

维护策略演进

事后维护（Run-to-Failure）

预防性维护（Preventive Maintenance）

预测性维护（Predictive Maintenance）

技术路线

第一阶段：统计方法

第二阶段：规则引擎

第三阶段：机器学习

第四阶段：深度学习

数据需求

传感器数据（来自SCADA-数据采集与监视）

维修记录（来自CMMS-设备维护管理）

运行工况

模型类型

故障预测（分类）

RUL估计（回归）

异常检测

端到端实施流程

1. 数据采集

2. 特征工程

3. 模型训练

4. 模型部署

5. 模型监控

与数字孪生的结合

实施建议

Graph View

Table of Contents

Backlinks