聚焦工业4.0之数据问题 – 第2讲

在我的上一篇文章中，我们谈了工业4.0中的数据问题，特别看了合并不同来源数据的复杂性。该系列的第二篇文章，也是最后一篇，我们来探讨下数据清洗。

清洗数据

一旦从不同的来源收集了数据，就需要对数据进行清洗。例如，如果收集到的是设备停机数据，一台设备可能将停机定义为关机，另一台设备将停机定义为非生产时间，还有一台机器将停机定义为等待零件。如果合并这些数据，这种定义上的区别就会影响到分析结果。通常，清洗和整理数据需要花费大量时间。有些非专业人士认为数据清洗只是简单套用Excel公式，但根据实践经验，这类型的工作比预想的要复杂的多。

我是个乐观主义者，我认为所有的数据都是有意义的。但事实上，有些数据的定义并不清晰，甚至和你理解的还有差异。拥有数据并不总是意味着拥有有价值的数据。如果要把随机收集的数据点变成可用的连贯数据集，我们还有大量的工作要做。

数据这个问题甚至早于计算机的发明，查尔斯-巴贝奇（数学家、哲学家、发明家和机械工程师，1791-1871）写道：我被问到过两次：”巴贝奇先生，请问，如果你把错误的数字输入机器，会不会得出正确的答案？“我无法理解这个混乱的逻辑，这一点在今天仍然适用。垃圾数据进，垃圾数据出!

或许你曾经使用过包含大量数据的ERP软件，如果系统里面的数据出错，会导致很多分析报表无法阅读和使用。我前公司的实习生曾想要分析仓储空间，他从ERP系统中调出不同零件的仓储空间大小并进行分析……完全忽略了这些数据的准确性。最后通过检查数据发现了O型圈被存放在大托盘上，发动机机体被设置了使用小盒子存储，数据一团糟。

拥有高质量的数据成本并不低。据称，整车厂仅为了维护某个零件在其整个生命周期内的数据（不包括研发或生产搜集的数据，仅为了确保数据是持续更新的）就需要支付约50000欧元。由于汽车产品的复杂性及法规要求，整车厂在这方面舍得投入而且也做得比较完善，但即便是洗衣机或自行车制造商，也要为每颗物料支付约8000欧元，以确保数据至少有一定的连续性。很难想象一个工厂为了能够获取并维持高质量的工业4.0数据需要多少投资！这还没考虑数据采集所需的传感器或其它硬件，软件许可等等其他成本。

持续清洗数据

只有在合并了数据并将其整理之后（或许需要花费几周），才能开始做数据分析。但是想想，工业4.0的力量是不是应该能够让我们能够快速实时的进行数据分析和诊断呢？或许有两个选择，要么在需要分析的时候合并和清洗数据，要么让系统自动地完成。前者实施起来比较容易的，也比较耗时。自动持续地清洗数据更为复杂，因为需要对数据收集和数据处理进行编程，优势在于一旦清理完毕，就不需要再清理了。打个比方，就像维持家里地清洁一样，打扫一次很容易，坚持打扫则需要更多地毅力……

理解数据

现在你可以开始分析和理解数据了。这可以是手工分析的Excel表格到方差分析（ANOVA）再到人工智能（AI），这就是工业4.0让人再一次兴奋的卖点。当然，算法会给出一个数字，如果管理层想要一个数字，他们会得到这个数字。但是……这个数字准确吗，还是有很大偏差？还是那句话，垃圾数据进，垃圾数据出！如果你想通过数据做决策，数据的质量一定要好！作为管理层同时也思考下，到底是你在领导数据，还是最后被数据领导了？顺便提一句，特别是在精益方面，就算所有数据都在那，也很难直接用数据来证明精益的优势。此外，还会有很多数据将永远都用不到，有一个设备维护部门的实例，他们发现数据使用率还不到15%。这是可以理解的，一个整车工厂每天能产生超过20GB的数据，而且还有不断增加的趋势。

尝试解决问题

数据混乱的问题并不新鲜，我们可以尝试着解决这个问题。例如工业4.0参考架构模型（RAMI 4.0），这个模型试图构建工业4.0相关的不同层级的数据。这是一个自上而下的数据管理方法，就像工业4.0中大多数自上而下的方法一样，它似乎从来没有触及到能够带来真正价值的底层数据。这个问题也与I4.0成熟度指数有关，这些概念似乎都起源于德国，并受到德国工业4.0趋势的影响，有着系统的理论框架，但都忽略了实用性。

总之，使用不同来源的数据会面临很大的挑战。我也再次建议不要设计一个很大的工业4.0系统，要在可控范围内，因为我们无法一次解决所有问题。如果你不知道自己想要解决的问题是什么，工业4.0，大数据，AI这些炫酷的概念对你来说意义并不大。现在，走出去，找一个在能力范围内的问题，对它PDCA，组织你的行业！

P.S.:非常感谢谢烜的输入 🙂

Translated by Xie Xuan