数据压缩

Summary

以IoT场景（每日2TB压缩到400GB，压缩率1:5）为例，深入解析大数据压缩的原理。核心是列式存储（Parquet/ORC）与多种压缩编码（字典编码、增量编码、RLE、位打包、帧偏移编码）的组合。列式存储将同类型高相似性数据物理聚集，再通过针对性编码和通用压缩算法层层”瘦身”。

“列式存储是基础，编码是关键，通用压缩是最后一步。”

“从2TB原始数据压缩到400GB的HDFS存储，正是列式存储（Parquet/ORC等）巧妙地利用了IoT数据的强规律性和重复性，通过一系列针对性的编码和高效的通用压缩算法，层层’瘦身’后的必然结果。“