Apache Parquet (Spaltenspeicher)
Apache Parquet ist ein spaltenorientiertes Speicherformat für Big-Data-Analysen. Es bietet effiziente Komprimierung und schnelle spaltenweise Abfragen bei großen Datensätzen.
MIME-Typ
application/vnd.apache.parquet
Typ
Binaer
Komprimierung
Verlustfrei
Vorteile
- + Excellent compression through columnar encoding
- + Fast analytical queries — reads only needed columns
- + Predicate pushdown skips irrelevant row groups entirely
- + Standard in Spark, DuckDB, Pandas, and cloud data lakes
Nachteile
- − Not suited for transactional row-level updates
- − More complex to write than CSV or JSON
- − Schema evolution has some limitations
Wann Sie .PARQUET verwenden sollten
Verwenden Sie Parquet für analytische Abfragen auf großen Datensätzen — Data Warehouses, Data Lakes, Spark-Jobs und jede Anwendung, die spaltenweise Abfragen auf Milliarden von Zeilen benötigt.
Technische Details
Parquet organisiert Daten spaltenweise in Row Groups mit Seiten. Es unterstützt verschachtelte Datenstrukturen, verschiedene Komprimierungen (Snappy, GZIP, Zstd) und Prädikat-Pushdown für effiziente Abfragen.
Geschichte
Twitter und Cloudera entwickelten Parquet 2013 als Open-Source-Projekt. Es ist der De-facto-Standard für analytische Datenverarbeitung in Hadoop, Spark und Cloud Data Warehouses.