Apache Parquet (Spaltenspeicher)

Apache Parquet ist ein spaltenorientiertes Speicherformat für Big-Data-Analysen. Es bietet effiziente Komprimierung und schnelle spaltenweise Abfragen bei großen Datensätzen.

MIME-Typ

application/vnd.apache.parquet

Typ

Binaer

Komprimierung

Verlustfrei

Vorteile

+ Excellent compression through columnar encoding
+ Fast analytical queries — reads only needed columns
+ Predicate pushdown skips irrelevant row groups entirely
+ Standard in Spark, DuckDB, Pandas, and cloud data lakes

Nachteile

− Not suited for transactional row-level updates
− More complex to write than CSV or JSON
− Schema evolution has some limitations

Wann Sie .PARQUET verwenden sollten

Verwenden Sie Parquet für analytische Abfragen auf großen Datensätzen — Data Warehouses, Data Lakes, Spark-Jobs und jede Anwendung, die spaltenweise Abfragen auf Milliarden von Zeilen benötigt.

Technische Details

Parquet organisiert Daten spaltenweise in Row Groups mit Seiten. Es unterstützt verschachtelte Datenstrukturen, verschiedene Komprimierungen (Snappy, GZIP, Zstd) und Prädikat-Pushdown für effiziente Abfragen.

Geschichte

Twitter und Cloudera entwickelten Parquet 2013 als Open-Source-Projekt. Es ist der De-facto-Standard für analytische Datenverarbeitung in Hadoop, Spark und Cloud Data Warehouses.

Von .PARQUET konvertieren

.parquet → .arrow .parquet → .avro .parquet → .bson .parquet → .csv .parquet → .hdf5 .parquet → .json .parquet → .msgpack .parquet → .ndjson .parquet → .protobuf .parquet → .sql .parquet → .sqlite .parquet → .xlsx .parquet → .xml

In .PARQUET konvertieren

.arrow → .parquet .avro → .parquet .bson → .parquet .csv → .parquet .hdf5 → .parquet .json → .parquet .msgpack → .parquet .ndjson → .parquet .protobuf → .parquet .sql → .parquet .sqlite → .parquet .xlsx → .parquet .xml → .parquet

Categories