Sumber utama Artikel ini adalah Buku Apache Iceberg: The Definitive Guide & Lakehouse Whitepaper
Data Lakehouse is the new hype
Baru baru ini saya mendengar istilah Data Lakehouse, dan ternyata istilah ini memang cukup baru dikalangan para penggiat data, khususnya para Data Engineer.
Data Lakehouse terdiri dari 2 istilah, yaitu Data Lake dan Data Warehouse. Data Lake, seperti namanya, yaitu Danau Data, adalah tempat penyimpanan data berbiaya rendah yang dirancang untuk menangani data mentah dalam jumlah besar dalam format apa pun, termasuk data terstruktur, semi-terstruktur, dan tidak terstruktur (sumber: Data Lake by IBM), katakanlah kita bisa meng-upload seluruh tipe data apapun kedalam Data Lake, persis seperti folder pada laptop atau folder pada Google Drive.

Sedangkan Data Warehouse merupakan sebuah database besar terpusat yang dirancang secara khusus untuk mendukung proses analisis dan pelaporan. Tidak seperti database operasional yang menangani transaksi harian secara real-time, data warehouse difokuskan pada pengumpulan, penyimpanan, dan analisis data historis dari berbagai sumber (sumber: Data Warehouse by Telkom University).
Kita tidak akan membahas Data Warehouse lebih dalam, sementara itu kita akan memabahas Data Lake karena fokus dari Apache Iceberg ini adalah pada lingkungan & konsep Data Lakehouse khusunya Data Lake.