Shruti Goyal dari BearingPoint berbicara tentang arsitektur zero-copy dan mengapa hal ini pada akhirnya membawa perubahan besar bagi tim data.
Dunia arsitektur data, menurut Shruti Goyal, telah ditentukan oleh satu proses selama dekade terakhir: ekstrak, transformasi, dan muat (ETL).
ETL adalah proses komputasi tiga fase di mana data diekstraksi dari sistem transaksional atau sistem sumber real-time, diubah (artinya dibersihkan, diperkaya, dan distandarisasi) ke dalam format analitis, dan dimuat (atau disimpan) ke dalam pusat data atau gudang untuk pelaporan dan analisis.
“Dalam praktiknya, ini berarti membangun jalur pipa yang kompleks menggunakan alat seperti SQL Server Integration Services (SSIS), Azure Data Factory (ADF), dan Microsoft Data Pipelines,” jelas Goyal, manajer analisis data dan AI di BearingPoint.
“ETL memastikan data dapat diandalkan, konsisten, dan siap untuk dianalisis dan diambil keputusan.”
Namun, Goyal percaya bahwa setelah satu dekade dominasi data, ETL mungkin akan segera tersingkir karena munculnya arsitektur zero-copy – sebuah pendekatan “di mana data digunakan di tempat yang sudah ada, tanpa menyalinnya secara fisik ke sistem hilir”.
“Data tidak lagi dipindahkan secara fisik – melainkan akses ke data tersebut,” katanya.
Apa itu nihil salinan?
Seperti yang dijelaskan Goyal kepada SiliconRepublic.com, arsitektur zero-copy memungkinkan pengguna untuk menanyakan, berbagi, dan mengakses data langsung dari sumbernya, dibandingkan dengan proses sementara ETL.
Zero-copy memungkinkan hal ini dengan menggunakan metadata, izin, dan penekanan kueri “tanpa menduplikasi data yang mendasarinya”.
Goyal mengatakan katalis perubahan ini adalah platform analitik Microsoft Fabric, khususnya platform penyimpanan OneLake.
“Fabric memperkenalkan inti data logis terpadu yang menjadikan duplikasi data tradisional menjadi usang,” jelasnya. “Dua mekanisme penting tersebut adalah Mirroring, yang membuat sistem sumber tercermin hampir secara real-time, dan Shortcuts, yang memungkinkan seluruh database multiterabyte muncul ke dalam lingkungan analitik dalam hitungan detik tanpa penyalinan fisik apa pun.
“Meskipun ADF tetap relevan untuk skenario orkestrasi yang kompleks, ADF tidak lagi menjadi tulang punggung pergerakan data – OneLake adalah tulang punggung.”
‘Pembebasan yang sudah lama tertunda’
Perubahan signifikan dalam industri apa pun dapat ditanggapi dengan suka atau duka tergantung pada keadaannya, namun Goyal mengatakan bahwa bagi tim data, apa yang disebut ‘kematian ETL’ digambarkan sebagai “kebebasan yang sudah lama tertunda”.
“Bertahun-tahun yang dihabiskan untuk menyempurnakan paket SSIS dan memetakan aliran data ADF justru memberi jalan bagi pengelolaan metadata dan kebijakan tata kelola,” ujarnya. “Bebannya beralih dari merespons kegagalan saluran pipa menjadi mempertahankan jalan pintas yang stabil dan teratur.
“Keterampilan ini terus berkembang – fokusnya beralih dari rekayasa jalur pipa ke tata kelola data, manajemen metadata, dan arsitektur strategis, yang menunjukkan peningkatan signifikan dalam peran manajemen data.”
Namun mengapa secara spesifik zero-copy diterapkan pada ETL?
Sebagai permulaan, Goyal mengatakan zero-copy menggantikan ETL karena lebih cepat, lebih murah, dan “secara fundamental lebih dapat diandalkan”.
“Arsitektur zero‑copy menggantikan ETL dengan membiarkan analitik dan AI mengakses data langsung dari sumbernya – menghilangkan duplikasi, latensi, dan kompleksitas tata kelola sekaligus mengurangi biaya.
“Singkatnya, ETL itu mahal, lambat, dan rapuh; zero-copy berarti ramping, hidup, dan mandiri.”
Mengapa ini penting?
Goyal percaya transisi dari ETL penting karena “mewakili perubahan arsitektur mendasar”, yang memungkinkan tim untuk mengelola metadata dan tata kelola alih-alih salinan data yang terfragmentasi dan “jalur yang rapuh”.
“Peralihan ini dimulai dari model yang reaktif dan banyak melakukan pemeliharaan – yang ditandai dengan peringatan kegagalan saluran pipa pada larut malam – menjadi siaran langsung bisnis.
“Seiring waktu, hal ini berarti organisasi dapat mengambil keputusan berdasarkan data saat ini dibandingkan data kemarin, mengurangi overhead infrastruktur secara signifikan, dan mengalihkan tim data yang terampil dari tugas operasional menuju pekerjaan strategis.”
Goyal menambahkan bahwa dari sudut pandang strategi data, zero-copy “mengubah apa yang secara fundamental mungkin terjadi”.
“Ketika lapisan analitik mencerminkan bisnis hampir secara real-time dan bukan beberapa jam setelah kejadian, keputusan dapat dibuat berdasarkan kebenaran yang ada saat ini,” katanya. “Penghapusan penyimpanan yang berlebihan berarti strategi dapat berkembang tanpa peningkatan biaya yang proporsional.
“Tata kelola bawaan dan persistensi metadata juga berarti organisasi dapat lebih memercayai data mereka – memungkinkan beban kerja AI, pelaporan, dan sistem operasional untuk hidup berdampingan dengan percaya diri dalam satu data estate yang dikelola dengan baik.”