Nahla Davies mengkaji apa yang dimaksud dengan kerangka integritas data yang tepat, dan bagaimana kerangka kerja yang tidak memadai dapat merusak kualitas data.
Jika Anda bertanya kepada sebagian besar perusahaan apakah mereka memiliki kerangka integritas data, mereka akan menjawab ya tanpa ragu-ragu. Mereka akan mengarahkan Anda ke drive bersama, mungkin halaman Confluence, mungkin spreadsheet berkode warna dengan tab berlabel ‘Aturan Validasi’ dan ‘Matriks Kepemilikan’. Tampaknya resmi. Ada logo di atasnya. Seseorang bahkan menambahkan pemformatan bersyarat.
Namun ada satu hal yang perlu diperhatikan: terlihat seperti sebuah kerangka kerja dan benar-benar berfungsi sebagai satu kesatuan adalah dua realitas yang sangat berbeda. Di berbagai industri, organisasi mengacaukan dokumentasi dengan tata kelola, dan kesenjangan antara kedua hal tersebut menyebabkan kualitas data menjadi berantakan. Masalahnya bukan karena tim tidak peduli. Itu karena mereka telah meyakinkan diri mereka sendiri bahwa spreadsheet tersebut sudah cukup.
Jebakan spreadsheet lebih umum terjadi daripada yang diakui siapa pun
Ada pola yang terjadi di hampir setiap organisasi skala menengah yang mengalami dorongan transformasi digital dalam lima tahun terakhir. Seseorang di bidang rekayasa data atau analitik mendapat tugas untuk ‘membangun kerangka integritas data’. Mereka melakukan penelitian, mengumpulkan beberapa praktik terbaik, dan membuat dokumen. Mungkin ada di Google Sheets, mungkin database Notion, mungkin PDF asli yang dikirim melalui email satu kali dan kemudian dilupakan. Apa pun bentuknya, ia mencentang kotaknya. Pimpinan melihatnya dan merasa tenang.
Masalahnya dimulai ketika dokumen tersebut harus bertahan dari kontak dengan kenyataan. Saluran data berubah. Sumber baru ditambahkan. Anggota tim bergiliran. Dan spreadsheet itu? Itu tidak memperbarui dirinya sendiri. Itu tidak mengirimkan peringatan ketika skema bergeser atau ketika bidang kritis mulai mengembalikan nol dua kali lipat dari tingkat biasanya. Ia hanya diam di sana, membeku pada saat diciptakan, perlahan-lahan menjadi artefak sejarah dan bukan alat operasional.
Yang lebih parahnya adalah orang-orang terus merujuknya seolah-olah itu masih akurat. Keputusan dibuat berdasarkan aturan validasi yang belum ditinjau selama berbulan-bulan. Kolom kepemilikan mencantumkan orang-orang yang telah keluar dari perusahaan. Ini setara dengan bernavigasi secara organisasi dengan peta dari tahun 2019 dan bertanya-tanya mengapa Anda terus menemui jalan buntu.
Dan ini bukan masalah khusus. Survei Gartner pada tahun 2023 menemukan bahwa kualitas data yang buruk merugikan organisasi rata-rata $12,9 juta per tahun. Jumlah tersebut bukan berasal dari pelanggaran yang dramatis dan menjadi berita utama. Hal ini berasal dari akumulasi catatan buruk yang lambat dan tidak terlihat, anomali yang terlewatkan, dan asumsi yang tidak terkendali yang tidak dapat ditangkap oleh dokumen statis.
Seperti apa sebenarnya kerangka kerja yang sebenarnya
Jadi, apa yang membedakan kerangka kerja integritas data yang berfungsi dengan spreadsheet yang diformat dengan baik? Tergantung apakah benda tersebut dapat beroperasi tanpa ada yang menjaganya secara manual. Kerangka kerja nyata tertanam dalam infrastruktur Anda. Ini otomatis, dapat diamati, dan responsif.
Artinya, pemeriksaan validasi dijalankan sebagai bagian dari saluran data Anda, bukan sebagai audit triwulanan yang selalu dilakukan seseorang pada minggu terakhir triwulan tersebut. Artinya, data diberi anotasi dengan benar dan terdapat pemantauan yang menandai anomali secara real-time, baik berupa lonjakan nilai null secara tiba-tiba atau ketidakcocokan antara jumlah baris sumber dan tujuan. Alat seperti Great Expectations, Monte Carlo, dan tes dbt hadir secara khusus untuk menghadirkan ketelitian seperti ini ke dalam alur kerja.
Hal ini juga berarti kepemilikan ditegakkan melalui peralatan, bukan hanya didokumentasikan dalam tab. Ketika aset data memiliki pemilik terdaftar di katalog data, dan katalog tersebut terintegrasi dengan sistem pemberitahuan Anda, akuntabilitas menjadi struktural. Itu tidak lagi menjadi sesuatu yang harus Anda kejar-kejar di Slack.
Ada komponen budaya juga di sini. Organisasi dengan praktik integritas data yang matang memperlakukan kualitas data sebagai masalah produk dan lebih siap untuk menerapkan tata kelola AI yang tepat. Manajer produk peduli akan hal itu. Analis menandai permasalahan secara proaktif dibandingkan mengatasinya. Insinyur menulis pengujian untuk data dengan cara yang sama seperti mereka menulis pengujian untuk kode. Budaya seperti itu tidak muncul dari spreadsheet. Hal ini muncul dari kepemimpinan, yang memperjelas bahwa integritas data adalah prioritas, bukan proyek sampingan yang ditangani seseorang ketika keadaan berjalan lambat.
Perusahaan yang melakukan hal ini cenderung memiliki beberapa ciri yang sama. Mereka telah berinvestasi pada kemampuan observasi di seluruh tumpukan data mereka. Mereka memperlakukan perubahan skema sebagai peristiwa yang memerlukan peninjauan, bukan hal yang terjadi begitu saja. Dan mereka telah melupakan gagasan bahwa dokumentasi saja sudah setara dengan tata kelola.
Mengapa hal ini lebih penting saat ini dibandingkan lima tahun yang lalu
Pertaruhan seputar integritas data telah berubah secara signifikan. Lima tahun yang lalu, catatan buruk di dasbor pelaporan memang mengganggu namun dapat dikelola. Saat ini, catatan buruk yang sama mungkin mempengaruhi model pembelajaran mesin yang membuat keputusan otomatis tentang kredit, perekrutan, atau perawatan pasien. Radius ledakan kualitas data yang buruk telah meluas karena sistem yang menggunakan data tersebut menjadi lebih otonom dan lebih penting.
Tekanan peraturan juga meningkat. Kerangka kerja seperti UU AI di Uni Eropa dan peraturan privasi data yang terus berkembang memberikan pengawasan yang lebih ketat terhadap cara organisasi mengelola data yang mendukung produk mereka. Semakin sulit untuk mengabaikan masalah kualitas data sebagai ‘utang teknis yang pada akhirnya akan kita bayar’. Regulator ingin melihat bukti tata kelola, dan spreadsheet yang mencantumkan tanggal tahun lalu tidak akan cukup.
Ada juga sudut kompetitif. Perusahaan yang dapat mempercayai datanya bergerak lebih cepat. Mereka membuat keputusan dengan lebih percaya diri. Mereka menghabiskan lebih sedikit waktu untuk merekonsiliasi laporan-laporan yang saling bertentangan dan lebih banyak waktu untuk benar-benar bertindak berdasarkan wawasan. Integritas data bukanlah hal yang glamor, namun merupakan salah satu hal mendasar yang secara diam-diam menentukan apakah suatu organisasi dapat melaksanakan strateginya atau sekadar membicarakannya.
Pikiran terakhir
Kenyataan yang tidak mengenakkan adalah sebagian besar kerangka kerja integritas data tidak dibuat sebagai kerangka kerja sama sekali. Mereka dibuat untuk memenuhi permintaan, untuk mencentang kotak kepatuhan, atau untuk memberikan sesuatu kepada seseorang untuk dipresentasikan dalam rapat.
Dan itu bagus sebagai titik awal. Setiap sistem yang matang dimulai dari suatu tempat. Namun jika ‘kerangka’ Anda masih berupa spreadsheet yang belum pernah disentuh siapa pun dalam enam bulan, inilah saatnya untuk jujur tentang apa yang sebenarnya Anda miliki.
Integritas yang nyata memerlukan otomatisasi, kemampuan observasi, dan dukungan budaya. Spreadsheet tidak pernah menjadi tujuan. Perlakukan itu sebagai draf kasar seperti biasanya, dan mulailah membuat sesuatu yang benar-benar dapat mengimbangi data Anda.
Oleh Nahla Davies
Nahla Davies adalah pengembang perangkat lunak dan penulis teknologi. Sebelum mengabdikan pekerjaannya penuh waktu pada penulisan teknis, ia berhasil – di antara hal-hal menarik lainnya – menjadi programmer utama di organisasi experiential branding Inc. 5.000, yang kliennya mencakup Samsung, Time Warner, Netflix, dan Sony.