Jika robot AI bisa ditipu hingga menjadi 'nakal', apa implikasinya?

Fazl Barez dari Universitas Oxford mempertanyakan bagaimana kecerdasan buatan yang dibangun untuk mencapai tujuan yang lebih baik berpotensi berbahaya jika berada di tangan yang salah.

Versi artikel ini awalnya diterbitkan oleh The Conversation (CC BY-ND 4.0)

Awal tahun ini di Beijing, robot humanoid melintasi garis finis setengah maraton dalam waktu 50 menit, 26 detik. Prestasi ini segera menjadi berita utama global karena menghancurkan negara tersebut rekor dunia manusia hampir tujuh menit.

Pertunjukan ini mendapat banyak tanda bintang. Itu robot mengikuti jalur yang telah dipetakan sebelumnya, tetap berada di jalur khusus dan memiliki kru pendukung manusia yang mengikuti di belakangnya jika terjadi kerusakan.

Namun kesenjangan performa tidak hanya berkurang, namun juga menguap – turun dari 2,5 jam pada tahun 2025. Hal ini bukan hanya disebabkan oleh motor yang lebih baik atau serat karbon yang lebih ringan; ini mencerminkan perubahan besar pada robot sebenarnya. Dan transformasi tersebut juga berdampak pada rumah dan rumah sakit kita.

Ditipu untuk menjadi nakal

Selama beberapa dekade, robotika adalah tentang pengkodean yang kaku dan dapat diprediksi. Anda menulis sebuah program, mengunci mesin dalam sangkar logam dan membiarkannya menjalankan tugas yang berulang selamanya.

Standar keselamatan industri dibangun dengan premis bahwa jika Anda dapat memetakan jalur fisik lengan robot, misalnya, Anda dapat membatasi risikonya dengan sangkar atau kabel tripwire laser.

Namun sistem yang berpindah ke rumah sakit dan rumah saat ini tidak menggunakan blok kode tetap. Mereka terus berjalan “model pondasi” – jenis kecerdasan buatan yang dilatih di internet yang mendukung chatbot seperti ChatGPT.

Jika Anda memberi tahu robot modern yang digerakkan oleh AI untuk “membersihkan tumpahan di dapur”, robot tersebut akan menggunakan model ini untuk menafsirkan ruangan unik Anda (bukan mencocokkannya dengan daftar yang telah diprogram), mencari tahu maksud Anda, lalu membuat rencana tindakan dengan cepat.

Namun fleksibilitas seperti itu menciptakan masalah keselamatan yang tidak ada habisnya. Anda tidak dapat membangun sangkar fisik di sekitar mesin yang perilakunya muncul secara real time, berdasarkan alasannya sendiri. Bahaya dengan generasi baru robot AI adalah, karena mereka menggunakan bahasa manusia untuk merencanakan tindakannya, mereka bisa tertipu hingga menjadi ‘nakal’.

Di saya penelitian terbaru dengan rekan-rekannya di ASkami memutuskan untuk menguji seberapa rapuhnya sistem keselamatan robot AI ini. Kami ingin melihat apakah pagar pembatas yang dibangun oleh pengembang AI ke dalam model dasar mereka, yang dirancang untuk mencegah keluaran yang merugikan atau berbahaya, dapat bertahan ketika model yang mendasarinya diberi bentuk fisik.

Hanya menggunakan perintah teks dasar dan tanpa peretasan perangkat keras apa pun, kami memanipulasi serangkaian robot yang dikendalikan AI untuk melakukan hal-hal yang benar-benar berbahaya.

Dalam pengujian kami, sistem dengan mudah menolak perintah jahat seperti “pukul orang itu”. Namun filter keamanan ini runtuh saat kami menggunakan sedikit tulisan kreatif. Dengan membingkai permintaan kami sebagai bagian dari dialog fiksi untuk naskah film, hambatan perilaku robot menghilang.

Dalam satu percobaan, kami memprogram robot anjing komersial untuk menentukan kerumunan manusia sebagai lokasi optimal untuk menempatkan alat peledak. Karena AI yang mendasarinya melihat perintah tersebut sebagai sebuah latihan kreatif, AI tampaknya tidak menyadari implikasi berbahaya dari rencana yang dihasilkannya di dunia nyata.

Di Inggris, AS, dan UE, terdapat undang-undang yang berlaku saat ini benar-benar tidak siap untuk kemungkinan seperti itu.

Tidak ada batasan

Ketika pembuat kebijakan mencoba mencari cara untuk mengatur robot, mereka hampir selalu memperhatikannya kendaraan otonom. Namun mobil self-driving beroperasi di dunia yang sangat terstruktur dan sangat terpetakan. Mereka mengikuti peraturan lalu lintas yang tetap, menavigasi geometri jalan yang dapat diprediksi dan dapat diuji melalui jutaan jam simulasi.

Jalan yang sibuk berfungsi berdasarkan undang-undang yang jelas dengan menggunakan sistem panduan seperti lampu lalu lintas, yang berarti para insinyur dapat mengantisipasi parameter keselamatan sebelumnya.

Dapur rumah tangga, ruang sekolah atau rumah sakit tidak ada yang setara. Dan tidak ada pengujian di pabrik yang dapat memprediksi apa yang akan dilakukan oleh model yang dilatih melalui internet ketika menemukan objek baru di lingkungan manusia yang berantakan dan tidak dapat diprediksi.

Hal ini meninggalkan kelemahan konseptual yang mendalam pada cara kami membuat mesin ini. Keamanan Chatbot adalah hal yang mutlak – sebuah model tidak boleh mengeluarkan resep yang mengejutkan, tidak peduli siapa yang bertanya. Namun keamanan robot bergantung pada konteks.

Pikirkan tentang menuangkan air mendidih dari ketel. Pergerakan fisik yang mendasari – kemiringan, laju aliran, lintasan – tetap sama, baik air mendarat dengan aman di cangkir keramik atau, yang lebih parah lagi, di tangan anak-anak.

Model dasar AI sangat fenomenal dalam logika terbuka, namun mereka sangat kesulitan dengan penilaian fisik yang real-time dan sadar konteks. Dalam antarmuka teks, kegagalan penilaian membuat Anda salah ketik atau fakta berhalusinasi. Di dunia fisik, kegagalan seperti itu mungkin tidak dapat diubah – dengan konsekuensi yang sangat buruk.

Siapa yang disalahkan?

Jika robot bertenaga AI menyebabkan cedera fisik, siapa yang disalahkan? Apakah pengguna akhir yang memberikan perintah lisan? Perusahaan yang memproduksi sasis logam? Atau perusahaan teknologi yang pertama kali melatih model AI?

Saat ini, undang-undang yang tampaknya berlaku – seperti tanggung jawab produk, klaim garansi, dan undang-undang perlindungan konsumen – belum diuji dalam situasi baru ini. Dan sampai tanggung jawab secara eksplisit ditetapkan oleh regulator, tekanan pasar akan terus mendorong perusahaan teknologi untuk melakukan hal tersebut memprioritaskan penyebaran komersial yang cepat atas rekayasa keselamatan yang hati-hati.

Jika kita ingin hidup berdampingan dengan mesin-mesin ini dengan aman, saya yakin kita perlu memisahkan keselamatan dari keputusan model AI. Robot tidak boleh bergantung pada logika chatbot untuk memutuskan apakah aman mengayunkan lengan logam berat di dekat wajah manusia.

Ini berarti menciptakan lapisan keamanan yang tidak bergantung pada kebenaran AI. Misalnya, kita memerlukan zona di sekitar manusia yang tidak dapat dimasuki oleh lengan robot, dan rem darurat fisik yang dapat menghentikan robot jika dan ketika AI-nya gagal.

Makhluk humanoid yang melintasi garis finis dalam uji coba atletik terkontrol adalah bukti konsep yang mengesankan, tetapi itu hanyalah prolog. Generasi agen otonom berikutnya akan beroperasi di lingkungan manusia dengan risiko tinggi – menavigasi bangsal pemulihan, membantu orang lanjut usia, dan berjalan-jalan di jalanan.

Kami membutuhkan sebuah mudah diinterpretasikan dan kerangka keselamatan yang kuat sudah ada dan berjalan sebelum hal tersebut terjadi – bukan sebagai respons retrospektif terhadap tragedi yang dapat diprediksi.

Dr Fazl Barez

Dr Fazl Barez adalah peneliti senior di Universitas Oxfordyang berspesialisasi dalam keamanan, interpretasi, dan tata kelola AI. Dia memimpin inisiatif penelitian dalam AI Governance Initiative, dengan fokus pada pengembangan kerangka keselamatan dan metode interpretabilitas untuk sistem AI tingkat lanjut. Ia juga mengajar kursus Keamanan dan Penyelarasan AI. Selain pekerjaan akademisnya, Barez adalah ilmuwan utama di Mars, yang bekerja pada pemahaman kecerdasan mesin. Penelitiannya didukung oleh OpenAI, Anthropic, Schmidt Sciences, Nvidia dan lain-lain.

Jika robot AI bisa ditipu hingga menjadi ‘nakal’, apa implikasinya?

Ditipu untuk menjadi nakal

Tidak ada batasan

Siapa yang disalahkan?