Bisakah Anda mengandalkan chatbot AI untuk mendapatkan nasihat medis?

Carsten Eickhoff dari Universitas Tübingen mengeksplorasi masalah yang diamati saat menggunakan chatbot AI untuk pertanyaan medis.

Versi artikel ini awalnya diterbitkan oleh The Conversation (CC BY-ND 4.0)

Bayangkan Anda baru saja didiagnosis mengidap kanker stadium awal dan, sebelum janji temu berikutnya, Anda mengetik pertanyaan ke dalam chatbot AI: “Klinik alternatif manakah yang berhasil mengobati kanker?” Dalam hitungan detik Anda mendapatkan jawaban yang dipoles dan diberi catatan kaki yang berbunyi seperti ditulis oleh seorang dokter. Kecuali beberapa klaim tidak berdasar, catatan kaki tidak mengarah ke mana pun, dan chatbot tidak pernah sekalipun menyarankan bahwa pertanyaan itu sendiri mungkin adalah pertanyaan yang salah untuk ditanyakan.

Skenario tersebut tidak bersifat hipotetis. Secara kasar, inilah yang ditemukan oleh tim yang terdiri dari tujuh peneliti ketika mereka menempatkan lima yang paling populer di dunia chatbot melalui tes stres informasi kesehatan yang sistematis. Hasilnya dipublikasikan di BMJ Terbuka.

Chatbots, ChatGPT, Gemini, Grok, Meta AI, dan DeepSeek, masing-masing ditanyai 50 pertanyaan kesehatan dan medis yang mencakup kanker, vaksin, sel induk, nutrisi, dan kinerja atletik. Dua ahli secara independen menilai setiap jawaban. Mereka menemukan bahwa hampir 20 persen jawaban sangat bermasalah, setengahnya bermasalah, dan 30 persen agak bermasalah. Tidak ada satu pun chatbot yang dapat menghasilkan daftar referensi yang sepenuhnya akurat, dan hanya dua dari 250 pertanyaan yang langsung ditolak untuk dijawab.

Secara keseluruhan, kinerja kelima chatbot kurang lebih sama. Grok merupakan yang berkinerja terburuk, dengan 58 persen tanggapannya ditandai sebagai bermasalah, mengungguli ChatGPT sebesar 52 persen dan Meta AI sebesar 50 persen.

Namun, kinerjanya bervariasi berdasarkan topik. Chatbots menangani vaksin dan kanker dengan baik – bidang dengan penelitian yang besar dan terstruktur dengan baik – namun masih menghasilkan jawaban yang bermasalah sekitar seperempat waktu. Mereka paling banyak tersandung pada nutrisi dan kinerja atletik, domain-domain tersebut dipenuhi dengan saran-saran yang bertentangan secara online dan bukti-bukti yang kuat di lapangan tidak banyak.

Pertanyaan terbuka merupakan pertanyaan yang tidak berjalan mulus: 32 persen dari jawaban tersebut dinilai sangat bermasalah, dibandingkan dengan hanya 7 persen untuk jawaban tertutup. Perbedaan ini penting karena sebagian besar pertanyaan kesehatan di dunia nyata bersifat terbuka. Orang tidak menanyakan pertanyaan benar atau salah yang rapi kepada chatbots. Mereka menanyakan hal-hal seperti: “Suplemen manakah yang terbaik untuk kesehatan secara keseluruhan?” Ini adalah jenis pertanyaan yang mengundang jawaban yang lancar dan percaya diri, namun berpotensi membahayakan.

Ketika peneliti menanyakan 10 referensi ilmiah kepada setiap chatbot, median (nilai tengah) skor kelengkapannya hanya 40pc. Tidak ada chatbot yang mengelola satu daftar referensi yang sepenuhnya akurat dalam 25 upaya. Kesalahan berkisar dari penulis yang salah dan tautan rusak hingga makalah yang seluruhnya dibuat-buat. Ini merupakan bahaya tertentu karena referensi terlihat seperti bukti. Pembaca awam yang melihat daftar kutipan yang terformat rapi tidak mempunyai alasan untuk meragukan isi di atasnya.

Mengapa chatbots melakukan kesalahan

Ada alasan sederhana mengapa chatbots memberikan jawaban medis yang salah. Model bahasa tidak mengetahui banyak hal. Mereka memprediksi kata berikutnya yang paling mungkin secara statistik berdasarkan data pelatihan dan konteksnya. Mereka tidak mempertimbangkan bukti atau membuat penilaian nilai. Materi pelatihan mereka mencakup makalah yang ditinjau oleh rekan sejawat, serta topik Reddit, blog kesehatan, dan argumen media sosial.

Para peneliti tidak mengajukan pertanyaan netral. Mereka sengaja membuat perintah yang dirancang untuk mendorong chatbot agar memberikan jawaban yang menyesatkan – sebuah teknik pengujian stres standar dalam penelitian keselamatan AI yang dikenal sebagai ‘tim merah’. Ini berarti tingkat kesalahan mungkin melebih-lebihkan apa yang akan Anda temui dengan ungkapan yang lebih netral. Studi ini juga menguji versi gratis dari setiap model yang tersedia pada bulan Februari 2025. Tingkatan berbayar dan rilis yang lebih baru mungkin memiliki kinerja yang lebih baik.

Namun, kebanyakan orang menggunakan versi gratis ini, dan sebagian besar pertanyaan kesehatan tidak diutarakan dengan hati-hati. Kondisi penelitian ini mencerminkan bagaimana orang sebenarnya menggunakan alat-alat tersebut.

Temuan artikel ini tidak berdiri sendiri; mereka mendarat di tengah semakin banyak bukti yang memberikan gambaran yang konsisten.

Sebuah studi pada bulan Februari 2026 di Pengobatan Alam menunjukkan sesuatu yang mengejutkan. Chatbots sendiri bisa mendapatkan jawaban medis yang tepat hampir 95 persen. Namun ketika orang sungguhan menggunakan chatbot yang sama, mereka hanya mendapatkan jawaban yang benar kurang dari 35 persen – tidak lebih baik daripada orang yang tidak menggunakannya sama sekali. Secara sederhana, masalahnya bukan hanya apakah chatbot memberikan jawaban yang benar. Itu tergantung apakah pengguna sehari-hari dapat memahami dan menggunakan jawaban itu dengan benar.

Sebuah penelitian baru-baru ini diterbitkan di Jama Network Open menguji 21 model AI terkemuka. Para peneliti meminta mereka untuk mencari kemungkinan diagnosis medis. Ketika model hanya diberi rincian dasar – seperti usia, jenis kelamin, dan gejala pasien – mereka mengalami kesulitan, dan gagal menyarankan serangkaian kondisi yang mungkin terjadi pada lebih dari 80 persen kasus. Setelah para peneliti memasukkan temuan ujian dan hasil lab, akurasi melonjak di atas 90 persen.

Sementara itu, penelitian AS lainnya yang diterbitkan pada Kedokteran Komunikasi Alammenemukan bahwa chatbots dengan mudah mengulangi dan bahkan menguraikan istilah-istilah medis yang dibuat-buat.

Secara keseluruhan, penelitian-penelitian ini menunjukkan bahwa kelemahan-kelemahan yang ditemukan dalam penelitian BMJ Open bukanlah suatu keanehan dari satu metode eksperimental tetapi mencerminkan sesuatu yang lebih mendasar mengenai posisi teknologi saat ini.

Chatbots ini tidak akan hilang, dan juga tidak akan hilang. Mereka dapat merangkum topik-topik kompleks, membantu menyiapkan pertanyaan untuk dokter, dan menjadi titik awal penelitian. Namun penelitian ini dengan jelas menyatakan bahwa mereka tidak boleh diperlakukan sebagai otoritas medis yang berdiri sendiri.

Jika Anda menggunakan salah satu chatbot ini untuk mendapatkan nasihat medis, verifikasi klaim kesehatan apa pun yang dibuatnya, perlakukan referensi tersebut sebagai saran untuk diperiksa, bukan fakta, dan perhatikan ketika responsnya terdengar meyakinkan tetapi tidak memberikan penyangkalan.

Carsten Eickhoff

Carsten Eickhoff adalah profesor ilmu data medis di Universitas Tubingen. Laboratoriumnya berspesialisasi dalam pengembangan pembelajaran mesin dan teknik pemrosesan bahasa alami dengan tujuan meningkatkan keselamatan pasien, kesehatan individu, dan kualitas perawatan medis. Carsten telah menulis lebih dari 150 artikel di konferensi ilmu komputer dan jurnal klinis dan dia telah menjabat sebagai penasihat dan anggota komite disertasi untuk lebih dari 70 mahasiswa.