Cloudflare memblokir perayap AI dari halaman web yang didukung iklan secara default

Mulai tanggal 15 September, crawler multiguna yang digunakan oleh Google, Microsoft, dan Apple akan diblokir secara default sesuai dengan aturan baru Cloudflare.

Penyedia layanan TI dan jaringan Cloudflare telah mengumumkan aturan baru yang dirancang untuk memberi pemilik situs web kontrol lebih besar terhadap jenis perayap web yang akan diizinkan atau diblokir dari situs mereka – bersama dengan rencana untuk memblokir perayap multiguna secara default pada halaman yang didukung iklan.

Secara tradisional, mesin pencari dan situs web mempertahankan semacam “hubungan simbiosis”, seperti yang dikatakan Cloudflare, di mana pemilik web mengizinkan mesin pencari untuk merayapi situs mereka dan sebagai imbalannya, mesin pencari mengirim pengguna kembali ke halaman mereka.

Perusahaan menjelaskan bahwa proses crawl-to-referral ini, jika seimbang, akan membantu situs menghasilkan tampilan halaman yang diperlukan untuk mempertahankan iklan, pendapatan afiliasi, dan langganan.

Namun, munculnya perayap dan agen AI mengubah banyak hal, karena chatbot AI mengikis situs untuk mensintesis jawaban dan mengabaikan sumber asli – yang sering kali menyebabkan rasio perayapan dan rujukan tidak seimbang. Penelitian Cloudflare sendiri pada tahun lalu mencatat rasio berkisar antara 118:1 hingga hampir 50.000:1 – yang berarti perayap AI dapat menggores situs puluhan ribu kali dan hanya mengirim kembali satu pengguna.

Saat ini, banyak dari crawler ini digunakan untuk berbagai tujuan – termasuk pelatihan AI dan pengindeksan pencarian – yang menempatkan pemilik situs web pada posisi yang sulit, karena mematikan semua otomatisasi dan akses crawler ke situs mereka dapat mengurangi peluang mereka untuk muncul di hasil pencarian.

Cloudflare berharap dapat mengatasi masalah ini dengan aturan barunya, yang mencakup opsi untuk mengelola akses perayap dengan menetapkan tiga kategori tujuan perayap: Pencarian, Agen, dan Pelatihan.

‘Penelusuran’ mengacu pada perayap yang digunakan untuk pengindeksan penelusuran, ‘Agen’ mengacu pada perilaku otomatis yang digunakan oleh chatbot dan agen penggunaan browser, dan ‘Pelatihan mengacu pada perayap yang mengikis konten untuk menyempurnakan model AI.

Dengan ketiga klasifikasi ini, pemilik situs web akan dapat secara selektif mengizinkan atau memblokir crawler yang digunakan untuk masing-masing dari ketiga klasifikasi tersebut – artinya jika pemilik web ingin mengizinkan crawler Penelusuran tetapi memblokir crawler Agen dan Pelatihan, mereka kini dapat melakukannya

Sebagai bagian dari aturan baru ini, Cloudflare juga akan memblokir crawler Pelatihan dan Agen secara default pada halaman yang menampilkan iklan.

Pengaturan pemblokiran default, yang akan berlaku untuk setiap domain baru yang dimasukkan ke Cloudflare mulai 15 September, tidak akan berlaku untuk crawler yang digunakan untuk pengindeksan pencarian, sementara crawler multiguna – khususnya yang digunakan untuk tujuan pencarian dan pelatihan – akan diizinkan atau diblokir “sesuai dengan semua perilakunya”.

Akibatnya, crawler multiguna yang digunakan oleh Google, Microsoft, dan Apple akan diblokir secara default mulai tanggal 15 September.

“Kami yakin akan mudah bagi semua pemilik situs web untuk mengelola akses untuk ketiga kasus penggunaan yang berpusat pada AI ini,” baca postingan blog Cloudflare. “Kami percaya bahwa operator bot harus memisahkan crawler mereka karena hal ini menciptakan lebih banyak transparansi bagi pemilik situs web, memungkinkan mereka untuk lebih memahami mengapa crawler tertentu mengunjungi mereka serta mengelola dengan lebih baik akses yang mereka berikan ke crawler tersebut.

“Jika sebuah perusahaan menjalankan otomatisasi yang membuat indeks Penelusuran, bertindak sebagai Agen, dan mengumpulkan data untuk Melatih model mereka, maka kami sangat menganjurkan perusahaan tersebut untuk memisahkan otomatisasi tersebut menjadi tiga crawler terpisah.”

Menjelang tenggat waktu default bulan September, pelanggan Cloudflare dapat memilih untuk tidak ikut serta dalam pengaturan default jika mereka menginginkannya.

Aturan baru Cloudflare adalah upaya terbaru perusahaan untuk mengekang penyalahgunaan crawler.

Pada tahun lalu, perusahaan ini memperkenalkan kontrol perayap baru untuk pemilik situs web, termasuk sistem ‘bayar per perayapan’ yang dirancang untuk berintegrasi dengan infrastruktur web yang ada dan memanfaatkan kode status HTTP serta menetapkan mekanisme autentikasi untuk menciptakan kerangka kerja bagi akses konten berbayar.

Setahun sebelumnya, Cloudflare memperkenalkan alat yang memungkinkan pemilik situs web memblokir semua bot sekaligus.