Telset.id – Fenomena model collapse pada kecerdasan buatan (AI) menjadi perhatian serius para peneliti setelah ditemukan bahwa konten buatan AI yang membanjiri internet berpotensi merusak kualitas generasi AI berikutnya. Sebuah studi terbaru dari King’s College London, Norwegian University of Science and Technology, dan Abdus Salam International Centre for Theoretical Physics yang diterbitkan pada Mei 2026 di jurnal Physical Review Letters berhasil menemukan solusi sederhana untuk menghentikan siklus degradasi ini.
Model collapse adalah kondisi ketika model AI baru dilatih menggunakan data yang dihasilkan oleh model AI sebelumnya secara berulang. Ibarat memfotokopi hasil fotokopi, setiap generasi akan kehilangan detail dan variasi, hingga akhirnya model hanya menghasilkan keluaran yang repetitif dan tidak berguna. Fenomena ini pertama kali diidentifikasi secara formal oleh tim dari Universitas Oxford dan Cambridge dalam studi yang dipublikasikan di jurnal Nature pada tahun 2024.
Kekhawatiran ini menjadi semakin mendesak karena dua faktor utama. Pertama, volume konten sintetis atau buatan AI kini diperkirakan mencapai lebih dari setengah dari seluruh teks yang dipublikasikan secara online. Kedua, perusahaan AI mulai kehabisan pasokan data tulisan manusia berkualitas tinggi untuk pelatihan. Situasi ini menciptakan lingkaran setan di mana AI harus bergantung pada data sintetis yang justru berisiko memicu keruntuhan kualitas.
Solusi Sederhana untuk Model Collapse
Penelitian terbaru yang dipimpin oleh Profesor Yasser Roudi dari King’s College London menemukan bahwa intervensi yang sangat kecil sudah cukup untuk memutus siklus “data cannibalism” pada AI. Dalam eksperimen menggunakan model statistik yang lebih sederhana dibandingkan chatbot modern, tim peneliti menunjukkan bahwa model yang dilatih murni dari outputnya sendiri pasti akan runtuh. Namun, ketika mereka mencampurkan satu titik data nyata dari dunia luar ke dalam kumpulan data pelatihan, keruntuhan dapat dicegah sepenuhnya.
Yang lebih mengejutkan, satu titik data nyata tersebut tetap efektif meskipun volume data buatan mesin jauh lebih besar. “Dengan berfokus pada model sederhana,” jelas Profesor Roudi, para peneliti dapat mengidentifikasi secara pasti mengapa satu titik data dari luar mampu menghentikan sistem agar tidak tergelincir ke dalam omong kosong yang tidak bermakna.
Meskipun demikian, tim peneliti mengingatkan bahwa studi mereka menggunakan model yang disederhanakan, bukan jaringan saraf raksasa di balik ChatGPT atau Gemini. Mereka berencana untuk menguji prinsip ini pada sistem yang lebih besar di masa depan.
Studi ini juga didukung oleh temuan lain yang menunjukkan bahwa ketika data sintetis ditumpuk bersama data manusia nyata—bukan menggantikannya—keruntuhan model sebagian besar dapat dihindari. Pola ini sebenarnya lebih mendekati cara kerja dunia nyata: tidak ada yang menghapus seluruh internet dan memulai dari awal setiap tahun.
Baca Juga:
Dampak Model Collapse pada Ekosistem Digital
Fenomena model collapse bukan sekadar masalah teoretis. Pengguna internet sudah merasakan dampaknya melalui jawaban chatbot yang terdengar seragam, ulasan produk yang terlalu positif, atau hasil pencarian yang menampilkan ringkasan tipis tanpa informasi bermakna. Konten isian buatan AI yang dikenal sebagai “slop” ini memenuhi web dan secara perlahan menurunkan kualitas informasi yang tersedia.
Penelitian sebelumnya juga mengungkapkan bahwa komentar Reddit sepanjang 13 kata saja bisa menipu mesin pencari AI untuk merekomendasikan penipuan. Ini menunjukkan betapa rapuhnya sistem AI ketika berhadapan dengan data yang terkontaminasi.
Dalam jangka pendek, pengguna tidak perlu khawatir ChatGPT akan tiba-tiba berubah menjadi statis yang tidak berguna. Laboratorium AI utama sangat menyadari jebakan ini dan mengeluarkan biaya besar untuk data manusia, kurasi yang cermat, serta kesepakatan lisensi dengan penerbit guna menjaga kualitas data pelatihan mereka.
Namun, model collapse tetap menjadi lensa yang berguna untuk memahami beberapa fenomena yang sudah mulai terlihat. Ini menjadi alasan mengapa pelabelan “apakah ini ditulis oleh AI?”, provenans konten, dan nilai keahlian manusia asli terus menjadi topik hangat. Ini juga menjadi argumen bahwa web terbuka yang semakin tidak rapi adalah masalah jangka panjang yang nyata, bukan sekadar keluhan estetika.
Ketersediaan internet yang merata juga menjadi faktor penting dalam ekosistem digital. Di Indonesia, inisiatif seperti BAKTI terus berupaya menyediakan akses internet ke berbagai daerah, meskipun masih menghadapi tantangan besar. Di sisi lain, Internet BAKTI telah menjadi andalan bagi warga perbatasan dengan trafik mencapai 100 Mbps.
Pada akhirnya, temuan ini memberikan pesan optimistis: mesin masih membutuhkan manusia, meskipun hanya sedikit. Satu titik data nyata saja sudah cukup untuk menjaga agar AI tidak runtuh ke dalam omong kosong yang tidak berarti. Di era yang semakin tergoda untuk puas dengan konten sintetis, nilai dari ulasan, postingan forum, dan tulisan manusia asli menjadi semakin berharga.
[CONTENT_END]





Komentar
Belum ada komentar.