OpenAI Menyarankan Pemantauan CoT Untuk Mengatasi Perilaku Jahat Dalam Model AI
Singkatnya OpenAI menyarankan untuk mendeteksi saat model penalaran perbatasan mulai mengeksploitasi celah dengan menggunakan LLM untuk memantau rantai pemikiran model.
Organisasi penelitian kecerdasan buatan, OpenAI telah menemukan cara untuk mendeteksi saat model penalaran batas mulai mengeksploitasi celah, dengan menggunakan model bahasa besar (LLM) untuk memantau rantai pemikiran model.
Model penalaran rantai pemikiran (CoT) memproses informasi dengan cara yang dapat dipahami oleh manusia. Dengan mengamati “proses berpikir” mereka, OpenAI telah mampu mengidentifikasi masalah seperti model yang mencoba melewati pengujian pengkodean, menyesatkan pengguna, atau mengabaikan tugas ketika tugas menjadi terlalu rumit.
OpenAI percaya bahwa pemantauan penalaran CoT mungkin merupakan salah satu dari sedikit alat yang tersedia untuk mengawasi model-model super di masa mendatang. Organisasi tersebut juga menemukan bahwa meskipun mengoptimalkan CoT secara langsung untuk memenuhi standar-standar tertentu (seperti mencegah peretasan hadiah) dapat meningkatkan kinerja dalam jangka pendek, hal itu tidak sepenuhnya menghilangkan semua perilaku buruk dan dapat menyebabkan model tersebut menyembunyikan maksudnya. OpenAI berharap bahwa penelitian masa depan akan menemukan cara untuk mengoptimalkan CoT tanpa keterbatasan ini, tetapi sementara itu, eksplorasi lebih lanjut masih diperlukan.
Reward hacking mengacu pada situasi di mana agen AI memperoleh hadiah tinggi dengan melakukan perilaku yang tidak sejalan dengan tujuan awal perancangnya. Seiring dengan perkembangan model penalaran batas yang lebih maju, menjadi jelas bahwa Model AI semakin terampil dalam mengeksploitasi kelemahan dalam tugas mereka dan ketidakakuratan dalam fungsi penghargaan mereka. Hal ini telah menyebabkan munculnya model yang dapat menjalankan peretasan penghargaan yang canggih, khususnya dalam tugas pengkodean.
Mendeteksi perilaku tidak selaras yang disebabkan oleh peretasan hadiah terbukti menjadi tantangan yang sulit, yang sering kali memerlukan campur tangan manusia untuk memantau tindakan agen secara manual. Namun, pendekatan ini tidak mungkin dapat ditingkatkan secara efektif, terutama karena model yang lebih canggih mengungkap perilaku yang semakin kompleks.
Namun demikian, LLM, seperti OpenAIo3-mini, yang dilatih dengan pembelajaran penguatan untuk bernalar melalui CoT, menghadirkan solusi potensial untuk memantau peretasan hadiah. Model-model ini memproses informasi dalam bahasa alami, sehingga penalarannya lebih mudah dipahami manusia. OpenAI telah mengamati bahwa model penalaran batas sering kali menjelaskan maksudnya dengan jelas dalam rangkaian pemikirannya. Misalnya, beberapa model secara eksplisit menyatakan maksudnya untuk menumbangkan suatu tugas, dengan pernyataan seperti "Mari kita retas."
Dengan menggunakan LLM lain untuk memantau proses berpikir mereka, perilaku buruk dapat dideteksi dan ditandai secara efektif. Namun, metode pemantauan ini tidak sepenuhnya aman. Jika pengawasan ketat diterapkan langsung pada rangkaian pemikiran, model dapat belajar menyembunyikan niat mereka, terus berperilaku buruk sambil menyembunyikan motivasi mereka yang sebenarnya.
OpenAI Merekomendasikan Optimalisasi Cahaya Untuk Pemantauan CoT yang Efektif
OpenAI mencatat bahwa pemantauan rantai pemikiran sudah terbukti berharga dan bukan sekadar alat teoritis untuk masa depan. Peretasan imbalan dapat diidentifikasi hanya dengan meninjau keluaran model penalaran, yang dengan jelas menyatakan dalam bahasa yang mudah dipahami maksudnya untuk terlibat dalam peretasan imbalan.
Belum lama ini, model bahasa menghadapi tantangan dalam menghasilkan paragraf teks yang koheren. Kini, model tersebut mampu memecahkan masalah matematika yang rumit, melakukan penelitian mendalam dengan mensintesis informasi dari berbagai sumber, dan menangani tugas rekayasa perangkat lunak dasar. Namun, seiring dengan berkembangnya kemampuan ini, potensi peretasan hadiah yang semakin canggih dan halus pun semakin berkembang. OpenAIModel-model tersebut mungkin mengembangkan perilaku yang tidak selaras, seperti mencari kekuasaan, memanfaatkan situasi, penipuan, dan manipulasi strategis.
Perusahaan tersebut yakin bahwa pemantauan CoT dapat menjadi salah satu dari sedikit metode efektif yang tersedia untuk mengawasi model manusia super. Pada titik ini, perusahaan tersebut menyarankan pengembang AI yang bekerja dengan model penalaran batas untuk menghindari penerapan pengawasan yang kuat secara langsung pada CoT. Eksperimen menunjukkan bahwa tekanan pengoptimalan ringan dapat menghasilkan model yang berkinerja lebih baik dan lebih selaras dengan tujuan yang diinginkan. Namun, tetap sulit untuk mendeteksi saat model mulai menyembunyikan maksud sebenarnya. Oleh karena itu, bahkan dengan pengawasan ringan, OpenAI menyarankan untuk melanjutkan dengan hati-hati.
Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.
Kamu mungkin juga menyukai
Rekor arus keluar mingguan terburuk dana kripto global mencapai $6,4 miliar: CoinShares
Produk investasi kripto global mengalami arus keluar bersih lebih lanjut sebesar $1,7 miliar minggu lalu, menurut manajer aset CoinShares. Minggu negatif kelima berturut-turut ini sekarang menandai rekor arus keluar terburuk sebesar $6,4 miliar, kata Kepala Riset James Butterfill.

Wemix mengatakan penundaan pengungkapan peretasan senilai $6,2 juta adalah untuk mencegah kepanikan: laporan
Tinjauan Cepat Pada 28 Februari, Yayasan Wemix mengalami peretasan senilai $6,2 juta — namun membuat pengumuman publik empat hari kemudian. CEO yayasan mengatakan penundaan tersebut untuk mencegah kepanikan pasar lebih lanjut.

Strategi melakukan pembelian bitcoin yang jauh lebih kecil senilai $10,7 juta saat total kepemilikannya mendekati 500.000 BTC
Strategi Quick Take telah membeli 130 BTC lagi dengan harga sekitar $10,7 juta secara tunai pada harga rata-rata $82.981 per bitcoin. Akuisisi terbaru ini dilakukan menggunakan hasil dari penjualan saham preferen perpetual strike, STRK.

Korea Utara melampaui El Salvador dan Bhutan dalam kepemilikan BTC setelah peretasan Bybit senilai $1,4 miliar: Arkham
Ringkasan Singkat Kelompok peretas Korea Utara, Lazarus, saat ini memiliki 13.518 BTC, jumlah yang lebih besar daripada yang dimiliki oleh pemerintah Bhutan atau El Salvador. Lazarus mencuri sekitar $1,4 miliar dari bursa Bybit bulan lalu.

Berita trending
LainnyaHarga kripto
Lainnya








