OpenAI menawarkan gambaran di balik tirai instruksi rahasia AI-nya

Pernahkah Anda bertanya-tanya mengapa AI percakapan seperti ChatGPT mengatakan “Maaf, saya tidak bisa melakukan itu” atau penolakan sopan lainnya? OpenAI menawarkan pandangan terbatas mengenai alasan di balik aturan keterlibatan modelnya sendiri, apakah model tersebut tetap berpegang pada pedoman merek atau menolak membuat konten NSFW.

Model bahasa besar (LLM) tidak memiliki batasan alami mengenai apa yang dapat atau akan mereka katakan. Itu sebabnya mereka begitu serba bisa, tapi juga alasan mereka berhalusinasi dan mudah ditipu.

Setiap model AI yang berinteraksi dengan masyarakat umum perlu memiliki beberapa batasan mengenai apa yang boleh dan tidak boleh dilakukan, namun mendefinisikan hal ini — apalagi menerapkannya — adalah tugas yang sangat sulit.

Jika seseorang meminta AI untuk membuat banyak klaim palsu tentang seorang figur publik, AI harusnya menolak, bukan? Namun bagaimana jika mereka sendiri adalah pengembang AI yang membuat database disinformasi sintetik untuk model detektor?

Bagaimana jika ada yang meminta rekomendasi laptop; itu harus objektif, bukan? Namun bagaimana jika model tersebut diterapkan oleh pembuat laptop yang ingin model tersebut hanya merespons dengan perangkat mereka sendiri?

Semua pembuat AI sedang menghadapi teka-teki seperti ini dan mencari metode yang efisien untuk mengendalikan model mereka tanpa menyebabkan mereka menolak permintaan normal. Namun mereka jarang menceritakan secara pasti bagaimana mereka melakukannya.

OpenAI sedikit melawan tren ini dengan menerbitkan apa yang disebutnya “spesifikasi model”, kumpulan aturan tingkat tinggi yang secara tidak langsung mengatur ChatGPT dan model lainnya.

Terdapat tujuan-tujuan meta-level, beberapa aturan keras, dan beberapa pedoman perilaku umum, meskipun untuk lebih jelasnya hal ini tidak secara tegas menjelaskan apa yang menjadi dasar model tersebut; OpenAI akan mengembangkan instruksi spesifik yang mencapai apa yang dijelaskan oleh aturan ini dalam bahasa alami.

Ini adalah pandangan yang menarik tentang bagaimana perusahaan menetapkan prioritasnya dan menangani kasus-kasus yang sulit. Dan memang ada banyak contoh bagaimana mereka bisa bermain.

Misalnya, OpenAI menyatakan dengan jelas bahwa niat pengembang pada dasarnya adalah hukum tertinggi. Jadi salah satu versi chatbot yang menjalankan GPT-4 mungkin memberikan jawaban atas soal matematika ketika ditanya. Namun jika chatbot tersebut telah dipersiapkan oleh pengembangnya untuk tidak pernah memberikan jawaban secara langsung, chatbot tersebut akan menawarkan untuk mengerjakan solusi tersebut langkah demi langkah:

Kredit Gambar: OpenAI

Antarmuka percakapan bahkan mungkin menolak untuk membicarakan apa pun yang tidak disetujui, untuk menghentikan upaya manipulasi apa pun sejak awal. Mengapa membiarkan asisten memasak mempertimbangkan keterlibatan AS dalam Perang Vietnam? Mengapa chatbot layanan pelanggan harus setuju untuk membantu pengerjaan novel supernatural erotis Anda? Matikan itu.

Hal ini juga menjadi rumit dalam masalah privasi, seperti menanyakan nama dan nomor telepon seseorang. Seperti yang ditunjukkan oleh OpenAI, jelas bahwa tokoh masyarakat seperti walikota atau anggota Kongres harus memberikan rincian kontak mereka, tetapi bagaimana dengan pedagang di wilayah tersebut? Mungkin tidak apa-apa — tapi bagaimana dengan karyawan perusahaan tertentu, atau anggota partai politik? Mungkin tidak.

Memilih kapan dan di mana menarik garis tidaklah mudah. Juga tidak membuat instruksi yang menyebabkan AI mematuhi kebijakan yang dihasilkan. Dan tidak ada keraguan bahwa kebijakan-kebijakan ini akan selalu gagal karena masyarakat belajar untuk menghindarinya atau secara tidak sengaja menemukan kasus-kasus yang tidak dapat dipertanggungjawabkan.

OpenAI tidak menunjukkan pengaruhnya secara menyeluruh di sini, namun akan sangat membantu bagi pengguna dan pengembang untuk melihat bagaimana peraturan dan pedoman ini ditetapkan dan alasannya, yang ditetapkan dengan jelas, namun belum tentu secara komprehensif.