Penelitian Penilaian Keandalan Model Bahasa Besar Mengungkap Risiko Potensial
Baru-baru ini, sebuah penelitian yang dilakukan oleh beberapa universitas terkemuka dan lembaga penelitian telah melakukan evaluasi menyeluruh terhadap kredibilitas model bahasa besar (LLMs). Penelitian ini berfokus pada model seri GPT, mengeksplorasi keandalannya dan potensi risikonya dari berbagai dimensi.
Tim peneliti mengembangkan platform evaluasi komprehensif yang menganalisis model GPT dari delapan sudut pandang yang berbeda. Hasilnya menunjukkan bahwa model-model ini memiliki beberapa kerentanan yang sebelumnya tidak diungkapkan. Misalnya, model GPT cenderung menghasilkan output yang bias dan berbahaya, serta dapat membocorkan data pelatihan dan informasi pribadi dalam riwayat percakapan.
Menariknya, meskipun dalam tes standar GPT-4 biasanya lebih dapat diandalkan dibandingkan GPT-3.5, ketika menghadapi prompt jahat yang dirancang dengan cermat, GPT-4 justru lebih mudah diserang. Ini mungkin karena GPT-4 lebih ketat dalam mengikuti instruksi yang menyesatkan.
Dalam hal demonstrasi yang bersifat konfrontatif, penelitian menemukan bahwa model GPT memiliki ketahanan tertentu terhadap contoh kontra-faktual yang ditambahkan, dan kadang-kadang bahkan dapat mengambil manfaat dari hal tersebut. Namun, ketika demonstrasi kontra-faktual mendekati input pengguna, model lebih mudah terpengaruh, terutama GPT-4.
Tentang bias dan konten berbahaya, penelitian menunjukkan bahwa dalam keadaan normal, model GPT memiliki bias yang lebih kecil terhadap sebagian besar tema stereotip. Namun, jika prompt sistem dirancang dengan niat jahat, kedua model tersebut dapat menghasilkan konten yang bias. Perlu dicatat bahwa GPT-4 lebih rentan dalam hal ini dibandingkan dengan GPT-3.5. Tingkat bias model juga berkaitan dengan kelompok dan tema yang dibahas secara spesifik.
Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin akan membocorkan informasi sensitif dari data pelatihan, seperti alamat email. Meskipun GPT-4 menunjukkan kinerja yang lebih baik dalam melindungi informasi identitas pribadi, dalam beberapa kasus, ia justru lebih mudah membocorkan privasi dibandingkan dengan GPT-3.5.
Penelitian ini memberikan dasar penting untuk menilai dan meningkatkan keandalan model bahasa besar. Tim peneliti menyerukan komunitas akademis untuk terus mengeksplorasi bidang ini secara mendalam, untuk mencegah potensi penyalahgunaan. Mereka menekankan bahwa ini hanyalah titik awal, dan di masa depan, diperlukan lebih banyak kolaborasi untuk menciptakan model yang lebih kuat dan lebih dapat diandalkan.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
9 Suka
Hadiah
9
7
Bagikan
Komentar
0/400
BoredRiceBall
· 07-18 20:30
Ada yang tertawa, kamu pikir bisa aman?
Lihat AsliBalas0
AirdropHunterWang
· 07-18 01:15
Cukup dengan menggoreng gpt.
Lihat AsliBalas0
NervousFingers
· 07-15 23:30
Ternyata ada bug, yang paham pasti paham.
Lihat AsliBalas0
ETHReserveBank
· 07-15 23:29
Ini disebut membunuh satu orang adalah satu orang.
Evaluasi Keamanan Model Bahasa Besar: GPT memiliki kerentanan dan risiko privasi yang tidak diketahui
Penelitian Penilaian Keandalan Model Bahasa Besar Mengungkap Risiko Potensial
Baru-baru ini, sebuah penelitian yang dilakukan oleh beberapa universitas terkemuka dan lembaga penelitian telah melakukan evaluasi menyeluruh terhadap kredibilitas model bahasa besar (LLMs). Penelitian ini berfokus pada model seri GPT, mengeksplorasi keandalannya dan potensi risikonya dari berbagai dimensi.
Tim peneliti mengembangkan platform evaluasi komprehensif yang menganalisis model GPT dari delapan sudut pandang yang berbeda. Hasilnya menunjukkan bahwa model-model ini memiliki beberapa kerentanan yang sebelumnya tidak diungkapkan. Misalnya, model GPT cenderung menghasilkan output yang bias dan berbahaya, serta dapat membocorkan data pelatihan dan informasi pribadi dalam riwayat percakapan.
Menariknya, meskipun dalam tes standar GPT-4 biasanya lebih dapat diandalkan dibandingkan GPT-3.5, ketika menghadapi prompt jahat yang dirancang dengan cermat, GPT-4 justru lebih mudah diserang. Ini mungkin karena GPT-4 lebih ketat dalam mengikuti instruksi yang menyesatkan.
Dalam hal demonstrasi yang bersifat konfrontatif, penelitian menemukan bahwa model GPT memiliki ketahanan tertentu terhadap contoh kontra-faktual yang ditambahkan, dan kadang-kadang bahkan dapat mengambil manfaat dari hal tersebut. Namun, ketika demonstrasi kontra-faktual mendekati input pengguna, model lebih mudah terpengaruh, terutama GPT-4.
Tentang bias dan konten berbahaya, penelitian menunjukkan bahwa dalam keadaan normal, model GPT memiliki bias yang lebih kecil terhadap sebagian besar tema stereotip. Namun, jika prompt sistem dirancang dengan niat jahat, kedua model tersebut dapat menghasilkan konten yang bias. Perlu dicatat bahwa GPT-4 lebih rentan dalam hal ini dibandingkan dengan GPT-3.5. Tingkat bias model juga berkaitan dengan kelompok dan tema yang dibahas secara spesifik.
Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin akan membocorkan informasi sensitif dari data pelatihan, seperti alamat email. Meskipun GPT-4 menunjukkan kinerja yang lebih baik dalam melindungi informasi identitas pribadi, dalam beberapa kasus, ia justru lebih mudah membocorkan privasi dibandingkan dengan GPT-3.5.
Penelitian ini memberikan dasar penting untuk menilai dan meningkatkan keandalan model bahasa besar. Tim peneliti menyerukan komunitas akademis untuk terus mengeksplorasi bidang ini secara mendalam, untuk mencegah potensi penyalahgunaan. Mereka menekankan bahwa ini hanyalah titik awal, dan di masa depan, diperlukan lebih banyak kolaborasi untuk menciptakan model yang lebih kuat dan lebih dapat diandalkan.