Evaluasi Keamanan Model Bahasa Besar: GPT memiliki kerentanan dan risiko privasi yang tidak diketahui

robot
Pembuatan abstrak sedang berlangsung

Penelitian Penilaian Keandalan Model Bahasa Besar Mengungkap Risiko Potensial

Baru-baru ini, sebuah penelitian yang dilakukan oleh beberapa universitas terkemuka dan lembaga penelitian telah melakukan evaluasi menyeluruh terhadap kredibilitas model bahasa besar (LLMs). Penelitian ini berfokus pada model seri GPT, mengeksplorasi keandalannya dan potensi risikonya dari berbagai dimensi.

Tim peneliti mengembangkan platform evaluasi komprehensif yang menganalisis model GPT dari delapan sudut pandang yang berbeda. Hasilnya menunjukkan bahwa model-model ini memiliki beberapa kerentanan yang sebelumnya tidak diungkapkan. Misalnya, model GPT cenderung menghasilkan output yang bias dan berbahaya, serta dapat membocorkan data pelatihan dan informasi pribadi dalam riwayat percakapan.

Menariknya, meskipun dalam tes standar GPT-4 biasanya lebih dapat diandalkan dibandingkan GPT-3.5, ketika menghadapi prompt jahat yang dirancang dengan cermat, GPT-4 justru lebih mudah diserang. Ini mungkin karena GPT-4 lebih ketat dalam mengikuti instruksi yang menyesatkan.

Dalam hal demonstrasi yang bersifat konfrontatif, penelitian menemukan bahwa model GPT memiliki ketahanan tertentu terhadap contoh kontra-faktual yang ditambahkan, dan kadang-kadang bahkan dapat mengambil manfaat dari hal tersebut. Namun, ketika demonstrasi kontra-faktual mendekati input pengguna, model lebih mudah terpengaruh, terutama GPT-4.

Tentang bias dan konten berbahaya, penelitian menunjukkan bahwa dalam keadaan normal, model GPT memiliki bias yang lebih kecil terhadap sebagian besar tema stereotip. Namun, jika prompt sistem dirancang dengan niat jahat, kedua model tersebut dapat menghasilkan konten yang bias. Perlu dicatat bahwa GPT-4 lebih rentan dalam hal ini dibandingkan dengan GPT-3.5. Tingkat bias model juga berkaitan dengan kelompok dan tema yang dibahas secara spesifik.

Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin akan membocorkan informasi sensitif dari data pelatihan, seperti alamat email. Meskipun GPT-4 menunjukkan kinerja yang lebih baik dalam melindungi informasi identitas pribadi, dalam beberapa kasus, ia justru lebih mudah membocorkan privasi dibandingkan dengan GPT-3.5.

Penelitian ini memberikan dasar penting untuk menilai dan meningkatkan keandalan model bahasa besar. Tim peneliti menyerukan komunitas akademis untuk terus mengeksplorasi bidang ini secara mendalam, untuk mencegah potensi penyalahgunaan. Mereka menekankan bahwa ini hanyalah titik awal, dan di masa depan, diperlukan lebih banyak kolaborasi untuk menciptakan model yang lebih kuat dan lebih dapat diandalkan.

GPT-8.83%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • Bagikan
Komentar
0/400
BoredRiceBallvip
· 07-18 20:30
Ada yang tertawa, kamu pikir bisa aman?
Lihat AsliBalas0
AirdropHunterWangvip
· 07-18 01:15
Cukup dengan menggoreng gpt.
Lihat AsliBalas0
NervousFingersvip
· 07-15 23:30
Ternyata ada bug, yang paham pasti paham.
Lihat AsliBalas0
ETHReserveBankvip
· 07-15 23:29
Ini disebut membunuh satu orang adalah satu orang.
Lihat AsliBalas0
GateUser-1a2ed0b9vip
· 07-15 23:22
Apa pun pasti ada celahnya.
Lihat AsliBalas0
NeverPresentvip
· 07-15 23:17
ai kenapa masih menyimpan rahasia kecil?
Lihat AsliBalas0
ChainComedianvip
· 07-15 23:17
Jadi benar-benar zona bencana celah keamanan.
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)