Evaluasi Keamanan Model Bahasa Besar: GPT memiliki kerentanan dan risiko privasi yang tidak diketahui

2025-07-15 23:00:47

Pembuatan abstrak sedang berlangsung

Penelitian Penilaian Keandalan Model Bahasa Besar Mengungkap Risiko Potensial

Baru-baru ini, sebuah penelitian yang dilakukan oleh beberapa universitas terkemuka dan lembaga penelitian telah melakukan evaluasi menyeluruh terhadap kredibilitas model bahasa besar (LLMs). Penelitian ini berfokus pada model seri GPT, mengeksplorasi keandalannya dan potensi risikonya dari berbagai dimensi.

Tim peneliti mengembangkan platform evaluasi komprehensif yang menganalisis model GPT dari delapan sudut pandang yang berbeda. Hasilnya menunjukkan bahwa model-model ini memiliki beberapa kerentanan yang sebelumnya tidak diungkapkan. Misalnya, model GPT cenderung menghasilkan output yang bias dan berbahaya, serta dapat membocorkan data pelatihan dan informasi pribadi dalam riwayat percakapan.

Menariknya, meskipun dalam tes standar GPT-4 biasanya lebih dapat diandalkan dibandingkan GPT-3.5, ketika menghadapi prompt jahat yang dirancang dengan cermat, GPT-4 justru lebih mudah diserang. Ini mungkin karena GPT-4 lebih ketat dalam mengikuti instruksi yang menyesatkan.

Dalam hal demonstrasi yang bersifat konfrontatif, penelitian menemukan bahwa model GPT memiliki ketahanan tertentu terhadap contoh kontra-faktual yang ditambahkan, dan kadang-kadang bahkan dapat mengambil manfaat dari hal tersebut. Namun, ketika demonstrasi kontra-faktual mendekati input pengguna, model lebih mudah terpengaruh, terutama GPT-4.

Tentang bias dan konten berbahaya, penelitian menunjukkan bahwa dalam keadaan normal, model GPT memiliki bias yang lebih kecil terhadap sebagian besar tema stereotip. Namun, jika prompt sistem dirancang dengan niat jahat, kedua model tersebut dapat menghasilkan konten yang bias. Perlu dicatat bahwa GPT-4 lebih rentan dalam hal ini dibandingkan dengan GPT-3.5. Tingkat bias model juga berkaitan dengan kelompok dan tema yang dibahas secara spesifik.

Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin akan membocorkan informasi sensitif dari data pelatihan, seperti alamat email. Meskipun GPT-4 menunjukkan kinerja yang lebih baik dalam melindungi informasi identitas pribadi, dalam beberapa kasus, ia justru lebih mudah membocorkan privasi dibandingkan dengan GPT-3.5.

Penelitian ini memberikan dasar penting untuk menilai dan meningkatkan keandalan model bahasa besar. Tim peneliti menyerukan komunitas akademis untuk terus mengeksplorasi bidang ini secara mendalam, untuk mencegah potensi penyalahgunaan. Mereka menekankan bahwa ini hanyalah titik awal, dan di masa depan, diperlukan lebih banyak kolaborasi untuk menciptakan model yang lebih kuat dan lebih dapat diandalkan.

GPT-2.98%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

9 Suka

Hadiah
9
7
Posting ulang
Bagikan

Komentar

0/400

BoredRiceBall

· 07-18 20:30

Ada yang tertawa, kamu pikir bisa aman?

Lihat AsliBalas0

AirdropHunterWang

· 07-18 01:15

Cukup dengan menggoreng gpt.

Lihat AsliBalas0

NervousFingers

· 07-15 23:30

Ternyata ada bug, yang paham pasti paham.

Lihat AsliBalas0

ETHReserveBank

· 07-15 23:29

Ini disebut membunuh satu orang adalah satu orang.

Lihat AsliBalas0

GateUser-1a2ed0b9

· 07-15 23:22

Apa pun pasti ada celahnya.

Lihat AsliBalas0

NeverPresent

· 07-15 23:17

ai kenapa masih menyimpan rahasia kecil?

Lihat AsliBalas0

ChainComedian

· 07-15 23:17

Jadi benar-benar zona bencana celah keamanan.

Lihat AsliBalas0

Topik
#Token of Love: Cheer on Square & Win Tickets
2k Popularitas
#Crypto Market Rebound
194k Popularitas
#FOMC July Minutes
20k Popularitas
#Show My Alpha Points
177k Popularitas
#Crypto-Related xStocks Rally
3k Popularitas

Sematkan

peta situs