Kembali
Safety & Evaluation · Menengah
Eval
Pengujian sistematis terhadap kualitas, keamanan, atau perilaku sistem AI.
Definisi sederhana
Pengujian sistematis terhadap kualitas, keamanan, atau perilaku sistem AI.
Penjelasan tanpa jargon
Pengujian sistematis terhadap kualitas, keamanan, atau perilaku sistem AI. Biasanya istilah ini dipakai saat membuat test set, aturan data, validasi output, dan simulasi serangan.
Analogi
Seperti quality control, pagar pengaman, dan uji tabrak sebelum produk dipakai. Eval kurang lebih bekerja di bagian yang mengatur alurnya.
Contoh penggunaan
Contoh paling gampang: Eval dipakai saat membuat test set, aturan data, validasi output, dan simulasi serangan.
Kenapa penting
Kalau paham Eval, kamu mencegah output meyakinkan tetapi salah, berbahaya, atau membocorkan data.
Istilah terkait
- Benchmark
- Test Set
- Output Validation
Kesalahan pemula
Yang sering membuat keliru: mengandalkan satu filter dan menganggap sistem sudah aman. Eval juga beda dengan Benchmark.