Kembali
Safety & Evaluation · Menengah

Eval

Pengujian sistematis terhadap kualitas, keamanan, atau perilaku sistem AI.

Definisi sederhana

Pengujian sistematis terhadap kualitas, keamanan, atau perilaku sistem AI.

Penjelasan tanpa jargon

Pengujian sistematis terhadap kualitas, keamanan, atau perilaku sistem AI. Biasanya istilah ini dipakai saat membuat test set, aturan data, validasi output, dan simulasi serangan.

Analogi

Seperti quality control, pagar pengaman, dan uji tabrak sebelum produk dipakai. Eval kurang lebih bekerja di bagian yang mengatur alurnya.

Contoh penggunaan

Contoh paling gampang: Eval dipakai saat membuat test set, aturan data, validasi output, dan simulasi serangan.

Kenapa penting

Kalau paham Eval, kamu mencegah output meyakinkan tetapi salah, berbahaya, atau membocorkan data.

Istilah terkait

  • Benchmark
  • Test Set
  • Output Validation

Kesalahan pemula

Yang sering membuat keliru: mengandalkan satu filter dan menganggap sistem sudah aman. Eval juga beda dengan Benchmark.