Kembali
Safety & Evaluation · Menengah
Benchmark
Kumpulan tugas standar untuk membandingkan performa model atau sistem.
Definisi sederhana
Kumpulan tugas standar untuk membandingkan performa model atau sistem.
Penjelasan tanpa jargon
Kumpulan tugas standar untuk membandingkan performa model atau sistem. Biasanya istilah ini dipakai saat membuat test set, aturan data, validasi output, dan simulasi serangan.
Analogi
Seperti quality control, pagar pengaman, dan uji tabrak sebelum produk dipakai. Benchmark kurang lebih bekerja di bagian yang memroses informasinya.
Contoh penggunaan
Contoh paling gampang: Benchmark dipakai saat membuat test set, aturan data, validasi output, dan simulasi serangan.
Kenapa penting
Kalau paham Benchmark, kamu mencegah output meyakinkan tetapi salah, berbahaya, atau membocorkan data.
Istilah terkait
- Eval
- Dataset
- Model
Kesalahan pemula
Yang sering membuat keliru: mengandalkan satu filter dan menganggap sistem sudah aman. Benchmark juga beda dengan Eval.