Evaluasi output AI dan quality assurance
Bukan cuma definisi. Kita lihat cara evaluasi output ai dan quality assurance terpakai dalam pekerjaan nyata.
- Paham qA rubric
- Paham ground truth
- Paham human review
Sebelum mulai
- Baca ringkasan modul dan siapkan satu contoh pekerjaan nyata.
- Selesaikan modul sebelumnya atau pahami konsep dasarnya dulu.
Yang perlu kamu tangkap
01QA rubric
QA rubric perlu dipahami sebagai bagian dari data classification. AI output harus punya QA process. Untuk tulisan: cek akurasi, struktur, tone, kejelasan, dan originalitas. Untuk RAG: cek apakah sumber yang diambil relevan dan jawaban setia pada sumber. Untuk agent: cek apakah langkah benar, tool call tepat, dan action aman.
Kenapa penting: Ini penting karena lesson M11.L03 bukan cuma mengejar istilah. Kamu perlu tahu kapan qa rubric membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Untuk chatbot course, siapkan 30 pertanyaan umum. Cek apakah jawaban menyarankan lesson yang benar, tidak mengarang materi, dan memberi link/source yang sesuai.
Kesalahan pemula: Kesalahan umum: menganggap qa rubric otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
02Ground truth
Ground truth perlu dipahami sebagai bagian dari prompt injection. Ground truth adalah jawaban atau data acuan. Untuk task tertentu, kumpulkan contoh pertanyaan dan jawaban benar. Jalankan model berkali-kali setelah perubahan prompt, model, atau knowledge base. Ini disebut regression testing sederhana.
Kenapa penting: Ini penting karena lesson M11.L03 bukan cuma mengejar istilah. Kamu perlu tahu kapan ground truth membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Untuk chatbot course, siapkan 30 pertanyaan umum. Cek apakah jawaban menyarankan lesson yang benar, tidak mengarang materi, dan memberi link/source yang sesuai.
Kesalahan pemula: Kesalahan umum: menganggap ground truth otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
03Human review
Human review perlu dipahami sebagai bagian dari least privilege. Evaluasi tidak hanya soal benar/salah. Kadang output benar tapi tidak berguna. Ukur juga usefulness: apakah user bisa mengambil tindakan dari output? apakah formatnya praktis? apakah butuh banyak edit?
Kenapa penting: Ini penting karena lesson M11.L03 bukan cuma mengejar istilah. Kamu perlu tahu kapan human review membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Untuk chatbot course, siapkan 30 pertanyaan umum. Cek apakah jawaban menyarankan lesson yang benar, tidak mengarang materi, dan memberi link/source yang sesuai.
Kesalahan pemula: Kesalahan umum: menganggap human review otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
04Automated evaluation
Automated evaluation perlu dipahami sebagai bagian dari output validation dan audit log. AI output harus punya QA process. Untuk tulisan: cek akurasi, struktur, tone, kejelasan, dan originalitas. Untuk RAG: cek apakah sumber yang diambil relevan dan jawaban setia pada sumber. Untuk agent: cek apakah langkah benar, tool call tepat, dan action aman.
Kenapa penting: Ini penting karena lesson M11.L03 bukan cuma mengejar istilah. Kamu perlu tahu kapan automated evaluation membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Untuk chatbot course, siapkan 30 pertanyaan umum. Cek apakah jawaban menyarankan lesson yang benar, tidak mengarang materi, dan memberi link/source yang sesuai.
Kesalahan pemula: Kesalahan umum: menganggap automated evaluation otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
05Regression test
Regression test perlu dipahami sebagai bagian dari Regression test. Ground truth adalah jawaban atau data acuan. Untuk task tertentu, kumpulkan contoh pertanyaan dan jawaban benar. Jalankan model berkali-kali setelah perubahan prompt, model, atau knowledge base. Ini disebut regression testing sederhana.
Kenapa penting: Ini penting karena lesson M11.L03 bukan cuma mengejar istilah. Kamu perlu tahu kapan regression test membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Untuk chatbot course, siapkan 30 pertanyaan umum. Cek apakah jawaban menyarankan lesson yang benar, tidak mengarang materi, dan memberi link/source yang sesuai.
Kesalahan pemula: Kesalahan umum: menganggap regression test otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
06Accuracy vs usefulness
Accuracy vs usefulness perlu dipahami sebagai bagian dari Accuracy vs usefulness. Evaluasi tidak hanya soal benar/salah. Kadang output benar tapi tidak berguna. Ukur juga usefulness: apakah user bisa mengambil tindakan dari output? apakah formatnya praktis? apakah butuh banyak edit?
Kenapa penting: Ini penting karena lesson M11.L03 bukan cuma mengejar istilah. Kamu perlu tahu kapan accuracy vs usefulness membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Untuk chatbot course, siapkan 30 pertanyaan umum. Cek apakah jawaban menyarankan lesson yang benar, tidak mengarang materi, dan memberi link/source yang sesuai.
Kesalahan pemula: Kesalahan umum: menganggap accuracy vs usefulness otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
Oke, sekarang kita bongkar
AI output harus punya QA process. Untuk tulisan: cek akurasi, struktur, tone, kejelasan, dan originalitas. Untuk RAG: cek apakah sumber yang diambil relevan dan jawaban setia pada sumber. Untuk agent: cek apakah langkah benar, tool call tepat, dan action aman.
Ground truth adalah jawaban atau data acuan. Untuk task tertentu, kumpulkan contoh pertanyaan dan jawaban benar. Jalankan model berkali-kali setelah perubahan prompt, model, atau knowledge base. Ini disebut regression testing sederhana.
Evaluasi tidak hanya soal benar/salah. Kadang output benar tapi tidak berguna. Ukur juga usefulness: apakah user bisa mengambil tindakan dari output? apakah formatnya praktis? apakah butuh banyak edit?
Contoh biar kebayang
Coba praktik
- Buat 10 test case untuk satu use case AI.
- Tulis expected answer.
- Jalankan AI dan skor hasilnya.
Prompt yang bisa kamu coba
Beneran paham, atau cuma terasa familiar?
Jawab pakai bahasamu sendiri. Kalau masih muter-muter, bagian atasnya perlu dibaca sekali lagi.
- 1
Apa itu ground truth?
- 2
Kenapa regression test penting?
- 3
Apa beda accuracy dan usefulness?
Bikin sesuatu dari lesson ini
Catatan dan batasan
- QA rubric bisa dipakai untuk grading assignment user.
- Checklist tambahan: data classification.
- Checklist tambahan: prompt injection.
- Checklist tambahan: least privilege.
- Checklist tambahan: output validation dan audit log.