Safety, Privacy & Eval

M11.L03 · Menengah · 35-45 menit

Evaluasi output AI dan quality assurance

Bukan cuma definisi. Kita lihat cara evaluasi output ai dan quality assurance terpakai dalam pekerjaan nyata.

KALAU LESSON INI BERES3/3

Paham qA rubric
Paham ground truth
Paham human review

Sebelum mulai

Baca ringkasan modul dan siapkan satu contoh pekerjaan nyata.
Selesaikan modul sebelumnya atau pahami konsep dasarnya dulu.

Target belajar: Setelah lesson ini, kamu bisa menjelaskan evaluasi output ai dan quality assurance, menerapkannya pada contoh Indonesia yang sederhana, dan tahu bagian mana yang harus dicek manusia.

Yang perlu kamu tangkap

01QA rubric

QA rubric perlu dipahami sebagai bagian dari data classification. AI output harus punya QA process. Untuk tulisan: cek akurasi, struktur, tone, kejelasan, dan originalitas. Untuk RAG: cek apakah sumber yang diambil relevan dan jawaban setia pada sumber. Untuk agent: cek apakah langkah benar, tool call tepat, dan action aman.

Kenapa penting: Ini penting karena lesson M11.L03 bukan cuma mengejar istilah. Kamu perlu tahu kapan qa rubric membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Contoh: Untuk chatbot course, siapkan 30 pertanyaan umum. Cek apakah jawaban menyarankan lesson yang benar, tidak mengarang materi, dan memberi link/source yang sesuai.

Kesalahan pemula: Kesalahan umum: menganggap qa rubric otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

02Ground truth

Ground truth perlu dipahami sebagai bagian dari prompt injection. Ground truth adalah jawaban atau data acuan. Untuk task tertentu, kumpulkan contoh pertanyaan dan jawaban benar. Jalankan model berkali-kali setelah perubahan prompt, model, atau knowledge base. Ini disebut regression testing sederhana.

Kenapa penting: Ini penting karena lesson M11.L03 bukan cuma mengejar istilah. Kamu perlu tahu kapan ground truth membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Contoh: Untuk chatbot course, siapkan 30 pertanyaan umum. Cek apakah jawaban menyarankan lesson yang benar, tidak mengarang materi, dan memberi link/source yang sesuai.

Kesalahan pemula: Kesalahan umum: menganggap ground truth otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

03Human review

Human review perlu dipahami sebagai bagian dari least privilege. Evaluasi tidak hanya soal benar/salah. Kadang output benar tapi tidak berguna. Ukur juga usefulness: apakah user bisa mengambil tindakan dari output? apakah formatnya praktis? apakah butuh banyak edit?

Kenapa penting: Ini penting karena lesson M11.L03 bukan cuma mengejar istilah. Kamu perlu tahu kapan human review membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Contoh: Untuk chatbot course, siapkan 30 pertanyaan umum. Cek apakah jawaban menyarankan lesson yang benar, tidak mengarang materi, dan memberi link/source yang sesuai.

Kesalahan pemula: Kesalahan umum: menganggap human review otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

04Automated evaluation

Automated evaluation perlu dipahami sebagai bagian dari output validation dan audit log. AI output harus punya QA process. Untuk tulisan: cek akurasi, struktur, tone, kejelasan, dan originalitas. Untuk RAG: cek apakah sumber yang diambil relevan dan jawaban setia pada sumber. Untuk agent: cek apakah langkah benar, tool call tepat, dan action aman.

Kenapa penting: Ini penting karena lesson M11.L03 bukan cuma mengejar istilah. Kamu perlu tahu kapan automated evaluation membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Contoh: Untuk chatbot course, siapkan 30 pertanyaan umum. Cek apakah jawaban menyarankan lesson yang benar, tidak mengarang materi, dan memberi link/source yang sesuai.

Kesalahan pemula: Kesalahan umum: menganggap automated evaluation otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

05Regression test

Regression test perlu dipahami sebagai bagian dari Regression test. Ground truth adalah jawaban atau data acuan. Untuk task tertentu, kumpulkan contoh pertanyaan dan jawaban benar. Jalankan model berkali-kali setelah perubahan prompt, model, atau knowledge base. Ini disebut regression testing sederhana.

Kenapa penting: Ini penting karena lesson M11.L03 bukan cuma mengejar istilah. Kamu perlu tahu kapan regression test membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Contoh: Untuk chatbot course, siapkan 30 pertanyaan umum. Cek apakah jawaban menyarankan lesson yang benar, tidak mengarang materi, dan memberi link/source yang sesuai.

Kesalahan pemula: Kesalahan umum: menganggap regression test otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

06Accuracy vs usefulness

Accuracy vs usefulness perlu dipahami sebagai bagian dari Accuracy vs usefulness. Evaluasi tidak hanya soal benar/salah. Kadang output benar tapi tidak berguna. Ukur juga usefulness: apakah user bisa mengambil tindakan dari output? apakah formatnya praktis? apakah butuh banyak edit?

Kenapa penting: Ini penting karena lesson M11.L03 bukan cuma mengejar istilah. Kamu perlu tahu kapan accuracy vs usefulness membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Contoh: Untuk chatbot course, siapkan 30 pertanyaan umum. Cek apakah jawaban menyarankan lesson yang benar, tidak mengarang materi, dan memberi link/source yang sesuai.

Kesalahan pemula: Kesalahan umum: menganggap accuracy vs usefulness otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

Oke, sekarang kita bongkar

AI output harus punya QA process. Untuk tulisan: cek akurasi, struktur, tone, kejelasan, dan originalitas. Untuk RAG: cek apakah sumber yang diambil relevan dan jawaban setia pada sumber. Untuk agent: cek apakah langkah benar, tool call tepat, dan action aman.

Ground truth adalah jawaban atau data acuan. Untuk task tertentu, kumpulkan contoh pertanyaan dan jawaban benar. Jalankan model berkali-kali setelah perubahan prompt, model, atau knowledge base. Ini disebut regression testing sederhana.

Evaluasi tidak hanya soal benar/salah. Kadang output benar tapi tidak berguna. Ukur juga usefulness: apakah user bisa mengambil tindakan dari output? apakah formatnya praktis? apakah butuh banyak edit?

Contoh biar kebayang

Untuk chatbot course, siapkan 30 pertanyaan umum. Cek apakah jawaban menyarankan lesson yang benar, tidak mengarang materi, dan memberi link/source yang sesuai.

Coba praktik

Buat 10 test case untuk satu use case AI.
Tulis expected answer.
Jalankan AI dan skor hasilnya.

Prompt yang bisa kamu coba

Buat QA rubric untuk output AI berikut: [jenis output]. Rubric harus mencakup akurasi, relevansi, struktur, tone, risiko, usefulness, dan kebutuhan edit. Buat skala 1-5 dan contoh skor.

Beneran paham, atau cuma terasa familiar?

Jawab pakai bahasamu sendiri. Kalau masih muter-muter, bagian atasnya perlu dibaca sekali lagi.

1
Apa itu ground truth?
2
Kenapa regression test penting?
3
Apa beda accuracy dan usefulness?

Bikin sesuatu dari lesson ini

Buat evaluation pack untuk satu AI workflow: 10 test case, expected output, rubric, dan pass/fail criteria.

Catatan dan batasan

QA rubric bisa dipakai untuk grading assignment user.
Checklist tambahan: data classification.
Checklist tambahan: prompt injection.
Checklist tambahan: least privilege.
Checklist tambahan: output validation dan audit log.

Langkah berikutnya

Simpan hasil latihan, cek kembali dengan rubric sederhana, lalu lanjut ke lesson berikutnya saat output sudah bisa dijelaskan ulang.

context window hallucination prompt rag

Lanjut ke Monetize Skill AI Tanpa Jual Mimpi