M03.L04 · Pemula · 25-35 menit

Prompt evaluation dan debugging

Di sini kamu akan memahami prompt evaluation dan debugging tanpa harus hafal jargon dulu.

KALAU LESSON INI BERES4/4

Paham output evaluation
Paham failure mode
Paham rubric

Sebelum mulai

Baca ringkasan modul dan siapkan satu contoh pekerjaan nyata.
Tidak perlu pengalaman teknis.

Target belajar: Setelah lesson ini, kamu bisa menjelaskan prompt evaluation dan debugging, menerapkannya pada contoh Indonesia yang sederhana, dan tahu bagian mana yang harus dicek manusia.

Yang perlu kamu tangkap

01Output evaluation

Output evaluation perlu dipahami sebagai bagian dari prompt debugging loop. Prompt tidak selalu langsung berhasil. Skill pentingnya bukan membuat prompt sempurna sekali jalan, tapi tau cara mengevaluasi dan memperbaiki. Ketika output jelek, cari penyebab: task tidak jelas, konteks kurang, format tidak spesifik, contoh tidak ada, constraint bertabrakan, atau model yang dipakai tidak cocok.

Kenapa penting: Ini penting karena lesson M03.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan output evaluation membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Contoh: Jika AI membuat artikel terlalu generik, prompt mungkin kurang audience dan contoh. Jika AI terlalu panjang, format dan batasan kurang jelas. Jika AI salah fakta, prompt perlu meminta verifikasi sumber atau membatasi jawaban pada dokumen yang diberikan.

Kesalahan pemula: Kesalahan umum: menganggap output evaluation otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

02Failure mode

Failure mode perlu dipahami sebagai bagian dari rubric evaluasi output. Gunakan rubric untuk menilai output. Misalnya untuk artikel: akurasi, struktur, kedalaman, tone, contoh, actionable value, dan kebutuhan editing. Untuk customer support: akurasi kebijakan, empati, kejelasan, dan escalation. Untuk coding: correctness, security, maintainability, dan test coverage.

Kenapa penting: Ini penting karena lesson M03.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan failure mode membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Kesalahan pemula: Kesalahan umum: menganggap failure mode otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

03Rubric

Rubric perlu dipahami sebagai bagian dari structured output dan schema. Simpan prompt yang berhasil sebagai template. Simpan juga contoh output yang bagus sebagai golden examples. Ini membuat workflow lebih konsisten.

Kenapa penting: Ini penting karena lesson M03.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan rubric membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Kesalahan pemula: Kesalahan umum: menganggap rubric otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

04Iteration

Iteration perlu dipahami sebagai bagian dari prompt versioning. Prompt tidak selalu langsung berhasil. Skill pentingnya bukan membuat prompt sempurna sekali jalan, tapi tau cara mengevaluasi dan memperbaiki. Ketika output jelek, cari penyebab: task tidak jelas, konteks kurang, format tidak spesifik, contoh tidak ada, constraint bertabrakan, atau model yang dipakai tidak cocok.

Kenapa penting: Ini penting karena lesson M03.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan iteration membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Kesalahan pemula: Kesalahan umum: menganggap iteration otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

05A/B prompt testing

A/B prompt testing perlu dipahami sebagai bagian dari A/B prompt testing. Gunakan rubric untuk menilai output. Misalnya untuk artikel: akurasi, struktur, kedalaman, tone, contoh, actionable value, dan kebutuhan editing. Untuk customer support: akurasi kebijakan, empati, kejelasan, dan escalation. Untuk coding: correctness, security, maintainability, dan test coverage.

Kenapa penting: Ini penting karena lesson M03.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan a/b prompt testing membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Kesalahan pemula: Kesalahan umum: menganggap a/b prompt testing otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

06Golden examples

Golden examples perlu dipahami sebagai bagian dari Golden examples. Simpan prompt yang berhasil sebagai template. Simpan juga contoh output yang bagus sebagai golden examples. Ini membuat workflow lebih konsisten.

Kenapa penting: Ini penting karena lesson M03.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan golden examples membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Kesalahan pemula: Kesalahan umum: menganggap golden examples otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

Oke, sekarang kita bongkar

Prompt tidak selalu langsung berhasil. Skill pentingnya bukan membuat prompt sempurna sekali jalan, tapi tau cara mengevaluasi dan memperbaiki. Ketika output jelek, cari penyebab: task tidak jelas, konteks kurang, format tidak spesifik, contoh tidak ada, constraint bertabrakan, atau model yang dipakai tidak cocok.

Gunakan rubric untuk menilai output. Misalnya untuk artikel: akurasi, struktur, kedalaman, tone, contoh, actionable value, dan kebutuhan editing. Untuk customer support: akurasi kebijakan, empati, kejelasan, dan escalation. Untuk coding: correctness, security, maintainability, dan test coverage.

Simpan prompt yang berhasil sebagai template. Simpan juga contoh output yang bagus sebagai golden examples. Ini membuat workflow lebih konsisten.

Contoh biar kebayang

Jika AI membuat artikel terlalu generik, prompt mungkin kurang audience dan contoh. Jika AI terlalu panjang, format dan batasan kurang jelas. Jika AI salah fakta, prompt perlu meminta verifikasi sumber atau membatasi jawaban pada dokumen yang diberikan.

Coba praktik

Jalankan satu prompt.
Nilai output memakai rubric 1-5.
Identifikasi 3 failure mode.
Rewrite prompt dan jalankan ulang.

Prompt yang bisa kamu coba

Audit output AI berikut berdasarkan rubric. Rubric: akurasi, relevansi, struktur, tone, detail, actionable value. Output: [tempel output]. Berikan skor 1-5, masalah utama, penyebab kemungkinan, dan versi prompt yang lebih baik.

Beneran paham, atau cuma terasa familiar?

Jawab pakai bahasamu sendiri. Kalau masih muter-muter, bagian atasnya perlu dibaca sekali lagi.

1
Apa itu failure mode?
2
Kenapa rubric penting?
3
Apa fungsi golden examples?

Bikin sesuatu dari lesson ini

Buat prompt evaluation sheet untuk satu use case yang ingin kamu jual sebagai service.

Catatan dan batasan

Buat fitur “Prompt Debugger”: user tempel prompt + output, lalu sistem memberi audit dan saran.
Checklist tambahan: prompt debugging loop.
Checklist tambahan: rubric evaluasi output.
Checklist tambahan: structured output dan schema.
Checklist tambahan: prompt versioning.

Langkah berikutnya

Simpan hasil latihan, cek kembali dengan rubric sederhana, lalu lanjut ke lesson berikutnya saat output sudah bisa dijelaskan ulang.

vector database ai agent api webhook

Lanjut ke AI buat Kerja Sehari-hari