Evaluasi dan Monitoring Agent
Bukan cuma definisi. Kita lihat cara evaluasi dan monitoring agent terpakai dalam pekerjaan nyata.
- Paham agent evaluation metrics
- Paham task completion rate
- Paham token cost tracking
Sebelum mulai
- Baca ringkasan modul dan siapkan satu contoh pekerjaan nyata.
- Selesaikan modul sebelumnya atau pahami konsep dasarnya dulu.
Yang perlu kamu tangkap
01Agent evaluation metrics
Agent evaluation metrics perlu dipahami sebagai bagian dari agent anatomy. Agent yang sudah dibangun perlu dievaluasi secara berkala. Tanpa evaluasi, kita tidak tau apakah agent benar-benar membantu atau justru menambah pekerjaan. Evaluasi bukan sekadar 'bisa jalan', tapi seberapa baik, seberapa cepat, dan seberapa murah.
Kenapa penting: Ini penting karena lesson M10.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan agent evaluation metrics membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Contoh eval: Research agent menghasilkan 10 laporan. Dari 10, 7 akurat (70% completion rate). Biaya rata-rata $0.15 per laporan. Rata-rata waktu 45 detik. 3 laporan punya error: 1 timeout, 1 source tidak ditemukan, 1 output format salah.改进: tambah retry untuk timeout, perluas source coverage, perketat output format prompt.
Kesalahan pemula: Kesalahan umum: menganggap agent evaluation metrics otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
02Task completion rate
Task completion rate perlu dipahami sebagai bagian dari goals, tools, memory, dan state. Metrik utama: Task completion rate (berapa persen task selesai tanpa intervensi manusia), Token cost (berapa biaya LLM per task), Latency (berapa lama dari input sampai output final), dan Quality score (seberapa akurat dan berguna output-nya).
Kenapa penting: Ini penting karena lesson M10.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan task completion rate membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Contoh eval: Research agent menghasilkan 10 laporan. Dari 10, 7 akurat (70% completion rate). Biaya rata-rata $0.15 per laporan. Rata-rata waktu 45 detik. 3 laporan punya error: 1 timeout, 1 source tidak ditemukan, 1 output format salah.改进: tambah retry untuk timeout, perluas source coverage, perketat output format prompt.
Kesalahan pemula: Kesalahan umum: menganggap task completion rate otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
03Token cost tracking
Token cost tracking perlu dipahami sebagai bagian dari permissions dan stopping conditions. Observability adalah kemampuan melihat apa yang terjadi di dalam agent. Setiap step, decision, tool call, dan error harus dicatat. Ini penting untuk debugging ketika agent gagal, dan untuk mengidentifikasi pola yang bisa dioptimasi.
Kenapa penting: Ini penting karena lesson M10.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan token cost tracking membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Contoh eval: Research agent menghasilkan 10 laporan. Dari 10, 7 akurat (70% completion rate). Biaya rata-rata $0.15 per laporan. Rata-rata waktu 45 detik. 3 laporan punya error: 1 timeout, 1 source tidak ditemukan, 1 output format salah.改进: tambah retry untuk timeout, perluas source coverage, perketat output format prompt.
Kesalahan pemula: Kesalahan umum: menganggap token cost tracking otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
04Latency measurement
Latency measurement perlu dipahami sebagai bagian dari cost budget. A/B testing agent melibatkan menjalankan dua versi agent dengan task yang sama, lalu membandingkan hasilnya. Ini membantu menentukan apakah perubahan prompt, tool, atau model benar-benar meningkatkan kualitas.
Kenapa penting: Ini penting karena lesson M10.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan latency measurement membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Contoh eval: Research agent menghasilkan 10 laporan. Dari 10, 7 akurat (70% completion rate). Biaya rata-rata $0.15 per laporan. Rata-rata waktu 45 detik. 3 laporan punya error: 1 timeout, 1 source tidak ditemukan, 1 output format salah.改进: tambah retry untuk timeout, perluas source coverage, perketat output format prompt.
Kesalahan pemula: Kesalahan umum: menganggap latency measurement otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
05Quality scoring
Quality scoring perlu dipahami sebagai bagian dari Quality scoring. Agent yang sudah dibangun perlu dievaluasi secara berkala. Tanpa evaluasi, kita tidak tau apakah agent benar-benar membantu atau justru menambah pekerjaan. Evaluasi bukan sekadar 'bisa jalan', tapi seberapa baik, seberapa cepat, dan seberapa murah.
Kenapa penting: Ini penting karena lesson M10.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan quality scoring membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Contoh eval: Research agent menghasilkan 10 laporan. Dari 10, 7 akurat (70% completion rate). Biaya rata-rata $0.15 per laporan. Rata-rata waktu 45 detik. 3 laporan punya error: 1 timeout, 1 source tidak ditemukan, 1 output format salah.改进: tambah retry untuk timeout, perluas source coverage, perketat output format prompt.
Kesalahan pemula: Kesalahan umum: menganggap quality scoring otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
06A/B testing agent
A/B testing agent perlu dipahami sebagai bagian dari A/B testing agent. Metrik utama: Task completion rate (berapa persen task selesai tanpa intervensi manusia), Token cost (berapa biaya LLM per task), Latency (berapa lama dari input sampai output final), dan Quality score (seberapa akurat dan berguna output-nya).
Kenapa penting: Ini penting karena lesson M10.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan a/b testing agent membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Contoh eval: Research agent menghasilkan 10 laporan. Dari 10, 7 akurat (70% completion rate). Biaya rata-rata $0.15 per laporan. Rata-rata waktu 45 detik. 3 laporan punya error: 1 timeout, 1 source tidak ditemukan, 1 output format salah.改进: tambah retry untuk timeout, perluas source coverage, perketat output format prompt.
Kesalahan pemula: Kesalahan umum: menganggap a/b testing agent otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
07Logging dan observability
Logging dan observability perlu dipahami sebagai bagian dari Logging dan observability. Observability adalah kemampuan melihat apa yang terjadi di dalam agent. Setiap step, decision, tool call, dan error harus dicatat. Ini penting untuk debugging ketika agent gagal, dan untuk mengidentifikasi pola yang bisa dioptimasi.
Kenapa penting: Ini penting karena lesson M10.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan logging dan observability membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Contoh eval: Research agent menghasilkan 10 laporan. Dari 10, 7 akurat (70% completion rate). Biaya rata-rata $0.15 per laporan. Rata-rata waktu 45 detik. 3 laporan punya error: 1 timeout, 1 source tidak ditemukan, 1 output format salah.改进: tambah retry untuk timeout, perluas source coverage, perketat output format prompt.
Kesalahan pemula: Kesalahan umum: menganggap logging dan observability otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
Oke, sekarang kita bongkar
Agent yang sudah dibangun perlu dievaluasi secara berkala. Tanpa evaluasi, kita tidak tau apakah agent benar-benar membantu atau justru menambah pekerjaan. Evaluasi bukan sekadar 'bisa jalan', tapi seberapa baik, seberapa cepat, dan seberapa murah.
Metrik utama: Task completion rate (berapa persen task selesai tanpa intervensi manusia), Token cost (berapa biaya LLM per task), Latency (berapa lama dari input sampai output final), dan Quality score (seberapa akurat dan berguna output-nya).
Observability adalah kemampuan melihat apa yang terjadi di dalam agent. Setiap step, decision, tool call, dan error harus dicatat. Ini penting untuk debugging ketika agent gagal, dan untuk mengidentifikasi pola yang bisa dioptimasi.
A/B testing agent melibatkan menjalankan dua versi agent dengan task yang sama, lalu membandingkan hasilnya. Ini membantu menentukan apakah perubahan prompt, tool, atau model benar-benar meningkatkan kualitas.
Contoh biar kebayang
Coba praktik
- Jalankan agent dengan 10 task berbeda.
- Catat: completion, cost, latency, error type.
- Hitung metrik utama.
- Identifikasi 3 perbaikan prioritas.
- Implementasi perbaikan dan jalankan ulang.
Prompt yang bisa kamu coba
Beneran paham, atau cuma terasa familiar?
Jawab pakai bahasamu sendiri. Kalau masih muter-muter, bagian atasnya perlu dibaca sekali lagi.
- 1
Apa metrik paling penting untuk menilai agent?
- 2
Kapan agent dianggap 'cukup bagus' untuk production?
- 3
Apa beda latency dan throughput dalam konteks agent?
Bikin sesuatu dari lesson ini
Catatan dan batasan
- Mulai dari metrik paling sederhana: completion rate dan cost.
- Gunakan LangSmith, Langfuse, atau tracing built-in untuk observability.
- Checklist tambahan: agent anatomy.
- Checklist tambahan: goals, tools, memory, dan state.
- Checklist tambahan: permissions dan stopping conditions.
- Checklist tambahan: cost budget.