M10.L04 · Lanjutan · 45-60 menit

Evaluasi dan Monitoring Agent

Bukan cuma definisi. Kita lihat cara evaluasi dan monitoring agent terpakai dalam pekerjaan nyata.

KALAU LESSON INI BERES2/3

Paham agent evaluation metrics
Paham task completion rate
Paham token cost tracking

Sebelum mulai

Baca ringkasan modul dan siapkan satu contoh pekerjaan nyata.
Selesaikan modul sebelumnya atau pahami konsep dasarnya dulu.

Target belajar: Setelah lesson ini, kamu bisa menjelaskan evaluasi dan monitoring agent, menerapkannya pada contoh Indonesia yang sederhana, dan tahu bagian mana yang harus dicek manusia.

Yang perlu kamu tangkap

01Agent evaluation metrics

Agent evaluation metrics perlu dipahami sebagai bagian dari agent anatomy. Agent yang sudah dibangun perlu dievaluasi secara berkala. Tanpa evaluasi, kita tidak tau apakah agent benar-benar membantu atau justru menambah pekerjaan. Evaluasi bukan sekadar 'bisa jalan', tapi seberapa baik, seberapa cepat, dan seberapa murah.

Kenapa penting: Ini penting karena lesson M10.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan agent evaluation metrics membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Contoh: Contoh eval: Research agent menghasilkan 10 laporan. Dari 10, 7 akurat (70% completion rate). Biaya rata-rata $0.15 per laporan. Rata-rata waktu 45 detik. 3 laporan punya error: 1 timeout, 1 source tidak ditemukan, 1 output format salah.改进: tambah retry untuk timeout, perluas source coverage, perketat output format prompt.

Kesalahan pemula: Kesalahan umum: menganggap agent evaluation metrics otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

02Task completion rate

Task completion rate perlu dipahami sebagai bagian dari goals, tools, memory, dan state. Metrik utama: Task completion rate (berapa persen task selesai tanpa intervensi manusia), Token cost (berapa biaya LLM per task), Latency (berapa lama dari input sampai output final), dan Quality score (seberapa akurat dan berguna output-nya).

Kenapa penting: Ini penting karena lesson M10.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan task completion rate membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Kesalahan pemula: Kesalahan umum: menganggap task completion rate otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

03Token cost tracking

Token cost tracking perlu dipahami sebagai bagian dari permissions dan stopping conditions. Observability adalah kemampuan melihat apa yang terjadi di dalam agent. Setiap step, decision, tool call, dan error harus dicatat. Ini penting untuk debugging ketika agent gagal, dan untuk mengidentifikasi pola yang bisa dioptimasi.

Kenapa penting: Ini penting karena lesson M10.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan token cost tracking membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Kesalahan pemula: Kesalahan umum: menganggap token cost tracking otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

04Latency measurement

Latency measurement perlu dipahami sebagai bagian dari cost budget. A/B testing agent melibatkan menjalankan dua versi agent dengan task yang sama, lalu membandingkan hasilnya. Ini membantu menentukan apakah perubahan prompt, tool, atau model benar-benar meningkatkan kualitas.

Kenapa penting: Ini penting karena lesson M10.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan latency measurement membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Kesalahan pemula: Kesalahan umum: menganggap latency measurement otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

05Quality scoring

Quality scoring perlu dipahami sebagai bagian dari Quality scoring. Agent yang sudah dibangun perlu dievaluasi secara berkala. Tanpa evaluasi, kita tidak tau apakah agent benar-benar membantu atau justru menambah pekerjaan. Evaluasi bukan sekadar 'bisa jalan', tapi seberapa baik, seberapa cepat, dan seberapa murah.

Kenapa penting: Ini penting karena lesson M10.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan quality scoring membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Kesalahan pemula: Kesalahan umum: menganggap quality scoring otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

06A/B testing agent

A/B testing agent perlu dipahami sebagai bagian dari A/B testing agent. Metrik utama: Task completion rate (berapa persen task selesai tanpa intervensi manusia), Token cost (berapa biaya LLM per task), Latency (berapa lama dari input sampai output final), dan Quality score (seberapa akurat dan berguna output-nya).

Kenapa penting: Ini penting karena lesson M10.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan a/b testing agent membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Kesalahan pemula: Kesalahan umum: menganggap a/b testing agent otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

07Logging dan observability

Logging dan observability perlu dipahami sebagai bagian dari Logging dan observability. Observability adalah kemampuan melihat apa yang terjadi di dalam agent. Setiap step, decision, tool call, dan error harus dicatat. Ini penting untuk debugging ketika agent gagal, dan untuk mengidentifikasi pola yang bisa dioptimasi.

Kenapa penting: Ini penting karena lesson M10.L04 bukan cuma mengejar istilah. Kamu perlu tahu kapan logging dan observability membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Kesalahan pemula: Kesalahan umum: menganggap logging dan observability otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

Oke, sekarang kita bongkar

Agent yang sudah dibangun perlu dievaluasi secara berkala. Tanpa evaluasi, kita tidak tau apakah agent benar-benar membantu atau justru menambah pekerjaan. Evaluasi bukan sekadar 'bisa jalan', tapi seberapa baik, seberapa cepat, dan seberapa murah.

Metrik utama: Task completion rate (berapa persen task selesai tanpa intervensi manusia), Token cost (berapa biaya LLM per task), Latency (berapa lama dari input sampai output final), dan Quality score (seberapa akurat dan berguna output-nya).

Observability adalah kemampuan melihat apa yang terjadi di dalam agent. Setiap step, decision, tool call, dan error harus dicatat. Ini penting untuk debugging ketika agent gagal, dan untuk mengidentifikasi pola yang bisa dioptimasi.

A/B testing agent melibatkan menjalankan dua versi agent dengan task yang sama, lalu membandingkan hasilnya. Ini membantu menentukan apakah perubahan prompt, tool, atau model benar-benar meningkatkan kualitas.

Contoh biar kebayang

Contoh eval: Research agent menghasilkan 10 laporan. Dari 10, 7 akurat (70% completion rate). Biaya rata-rata $0.15 per laporan. Rata-rata waktu 45 detik. 3 laporan punya error: 1 timeout, 1 source tidak ditemukan, 1 output format salah.改进: tambah retry untuk timeout, perluas source coverage, perketat output format prompt.

Coba praktik

Jalankan agent dengan 10 task berbeda.
Catat: completion, cost, latency, error type.
Hitung metrik utama.
Identifikasi 3 perbaikan prioritas.
Implementasi perbaikan dan jalankan ulang.

Prompt yang bisa kamu coba

Saya punya agent [NAMA AGENT]. Saya ingin mengevaluasi performanya. Task yang dijalankan: [CONTOH TASK]. Bantu saya buat: 1) Evaluation rubric, 2) Metrik yang perlu diukur, 3) Test cases, 4) Cara scoring, 5) Threshold untuk pass/fail.

Beneran paham, atau cuma terasa familiar?

Jawab pakai bahasamu sendiri. Kalau masih muter-muter, bagian atasnya perlu dibaca sekali lagi.

1
Apa metrik paling penting untuk menilai agent?
2
Kapan agent dianggap 'cukup bagus' untuk production?
3
Apa beda latency dan throughput dalam konteks agent?

Bikin sesuatu dari lesson ini

Buat evaluation framework untuk agent yang sudah ada. Tentukan minimal 4 metrik, 10 test cases, scoring rubric, dan threshold. Jalankan eval dan tulis laporan hasilnya.

Catatan dan batasan

Mulai dari metrik paling sederhana: completion rate dan cost.
Gunakan LangSmith, Langfuse, atau tracing built-in untuk observability.
Checklist tambahan: agent anatomy.
Checklist tambahan: goals, tools, memory, dan state.
Checklist tambahan: permissions dan stopping conditions.
Checklist tambahan: cost budget.

Langkah berikutnya

Simpan hasil latihan, cek kembali dengan rubric sederhana, lalu lanjut ke lesson berikutnya saat output sudah bisa dijelaskan ulang.

machine learning generative ai llm token

Agent di Production: Safety dan Deployment