RAG & Knowledge Base
M09.L02 · Lanjutan · 45-60 menit

Mendesain knowledge base yang bisa dibaca AI

Bukan cuma definisi. Kita lihat cara mendesain knowledge base yang bisa dibaca ai terpakai dalam pekerjaan nyata.

KALAU LESSON INI BERES2/2
  • Paham document hygiene
  • Paham metadata
  • Paham chunk quality

Sebelum mulai

  • Baca ringkasan modul dan siapkan satu contoh pekerjaan nyata.
  • Selesaikan modul sebelumnya atau pahami konsep dasarnya dulu.
Target belajar: Setelah lesson ini, kamu bisa menjelaskan mendesain knowledge base yang bisa dibaca ai, menerapkannya pada contoh Indonesia yang sederhana, dan tahu bagian mana yang harus dicek manusia.

Yang perlu kamu tangkap

01Document hygiene

Document hygiene perlu dipahami sebagai bagian dari chunking dan metadata. RAG yang buruk sering bukan karena modelnya lemah, tapi karena knowledge base berantakan. Dokumen duplikat, versi lama, judul tidak jelas, tabel rusak, dan metadata kosong membuat retrieval gagal. Karena itu, sebelum bikin chatbot, rapikan dokumen.

Kenapa penting: Ini penting karena lesson M09.L02 bukan cuma mengejar istilah. Kamu perlu tahu kapan document hygiene membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Contoh: Jika ada tiga policy refund dengan tanggal berbeda, chatbot bisa salah jika metadata tidak jelas. Tandai versi aktif dan archive versi lama.

Kesalahan pemula: Kesalahan umum: menganggap document hygiene otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

02Metadata

Metadata perlu dipahami sebagai bagian dari embeddings. Setiap dokumen sebaiknya punya metadata: title, topic, audience, version, date, owner, permission, source URL, dan status. Untuk course, metadata bisa berupa module, lesson, level, persona, skill, dan related project.

Kenapa penting: Ini penting karena lesson M09.L02 bukan cuma mengejar istilah. Kamu perlu tahu kapan metadata membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Contoh: Jika ada tiga policy refund dengan tanggal berbeda, chatbot bisa salah jika metadata tidak jelas. Tandai versi aktif dan archive versi lama.

Kesalahan pemula: Kesalahan umum: menganggap metadata otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

03Chunk quality

Chunk quality perlu dipahami sebagai bagian dari vector dan hybrid search. Evaluation penting: uji apakah sistem mengambil chunk yang benar, menjawab dengan akurat, menolak saat tidak ada data, dan memberi sumber. Jangan hanya menilai jawaban enak dibaca.

Kenapa penting: Ini penting karena lesson M09.L02 bukan cuma mengejar istilah. Kamu perlu tahu kapan chunk quality membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Contoh: Jika ada tiga policy refund dengan tanggal berbeda, chatbot bisa salah jika metadata tidak jelas. Tandai versi aktif dan archive versi lama.

Kesalahan pemula: Kesalahan umum: menganggap chunk quality otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

04Source freshness

Source freshness perlu dipahami sebagai bagian dari reranking dan RAG evaluation. RAG yang buruk sering bukan karena modelnya lemah, tapi karena knowledge base berantakan. Dokumen duplikat, versi lama, judul tidak jelas, tabel rusak, dan metadata kosong membuat retrieval gagal. Karena itu, sebelum bikin chatbot, rapikan dokumen.

Kenapa penting: Ini penting karena lesson M09.L02 bukan cuma mengejar istilah. Kamu perlu tahu kapan source freshness membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Contoh: Jika ada tiga policy refund dengan tanggal berbeda, chatbot bisa salah jika metadata tidak jelas. Tandai versi aktif dan archive versi lama.

Kesalahan pemula: Kesalahan umum: menganggap source freshness otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

05Access control

Access control perlu dipahami sebagai bagian dari Access control. Setiap dokumen sebaiknya punya metadata: title, topic, audience, version, date, owner, permission, source URL, dan status. Untuk course, metadata bisa berupa module, lesson, level, persona, skill, dan related project.

Kenapa penting: Ini penting karena lesson M09.L02 bukan cuma mengejar istilah. Kamu perlu tahu kapan access control membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Contoh: Jika ada tiga policy refund dengan tanggal berbeda, chatbot bisa salah jika metadata tidak jelas. Tandai versi aktif dan archive versi lama.

Kesalahan pemula: Kesalahan umum: menganggap access control otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

06Evaluation

Evaluation perlu dipahami sebagai bagian dari Evaluation. Evaluation penting: uji apakah sistem mengambil chunk yang benar, menjawab dengan akurat, menolak saat tidak ada data, dan memberi sumber. Jangan hanya menilai jawaban enak dibaca.

Kenapa penting: Ini penting karena lesson M09.L02 bukan cuma mengejar istilah. Kamu perlu tahu kapan evaluation membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.

Contoh: Jika ada tiga policy refund dengan tanggal berbeda, chatbot bisa salah jika metadata tidak jelas. Tandai versi aktif dan archive versi lama.

Kesalahan pemula: Kesalahan umum: menganggap evaluation otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.

Oke, sekarang kita bongkar

RAG yang buruk sering bukan karena modelnya lemah, tapi karena knowledge base berantakan. Dokumen duplikat, versi lama, judul tidak jelas, tabel rusak, dan metadata kosong membuat retrieval gagal. Karena itu, sebelum bikin chatbot, rapikan dokumen.

Setiap dokumen sebaiknya punya metadata: title, topic, audience, version, date, owner, permission, source URL, dan status. Untuk course, metadata bisa berupa module, lesson, level, persona, skill, dan related project.

Evaluation penting: uji apakah sistem mengambil chunk yang benar, menjawab dengan akurat, menolak saat tidak ada data, dan memberi sumber. Jangan hanya menilai jawaban enak dibaca.

Contoh biar kebayang

Jika ada tiga policy refund dengan tanggal berbeda, chatbot bisa salah jika metadata tidak jelas. Tandai versi aktif dan archive versi lama.

Coba praktik

  • Audit 10 dokumen.
  • Tandai mana yang duplikat, stale, tidak punya judul, atau perlu metadata.
  • Buat metadata schema.

Prompt yang bisa kamu coba

Audit knowledge base berikut untuk RAG. Daftar dokumen: [list]. Beri rekomendasi: metadata, struktur folder, naming convention, risiko duplikasi, dan prioritas perbaikan.

Beneran paham, atau cuma terasa familiar?

Jawab pakai bahasamu sendiri. Kalau masih muter-muter, bagian atasnya perlu dibaca sekali lagi.

  1. 1

    Kenapa knowledge base berantakan merusak RAG?

  2. 2

    Metadata apa yang wajib?

  3. 3

    Apa saja metrik evaluasi RAG sederhana?

Bikin sesuatu dari lesson ini

Buat metadata schema untuk semua materi course Nurai.

Catatan dan batasan

  • CMS lesson harus sudah siap untuk RAG: slug, module, level, summary, source, tags, updated_at.
  • Checklist tambahan: chunking dan metadata.
  • Checklist tambahan: embeddings.
  • Checklist tambahan: vector dan hybrid search.
  • Checklist tambahan: reranking dan RAG evaluation.

Langkah berikutnya

Simpan hasil latihan, cek kembali dengan rubric sederhana, lalu lanjut ke lesson berikutnya saat output sudah bisa dijelaskan ulang.
Lanjut ke AI Agent & Tool Calling