Mendesain knowledge base yang bisa dibaca AI
Bukan cuma definisi. Kita lihat cara mendesain knowledge base yang bisa dibaca ai terpakai dalam pekerjaan nyata.
- Paham document hygiene
- Paham metadata
- Paham chunk quality
Sebelum mulai
- Baca ringkasan modul dan siapkan satu contoh pekerjaan nyata.
- Selesaikan modul sebelumnya atau pahami konsep dasarnya dulu.
Yang perlu kamu tangkap
01Document hygiene
Document hygiene perlu dipahami sebagai bagian dari chunking dan metadata. RAG yang buruk sering bukan karena modelnya lemah, tapi karena knowledge base berantakan. Dokumen duplikat, versi lama, judul tidak jelas, tabel rusak, dan metadata kosong membuat retrieval gagal. Karena itu, sebelum bikin chatbot, rapikan dokumen.
Kenapa penting: Ini penting karena lesson M09.L02 bukan cuma mengejar istilah. Kamu perlu tahu kapan document hygiene membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Jika ada tiga policy refund dengan tanggal berbeda, chatbot bisa salah jika metadata tidak jelas. Tandai versi aktif dan archive versi lama.
Kesalahan pemula: Kesalahan umum: menganggap document hygiene otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
02Metadata
Metadata perlu dipahami sebagai bagian dari embeddings. Setiap dokumen sebaiknya punya metadata: title, topic, audience, version, date, owner, permission, source URL, dan status. Untuk course, metadata bisa berupa module, lesson, level, persona, skill, dan related project.
Kenapa penting: Ini penting karena lesson M09.L02 bukan cuma mengejar istilah. Kamu perlu tahu kapan metadata membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Jika ada tiga policy refund dengan tanggal berbeda, chatbot bisa salah jika metadata tidak jelas. Tandai versi aktif dan archive versi lama.
Kesalahan pemula: Kesalahan umum: menganggap metadata otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
03Chunk quality
Chunk quality perlu dipahami sebagai bagian dari vector dan hybrid search. Evaluation penting: uji apakah sistem mengambil chunk yang benar, menjawab dengan akurat, menolak saat tidak ada data, dan memberi sumber. Jangan hanya menilai jawaban enak dibaca.
Kenapa penting: Ini penting karena lesson M09.L02 bukan cuma mengejar istilah. Kamu perlu tahu kapan chunk quality membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Jika ada tiga policy refund dengan tanggal berbeda, chatbot bisa salah jika metadata tidak jelas. Tandai versi aktif dan archive versi lama.
Kesalahan pemula: Kesalahan umum: menganggap chunk quality otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
04Source freshness
Source freshness perlu dipahami sebagai bagian dari reranking dan RAG evaluation. RAG yang buruk sering bukan karena modelnya lemah, tapi karena knowledge base berantakan. Dokumen duplikat, versi lama, judul tidak jelas, tabel rusak, dan metadata kosong membuat retrieval gagal. Karena itu, sebelum bikin chatbot, rapikan dokumen.
Kenapa penting: Ini penting karena lesson M09.L02 bukan cuma mengejar istilah. Kamu perlu tahu kapan source freshness membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Jika ada tiga policy refund dengan tanggal berbeda, chatbot bisa salah jika metadata tidak jelas. Tandai versi aktif dan archive versi lama.
Kesalahan pemula: Kesalahan umum: menganggap source freshness otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
05Access control
Access control perlu dipahami sebagai bagian dari Access control. Setiap dokumen sebaiknya punya metadata: title, topic, audience, version, date, owner, permission, source URL, dan status. Untuk course, metadata bisa berupa module, lesson, level, persona, skill, dan related project.
Kenapa penting: Ini penting karena lesson M09.L02 bukan cuma mengejar istilah. Kamu perlu tahu kapan access control membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Jika ada tiga policy refund dengan tanggal berbeda, chatbot bisa salah jika metadata tidak jelas. Tandai versi aktif dan archive versi lama.
Kesalahan pemula: Kesalahan umum: menganggap access control otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
06Evaluation
Evaluation perlu dipahami sebagai bagian dari Evaluation. Evaluation penting: uji apakah sistem mengambil chunk yang benar, menjawab dengan akurat, menolak saat tidak ada data, dan memberi sumber. Jangan hanya menilai jawaban enak dibaca.
Kenapa penting: Ini penting karena lesson M09.L02 bukan cuma mengejar istilah. Kamu perlu tahu kapan evaluation membantu kerja nyata, kapan harus diverifikasi, dan batas apa yang tetap perlu dijaga manusia.
Contoh: Jika ada tiga policy refund dengan tanggal berbeda, chatbot bisa salah jika metadata tidak jelas. Tandai versi aktif dan archive versi lama.
Kesalahan pemula: Kesalahan umum: menganggap evaluation otomatis membuat hasil benar tanpa contoh, sumber, atau checklist evaluasi.
Oke, sekarang kita bongkar
RAG yang buruk sering bukan karena modelnya lemah, tapi karena knowledge base berantakan. Dokumen duplikat, versi lama, judul tidak jelas, tabel rusak, dan metadata kosong membuat retrieval gagal. Karena itu, sebelum bikin chatbot, rapikan dokumen.
Setiap dokumen sebaiknya punya metadata: title, topic, audience, version, date, owner, permission, source URL, dan status. Untuk course, metadata bisa berupa module, lesson, level, persona, skill, dan related project.
Evaluation penting: uji apakah sistem mengambil chunk yang benar, menjawab dengan akurat, menolak saat tidak ada data, dan memberi sumber. Jangan hanya menilai jawaban enak dibaca.
Contoh biar kebayang
Coba praktik
- Audit 10 dokumen.
- Tandai mana yang duplikat, stale, tidak punya judul, atau perlu metadata.
- Buat metadata schema.
Prompt yang bisa kamu coba
Beneran paham, atau cuma terasa familiar?
Jawab pakai bahasamu sendiri. Kalau masih muter-muter, bagian atasnya perlu dibaca sekali lagi.
- 1
Kenapa knowledge base berantakan merusak RAG?
- 2
Metadata apa yang wajib?
- 3
Apa saja metrik evaluasi RAG sederhana?
Bikin sesuatu dari lesson ini
Catatan dan batasan
- CMS lesson harus sudah siap untuk RAG: slug, module, level, summary, source, tags, updated_at.
- Checklist tambahan: chunking dan metadata.
- Checklist tambahan: embeddings.
- Checklist tambahan: vector dan hybrid search.
- Checklist tambahan: reranking dan RAG evaluation.