Kembali
Model & Infrastructure · Menengah

Latency

Waktu tunggu dari permintaan dikirim sampai respons tersedia.

Definisi sederhana

Waktu tunggu dari permintaan dikirim sampai respons tersedia.

Penjelasan tanpa jargon

Waktu tunggu dari permintaan dikirim sampai respons tersedia. Biasanya istilah ini muncul saat memilih deployment, memengatur kapasitas, atau menekan biaya aplikasi AI.

Analogi

Seperti memilih mesin, tempat menjalankannya, jalur traffic, dan biaya bahan bakar. Latency kurang lebih bekerja di bagian yang memroses informasinya.

Contoh penggunaan

Contoh paling gampang: Latency muncul saat memilih deployment, memengatur kapasitas, atau menekan biaya aplikasi AI.

Kenapa penting

Kalau paham Latency, kamu membantu builder mengambil keputusan teknis yang sesuai skala dan risiko.

Istilah terkait

  • Inference
  • Rate Limit
  • Inference Server

Kesalahan pemula

Yang sering membuat keliru: memilih model hanya dari benchmark tanpa menguji latency, biaya, dan data sendiri. Latency juga beda dengan Inference.