llama.cpp/tools/server/server-context.cpp at 78fbbc2c0788efc8857a2c0dc9802ec689fa12c1

mirror of https://github.com/ggml-org/llama.cpp.git synced 2026-05-13 20:44:09 +00:00

Files

willjoha ef22b3e4ac docs: fix metrics endpoint description in server README (#22879 )

* docs: fix metrics endpoint description in server README

Required model query parameter for router mode described.

Removed metrics:
- llamacpp:kv_cache_usage_ratio
- llamacpp:kv_cache_tokens

Added metrics:
- llamacpp:prompt_seconds_total
- llamacpp:tokens_predicted_seconds_total
- llamacpp:n_decode_total
- llamacpp:n_busy_slots_per_decode

* server: fix metrics type for n_busy_slots_per_decode metric

2026-05-11 18:32:26 +02:00

180 KiB

Raw Blame History

View Raw

180 KiB Raw Blame History

180 KiB

Raw Blame History