llama.cpp

mirror of https://github.com/ggml-org/llama.cpp.git synced 2026-05-08 18:14:07 +00:00

Files

Johannes Gäßler 9725a313be CUDA: reduce MMQ stream-k overhead (#22298 )

* CUDA: reduce MMQ stream-k overhead

* use 32 bit integers for kbc

2026-04-25 14:15:03 +02:00

2026-04-09 16:42:19 +02:00

2026-04-15 15:58:40 +02:00

2026-04-25 14:15:03 +02:00

.gitignore

2024-07-13 18:12:39 +02:00

CMakeLists.txt

2026-04-23 02:34:31 +02:00