llama.cpp

mirror of https://github.com/ggml-org/llama.cpp.git synced 2026-05-12 03:54:06 +00:00

Files

lhez 1772701f99 opencl: add q6_K gemm and gemv kernels for Adreno (#20089 )

* opencl: add q6_K noshuffle kernels, initial q6_K gemv, some host code

* opencl: add q6_K transpose

* opencl: fix cvt kernel name

* opencl: add call to q6_K gemv

* opencl: fix q6_K scale transpose

* opencl: fix loading for gemv q6_K, refactor

* opencl: fix transpose_8_buf kernel assignment, refactor

* opencl: refactor q6_K transpose

* opencl: add gemm_noshuffle_q6_k_f32

* opencl: fix qh loading

* opencl: refactor q6_K gemv host side, release bufs and imgs

* opencl: refactor

* opencl: fix q6_K dequant and scale selection

* opencl: workaround compiler bug, fix dump_tensor

* opencl: refactor q6_K convert kernels

* opencl: unpack transformed q6_K in get_tensor

* opencl: refactor, handle non-uniform workgroups

* opencl: support non-vector subgroup bcast

2026-03-23 12:44:18 -07:00

cmake

ggml: Skip backend library linking code when GGML_BACKEND_DL=ON (#15094 )

2025-08-07 13:45:41 +02:00

include

ggml : restore ggml_type_sizef() to aboid major version bump (ggml/1441)

2026-03-18 15:17:28 +02:00

src

opencl: add q6_K gemm and gemv kernels for Adreno (#20089 )

2026-03-23 12:44:18 -07:00

.gitignore

vulkan : cmake integration (#8119 )

2024-07-13 18:12:39 +02:00

CMakeLists.txt

ggml : bump version to 0.9.8 (ggml/1442)

2026-03-18 15:17:28 +02:00