llama.cpp

mirror of https://github.com/ggml-org/llama.cpp.git synced 2026-05-01 22:54:05 +00:00

Files

Neo Zhang 213c4a0b81 [SYCL] supprt Flash Attention for fp32/fp16/Q4/Q5/Q8 (#20190 )

* support flash-attention for fp32/fp16/Q4/Q5/Q8

* rm warining

* update for JIT

2026-03-08 12:00:07 +08:00

2026-03-05 08:50:21 +01:00

2026-02-09 20:15:42 +08:00

BLIS.md

make : deprecate (#10514 )

2024-12-02 21:22:53 +02:00

CANN.md

2026-03-05 08:50:21 +01:00

CUDA-FEDORA.md

2025-03-24 11:02:26 +00:00

OPENCL.md

2026-01-18 18:03:35 +08:00

SYCL.md

2026-03-08 12:00:07 +08:00

VirtGPU.md

2026-02-26 20:00:57 +08:00

zDNN.md

2025-12-07 00:13:33 +08:00

ZenDNN.md

2026-02-27 08:43:41 +08:00