ollama

mirror of https://github.com/ollama/ollama.git synced 2026-03-27 02:58:43 +07:00

Files

Patrick Devine d727aacd04 mlx: quantized embeddings, fast SwiGLU, and runtime fixes (#14884 )

Add QuantizedEmbedding and EmbeddingLayer interface so models can
use quantized embedding weights and expose tied output projections.
This change updates gemma3, glm4_moe_lite, llama, qwen3, and qwen3_5
to use the new interface.

2026-03-17 11:21:38 -07:00

tokenizer_benchmark_test.go

MLX: add header vendoring and remove go build tag (#14642 )

2026-03-09 17:24:45 -07:00

tokenizer_bpe.go

MLX: add header vendoring and remove go build tag (#14642 )

2026-03-09 17:24:45 -07:00

tokenizer_correctness_test.go

MLX: add header vendoring and remove go build tag (#14642 )

2026-03-09 17:24:45 -07:00

tokenizer_decode.go

MLX: add header vendoring and remove go build tag (#14642 )

2026-03-09 17:24:45 -07:00

tokenizer_encode.go

MLX: add header vendoring and remove go build tag (#14642 )

2026-03-09 17:24:45 -07:00

tokenizer_ggml_parity_test.go

MLX: add header vendoring and remove go build tag (#14642 )

2026-03-09 17:24:45 -07:00

tokenizer_load_test.go

MLX: add header vendoring and remove go build tag (#14642 )

2026-03-09 17:24:45 -07:00

tokenizer_load.go

MLX: add header vendoring and remove go build tag (#14642 )

2026-03-09 17:24:45 -07:00

tokenizer.go

mlx: quantized embeddings, fast SwiGLU, and runtime fixes (#14884 )

2026-03-17 11:21:38 -07:00