diff --git a/MEMORY.md b/MEMORY.md index 1df8da3..8765fd5 100644 --- a/MEMORY.md +++ b/MEMORY.md @@ -91,8 +91,8 @@ ## Ollama-Server 3 – TrueNAS (192.168.8.112) - Zwei Ollama-Container: - - **AMD (Port 11439):** AMD Radeon RX 7800 XT (Navi 32, Gigabyte, 16GB VRAM) – qwen3:32b, qwen3:14b (32b braucht volle 16GB) - - **NVIDIA (Port 11434):** NVIDIA RTX 3060 Ti Lite Hash Rate (GA104, 8GB VRAM) – qwen3:8b, llama3, qwen3:14b, mistral-small3.2, gpt-oss:20b u.a. + - **AMD (Port 11439):** AMD Radeon RX 7800 XT (Navi 32, Gigabyte, 16GB VRAM) – qwen3:32b, qwen3:14b, mistral-small3.2 (24B, multimodal), gpt-oss:20b (MoE, OpenAI Open-Weight) + - **NVIDIA (Port 11434):** NVIDIA RTX 3060 Ti Lite Hash Rate (GA104, 8GB VRAM) – qwen3:8b, llama3, qwen3:14b, mistral-small3.2, gpt-oss:20b, qwen3:32b - Auth: keine (apiKey: `ollama`) - **Software:** Ollama - ⚠️ Nicht als Primary geeignet – zu klein für komplexe Prompts diff --git a/TOOLS.md b/TOOLS.md index 97db830..4d2572d 100644 --- a/TOOLS.md +++ b/TOOLS.md @@ -101,17 +101,21 @@ Zwei separate Ollama-Container mit unterschiedlichen GPUs. - **GPU:** AMD Radeon RX 7800 XT (Navi 32, Gigabyte, 16GB VRAM) - **Software:** Ollama - **Provider-Name:** `TrueNAS - AMD` -- Verfügbare Modelle: qwen3:32b (Q4_K_M, 32.8B, 20.2GB), qwen3:14b (Q4_K_M, 14.8B, 9.3GB) +- Verfügbare Modelle: + - qwen3:32b (Q4_K_M, 32.8B, 18.8GB) + - qwen3:14b (Q4_K_M, 14.8B, 8.6GB) + - mistral-small3.2 (Q4_K_M, 24.0B, 14.1GB) – Multimodal (Text+Vision), 128K Context, Tool-Calling, Apache 2.0 + - gpt-oss:20b (MXFP4, 20.9B, 12.8GB) – OpenAI Open-Weight, MoE (~3.6B active/token), Tool-Use, Chat+Coding - **Aktuell:** qwen3:32b lädt die vollen 16GB VRAM → kein Platz für zweites Modell parallel -- ⚠️ **Einschränkung:** Kann Befehle/Tool-Results nicht korrekt verarbeiten – der ~26k Token System-Prompt überfordert das Modell +- ⚠️ **Einschränkung:** 14b/32b können Befehle/Tool-Results nicht korrekt verarbeiten – der ~26k Token System-Prompt überfordert die Modelle - **Verwendung:** Notfall-Fallback wenn Cloud-Provider down – einfache Textantworten gehen, aber keine Tool-Nutzung -- Alias: `Qwen3-14b-Truenas` / `Qwen3-32b-Truenas` +- Alias: `Qwen3-14b-Truenas` / `Qwen3-32b-Truenas` / `Mistral-Small-Truenas` / `GPT-OSS-Truenas` #### NVIDIA-Container (Port 11434) - URL: `http://192.168.8.112:11434/v1` (HTTP, kein Auth, apiKey: `ollama`) - **GPU:** NVIDIA RTX 3060 Ti Lite Hash Rate (GA104, 8GB VRAM) - **Software:** Ollama -- Verfügbare Modelle: qwen3:32b, qwen3:14b, qwen3:8b, mistral-small3.2, llama3, gpt-oss:20b, deepseek-v3.2:cloud, kimi-k2.5:cloud +- Verfügbare Modelle: qwen3:32b, qwen3:14b, qwen3:8b, mistral-small3.2, llama3, gpt-oss:20b - ⚠️ **8GB VRAM-Limit:** qwen3:8b (5.2GB) oder llama3 (4.7GB) passen problemlos; qwen3:14b knapp (9.3GB, evtl. partial offload) - **Verwendung:** Kleine lokale Modelle für einfache Tasks