מתי להשתמש
"Ollama", "LLM מקומי", "להריץ Llama במחשב", "LM Studio", "offline AI", "פרטיות מלאה ב-AI".
הוראות עבודה
1. למה לרוץ מקומי
- פרטיות מלאה — data לא יוצא מהמכשיר.
- חינם (אחרי החומרה).
- Offline — בלי אינטרנט.
- Latency נמוך (אין round-trip).
- Compliance — מסמכים סודיים, רפואיים, משפטיים.
- Experimentation — fine-tuning ללא עלות API.
חסרונות:
- איכות פחותה ממודלים cloud (GPT-5, Claude Opus).
- Throughput נמוך.
- צריך GPU טוב לדגמים גדולים.
- אתה אחראי על safety.
2. Ollama — הקל ביותר
# Install (macOS / Linux / Windows)
brew install ollama
# Or download from ollama.com
# Run a model
ollama run llama3.3
# API at localhost:11434
curl http://localhost:11434/api/generate -d '{
"model": "llama3.3",
"prompt": "שלום, מה שלומך?"
}'
יתרונות: one-line install, REST API, רץ ב-background.
3. LM Studio — UI ידידותי
- Download מ-lmstudio.ai.
- GUI לבחירת מודלים, chat, OpenAI-compatible local server.
- Hugging Face integration.
- מתאים ל-non-developers.
4. llama.cpp — Power user
- C++ implementation.
- מהיר ביותר על CPU + Apple Silicon.
- Quantization מתקדמת (Q2-Q8).
- מתאים ל-deployment ב-edge devices.
5. המודלים המובילים 2026 (open weights)
| מודל | גודל | חוזק | שימוש |
|---|---|---|---|
| Llama 3.3 70B (Meta) | 70B | חזק, multilingual | general |
| Llama 3.2 3B | 3B | קטן ומהיר | edge, mobile |
| Mistral Large 2 | 123B | חזק, code-friendly | code, reasoning |
| Mixtral 8x22B | MoE | yields 39B active | balanced |
| DeepSeek-V3 | 671B MoE (37B active) | reasoning + code top-tier | advanced |
| DeepSeek-R1 | 671B | reasoning king (o1 competitor) | thinking tasks |
| Qwen 2.5 72B | 72B | multilingual incl. Hebrew (חלקי) | multilingual |
| Phi-4 (Microsoft) | 14B | קטן + חזק | resource-constrained |
| Gemma 2 27B (Google) | 27B | קומפקטי | research |
6. Hardware Requirements
| מודל | RAM/VRAM | GPU מומלץ |
|---|---|---|
| 3B Q4 | 4GB | iGPU / M1 |
| 7-8B Q4 | 8GB | M1, RTX 3060 |
| 13-14B Q4 | 16GB | M2 Pro, RTX 4070 |
| 32-34B Q4 | 24GB | M2 Max, RTX 4090 |
| 70B Q4 | 48GB | M3 Max 64GB, 2× RTX 4090 |
| 123B+ Q4 | 80GB+ | H100, M3 Ultra 192GB |
Apple Silicon: M-series unified memory מצוין ל-LLMs. M3 Ultra עם 192GB יכול להריץ 405B Llama.
7. Quantization — איך מקטינים
מודל "מקורי" = FP16/FP32 (16/32 bit לפרמטר). Quantization → 8/4/3/2 bit. חוסך זיכרון פי 2-8.
| Quant | איכות | זיכרון |
|---|---|---|
| FP16 | 100% | 100% |
| Q8 | ~99% | 50% |
| Q5 | ~97% | 32% |
| Q4 (sweet spot) | ~95% | 25% |
| Q3 | ~90% | 19% |
| Q2 | ~80% | 13% |
GGUF format = הסטנדרט של llama.cpp / Ollama.
8. Use Cases אמיתיים
- Code completion offline (Continue.dev + Ollama + DeepSeek-Coder).
- Document chat עם RAG מקומי (Open WebUI + Ollama + ChromaDB).
- Privacy-sensitive summarization — חוזים, מסמכים רפואיים.
- Air-gapped — סביבות צבאיות, בנקאיות.
- Edge — IoT, רובוטיקה.
9. Stack מומלץ ל-developer
Ollama (model server)
↓
Open WebUI (Chat UI like ChatGPT)
↓
Continue.dev (VS Code AI assistant)
↓
LangChain / LlamaIndex (RAG)
10. Hebrew Performance
- Llama 3.3 — סביר אבל לא מצוין.
- Mistral Large 2 — סביר.
- Qwen 2.5 — סביר.
- אין open model 2026 שמצטיין בעברית כמו Claude / GPT-5.
- DictaLM 2.0 (ישראלי, מ-DICTA) — מודל עברי open source. מבוסס Mistral.
- לתעשייה: בדוק evals פנימיים בעברית לפני בחירה.
11. Production deployment
- vLLM — production inference engine, throughput x10-x20 מ-Ollama.
- TGI (Text Generation Inference) — Hugging Face.
- TensorRT-LLM — NVIDIA, הכי מהיר על H100.
- Modal / Replicate / Together.ai — managed hosting של open models אם לא רוצים hardware.
12. ישראלי context
- DictaLM — מודל עברי חופשי, פיתוח ישראלי.
- חברות בטחוניות ישראליות מריצות מקומי ל-classified work.
- חוק הגנת הפרטיות מעודד מקומי לעיבוד מידע אישי רגיש.
- Israeli companies ב-on-prem AI: Run.ai (נמכרה ל-NVIDIA $700M, 2024), Deci (נמכרה ל-NVIDIA 2024).
קלט נדרש
| שדה | תיאור |
|---|---|
| Hardware | RAM, GPU, CPU |
| Use case | chat / code / RAG / batch |
| Privacy needs | air-gapped? |
| Volume | requests/sec |
| Hebrew? | yes/no |
פלט צפוי
| Deliverable | תוכן |
|---|---|
| Model recommendation | Llama / Mistral / DeepSeek + size + quant |
| Stack | Ollama + UI + RAG |
| Hardware spec | min + recommended |
| Performance estimate | tokens/sec |
| Production path | vLLM / managed |
כללי עבודה
- פלט בעברית, מונחים מקצועיים באנגלית
- מחירים: HW one-time, hosting אם managed
- 2026: DeepSeek-R1, Llama 3.3 dominant
דגלים אדומים
- מודל גדול מה-RAM → swap → איטי בלתי שמיש.
- Q2 על reasoning task → איכות נופלת מאוד.
- Ollama ב-production עם traffic גבוה → תחליפו ב-vLLM.
- אין safety layer → harmful outputs.
- ציפייה לאיכות Claude Opus ממודל 7B → לא ריאלי.
הערות חשובות
- Local LLM = privacy + control. cloud = איכות + scale. בחרו מהsus.
- Apple Silicon (M3 Max/Ultra) = best bang-for-buck להרצה מקומית.
- Q4 GGUF = sweet spot לרוב המקרים.
- DictaLM = הבחירה לעברית מקומית.
- vLLM הוא ה-production engine. Ollama = dev/personal.
פרומפט לדוגמה
ממליץ stack לעורך דין שרוצה להריץ Claude-like על MacBook Pro M3 Max 64GB לחוזים.
השווה DeepSeek-R1 vs Llama 3.3 ל-coding tasks ב-VS Code.
איך לפרוס Llama 3.3 70B ב-production עם 100 req/min על שרתי החברה?
© 2026 AI Expert Pro | גרסה 1.1.0