🎓 הקורס הדיגיטלי המקיף בישראל ל-Claude — לעבוד חכם יותר עם Claude
פפרומפטים.AIחיפוש
🤖

Skill Local LLMs — הרצה מקומית ל-Claude

"Ollama", "LLM מקומי", "להריץ Llama במחשב", "LM Studio", "offline AI", "פרטיות מלאה ב-AI".

local-llm-ollama · v1.0.0💾 7KB · חינם🧩 חלק מחבילת מומחה AI לעסקים
מה זה Skill ואיך מתקינים?

Skill הוא יכולת קבועה ש-Claude טוען אוטומטית כשהיא רלוונטית לבקשה שלך — בניגוד לפרומפט רגיל שצריך להעתיק מחדש בכל שיחה. מתקינים פעם אחת (מעבירים תיקייה אל ~/.claude/skills/ או מעלים דרך הגדרות האפליקציה), ומאז הוא עובד לבד — ללא כל פעולה נוספת.

חדש ל-Claude? התחל כאן ←

⬇️ הורדת ה-Skill (7KB)

ZIP · ללא הרשמה · רישיון שימוש כלול בקובץ

📖 מה ה-Skill הזה כולל

מתי להשתמש

"Ollama", "LLM מקומי", "להריץ Llama במחשב", "LM Studio", "offline AI", "פרטיות מלאה ב-AI".

הוראות עבודה

1. למה לרוץ מקומי

  • פרטיות מלאה — data לא יוצא מהמכשיר.
  • חינם (אחרי החומרה).
  • Offline — בלי אינטרנט.
  • Latency נמוך (אין round-trip).
  • Compliance — מסמכים סודיים, רפואיים, משפטיים.
  • Experimentation — fine-tuning ללא עלות API.

חסרונות:

  • איכות פחותה ממודלים cloud (GPT-5, Claude Opus).
  • Throughput נמוך.
  • צריך GPU טוב לדגמים גדולים.
  • אתה אחראי על safety.

2. Ollama — הקל ביותר

# Install (macOS / Linux / Windows)
brew install ollama
# Or download from ollama.com

# Run a model
ollama run llama3.3

# API at localhost:11434
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.3",
  "prompt": "שלום, מה שלומך?"
}'

יתרונות: one-line install, REST API, רץ ב-background.

3. LM Studio — UI ידידותי

  • Download מ-lmstudio.ai.
  • GUI לבחירת מודלים, chat, OpenAI-compatible local server.
  • Hugging Face integration.
  • מתאים ל-non-developers.

4. llama.cpp — Power user

  • C++ implementation.
  • מהיר ביותר על CPU + Apple Silicon.
  • Quantization מתקדמת (Q2-Q8).
  • מתאים ל-deployment ב-edge devices.

5. המודלים המובילים 2026 (open weights)

מודל גודל חוזק שימוש
Llama 3.3 70B (Meta) 70B חזק, multilingual general
Llama 3.2 3B 3B קטן ומהיר edge, mobile
Mistral Large 2 123B חזק, code-friendly code, reasoning
Mixtral 8x22B MoE yields 39B active balanced
DeepSeek-V3 671B MoE (37B active) reasoning + code top-tier advanced
DeepSeek-R1 671B reasoning king (o1 competitor) thinking tasks
Qwen 2.5 72B 72B multilingual incl. Hebrew (חלקי) multilingual
Phi-4 (Microsoft) 14B קטן + חזק resource-constrained
Gemma 2 27B (Google) 27B קומפקטי research

6. Hardware Requirements

מודל RAM/VRAM GPU מומלץ
3B Q4 4GB iGPU / M1
7-8B Q4 8GB M1, RTX 3060
13-14B Q4 16GB M2 Pro, RTX 4070
32-34B Q4 24GB M2 Max, RTX 4090
70B Q4 48GB M3 Max 64GB, 2× RTX 4090
123B+ Q4 80GB+ H100, M3 Ultra 192GB

Apple Silicon: M-series unified memory מצוין ל-LLMs. M3 Ultra עם 192GB יכול להריץ 405B Llama.

7. Quantization — איך מקטינים

מודל "מקורי" = FP16/FP32 (16/32 bit לפרמטר). Quantization → 8/4/3/2 bit. חוסך זיכרון פי 2-8.

Quant איכות זיכרון
FP16 100% 100%
Q8 ~99% 50%
Q5 ~97% 32%
Q4 (sweet spot) ~95% 25%
Q3 ~90% 19%
Q2 ~80% 13%

GGUF format = הסטנדרט של llama.cpp / Ollama.

8. Use Cases אמיתיים

  • Code completion offline (Continue.dev + Ollama + DeepSeek-Coder).
  • Document chat עם RAG מקומי (Open WebUI + Ollama + ChromaDB).
  • Privacy-sensitive summarization — חוזים, מסמכים רפואיים.
  • Air-gapped — סביבות צבאיות, בנקאיות.
  • Edge — IoT, רובוטיקה.

9. Stack מומלץ ל-developer

Ollama (model server)
  ↓
Open WebUI (Chat UI like ChatGPT)
  ↓
Continue.dev (VS Code AI assistant)
  ↓
LangChain / LlamaIndex (RAG)

10. Hebrew Performance

  • Llama 3.3 — סביר אבל לא מצוין.
  • Mistral Large 2 — סביר.
  • Qwen 2.5 — סביר.
  • אין open model 2026 שמצטיין בעברית כמו Claude / GPT-5.
  • DictaLM 2.0 (ישראלי, מ-DICTA) — מודל עברי open source. מבוסס Mistral.
  • לתעשייה: בדוק evals פנימיים בעברית לפני בחירה.

11. Production deployment

  • vLLM — production inference engine, throughput x10-x20 מ-Ollama.
  • TGI (Text Generation Inference) — Hugging Face.
  • TensorRT-LLM — NVIDIA, הכי מהיר על H100.
  • Modal / Replicate / Together.ai — managed hosting של open models אם לא רוצים hardware.

12. ישראלי context

  • DictaLM — מודל עברי חופשי, פיתוח ישראלי.
  • חברות בטחוניות ישראליות מריצות מקומי ל-classified work.
  • חוק הגנת הפרטיות מעודד מקומי לעיבוד מידע אישי רגיש.
  • Israeli companies ב-on-prem AI: Run.ai (נמכרה ל-NVIDIA $700M, 2024), Deci (נמכרה ל-NVIDIA 2024).

קלט נדרש

שדה תיאור
Hardware RAM, GPU, CPU
Use case chat / code / RAG / batch
Privacy needs air-gapped?
Volume requests/sec
Hebrew? yes/no

פלט צפוי

Deliverable תוכן
Model recommendation Llama / Mistral / DeepSeek + size + quant
Stack Ollama + UI + RAG
Hardware spec min + recommended
Performance estimate tokens/sec
Production path vLLM / managed

כללי עבודה

  • פלט בעברית, מונחים מקצועיים באנגלית
  • מחירים: HW one-time, hosting אם managed
  • 2026: DeepSeek-R1, Llama 3.3 dominant

דגלים אדומים

  • מודל גדול מה-RAM → swap → איטי בלתי שמיש.
  • Q2 על reasoning task → איכות נופלת מאוד.
  • Ollama ב-production עם traffic גבוה → תחליפו ב-vLLM.
  • אין safety layer → harmful outputs.
  • ציפייה לאיכות Claude Opus ממודל 7B → לא ריאלי.

הערות חשובות

  • Local LLM = privacy + control. cloud = איכות + scale. בחרו מהsus.
  • Apple Silicon (M3 Max/Ultra) = best bang-for-buck להרצה מקומית.
  • Q4 GGUF = sweet spot לרוב המקרים.
  • DictaLM = הבחירה לעברית מקומית.
  • vLLM הוא ה-production engine. Ollama = dev/personal.

פרומפט לדוגמה

ממליץ stack לעורך דין שרוצה להריץ Claude-like על MacBook Pro M3 Max 64GB לחוזים.

השווה DeepSeek-R1 vs Llama 3.3 ל-coding tasks ב-VS Code.

איך לפרוס Llama 3.3 70B ב-production עם 100 req/min על שרתי החברה?


© 2026 AI Expert Pro | גרסה 1.1.0

📥 התקנה בחצי דקה

  1. 1. הורד ופתח את קובץ ה-ZIP — תקבל תיקייה בשם local-llm-ollama.
  2. 2. ב-Claude Code: העבר את התיקייה אל ~/.claude/skills/.
    באפליקציה (Claude / Cowork): הגדרות ← Capabilities ← Skills ← העלאה.
  3. 3. בקש מ-Claude את מה שצריך בעברית — הוא יפעיל את ה-skill לבד כשזה רלוונטי.

רוצה skill כזה, אבל מותאם בדיוק לעסק שלך?

בקורס Claude לעסקים תלמד לבנות skills משלך — לתהליכים הספציפיים שלך, בעברית, בלי תלות באף אחד.

לפרטים על לעבוד חכם יותר עם Claude ←

🧩 עוד skills מחבילת מומחה AI לעסקים

📚 פרומפטים באותו תחום

קהילה