🎓 הקורס הדיגיטלי המקיף בישראל ל-Claude — לעבוד חכם יותר עם Claude
פפרומפטים.AIחיפוש
🤖

Skill Real-time Voice AI — AI קולי בזמן אמת ל-Claude

בניית מערכות קול אינטראקטיביות בזמן אמת עם זיהוי דיבור, סינתזה ועיבוד שפה.

voice-ai-realtime · v1.0.0💾 7KB · חינם🧩 חלק מחבילת מומחה AI לעסקים
מה זה Skill ואיך מתקינים?

Skill הוא יכולת קבועה ש-Claude טוען אוטומטית כשהיא רלוונטית לבקשה שלך — בניגוד לפרומפט רגיל שצריך להעתיק מחדש בכל שיחה. מתקינים פעם אחת (מעבירים תיקייה אל ~/.claude/skills/ או מעלים דרך הגדרות האפליקציה), ומאז הוא עובד לבד — ללא כל פעולה נוספת.

חדש ל-Claude? התחל כאן ←

⬇️ הורדת ה-Skill (7KB)

ZIP · ללא הרשמה · רישיון שימוש כלול בקובץ

📖 מה ה-Skill הזה כולל

מתי להשתמש

"voice AI", "OpenAI Realtime", "voice agent", "Cartesia", "ElevenLabs", "voice bot", "בוט קולי", "TTS עברית".

הוראות עבודה

1. The Stack 2026

[Mic] → STT → LLM → TTS → [Speaker]
       ↑                ↑
    interruption    streaming

Speech-to-Speech (S2S) — המודל מבין ויוצר קול ישירות. מוריד latency דרסטית.

2. APIs מובילים

ספק סוג Latency מחיר
OpenAI Realtime API (gpt-4o-realtime) S2S ~300ms $5/1M input audio, $20/1M output
Anthropic Claude voice (TBA 2026) TBD TBD TBD
Cartesia Sonic TTS only, super fast 90ms $0.065/1K chars
ElevenLabs Turbo v2.5 TTS 250ms $0.18/1K chars
ElevenLabs Conversational AI full agent ~500ms $0.08-0.30/min
Deepgram Aura TTS streaming <300ms $0.015/min
Deepgram Nova-3 STT <300ms $0.0058/min
Vapi platform (multi-vendor) varies $0.05-0.10/min + LLM
Retell platform varies $0.07/min + costs
LiveKit Agents infra low hosting cost

3. Pipeline Approaches

A. Cascading (3 components)

STT → LLM → TTS. Total latency 600-1500ms. Flexibility גבוהה.

B. Speech-to-Speech (S2S, integrated)

Model אחד שומע + מדבר. Latency 200-400ms. דוגמה: OpenAI Realtime.

מתי קסקדינג עדיף:

  • צריך LLM ספציפי (Claude, custom).
  • Logging + analytics על טקסט.
  • אישור human על TTS לפני נשלח.

מתי S2S:

  • שיחה זורמת חשובה.
  • Latency = הכל.

4. Latency Budget

End-to-end target: <800ms (טבעי)
- VAD detection: 50ms
- STT first token: 200ms
- LLM first token: 200ms
- TTS first chunk: 100ms
- Network: 100ms
- Buffer/jitter: 150ms

Tactics:

  • Streaming everywhere (STT partial, LLM streaming, TTS streaming).
  • Edge regions קרובים למשתמש.
  • Speculative decoding (LLM).
  • Pre-warm connections.

5. Use Cases חמים 2026

Use case Tool מומלץ
Inbound customer support Vapi / Retell / ElevenLabs Conv
Outbound sales/qualification Vapi + Twilio
Appointment booking Retell + calendar API
Voice assistant ב-app OpenAI Realtime
Drive-thru / kiosk Vapi + custom
Healthcare intake Cartesia (low latency) + cascading
Language learning ElevenLabs + Claude
Audiobooks dynamic ElevenLabs + LLM

6. Voice Cloning

  • ElevenLabs Voice Lab — 3 דקות → voice clone.
  • Cartesia — voice cloning זול ומהיר.
  • OpenAI Voice Engine — beta, restricted.
  • Legal: הסכמה כתובה חובה. EU AI Act + Israeli ל-deepfake voice.

7. Hebrew TTS — מצב 2026

ספק איכות עברית מחיר
ElevenLabs (multilingual v2/turbo) טובה מאוד, multiple voices $0.18/1K
Google Cloud TTS בינונית-טובה, WaveNet $16/1M chars
Azure Speech טובה, neural voices $16/1M
Microsoft Speech (Custom) תאמן voice עברי משלך enterprise
OpenAI TTS סבירה לעברית $15/1M
Cartesia מתפתח $0.065/1K
Lovo / Murf עברית קיימת varies

ניואנס עברית קולית: מילים טעונות שגיאות (קטילה לעומת קְטִילָה). תמיד בדוק עם דובר native.

8. STT עברית

  • Deepgram — תומך עברית, איכות טובה.
  • OpenAI Whisper — חופשי, איכות סבירה לעברית.
  • AssemblyAI — סבירה.
  • Google Speech-to-Text — סבירה.
  • Azure Speech — טובה, custom models.

9. Interruption Handling

  • VAD (Voice Activity Detection) detects user speaking.
  • Cancel TTS in-progress.
  • Stop LLM generation.
  • Listen + respond to new utterance.

OpenAI Realtime + ElevenLabs Conv handle אוטומטית. Custom build = מורכב.

10. Telephony Integration

  • Twilio Voice — סטנדרט. Vapi/Retell בוני עליו.
  • Telnyx — חלופה זולה יותר.
  • Plivo — חלופה.
  • WebRTC — direct browser-to-agent.
  • SIP — enterprise PBX.

11. עלויות אמיתיות

שיחה של 5 דקות:

  • OpenAI Realtime: ~$0.30-0.50.
  • Vapi (cascading): ~$0.40-0.80 (Deepgram + GPT-4o + ElevenLabs).
  • ElevenLabs Conv: ~$0.40-1.50.

1000 שיחות/חודש = $300-1500. קמפיין outbound אגרסיבי = $$$ מהר.

12. ישראלי context

Israeli voice startups

  • Hour One — synthesized presenters (וידאו + קול).
  • AI21 — שירותי שפה (טקסט בעיקר).
  • Yotpo — voice features ב-CX.
  • Guesty (host comm) — שילוב voice.

Practical

  • בנקים ישראלים בוחנים voice AI לתמיכה (לאומי, פועלים).
  • חוק הגנת הפרטיות: הקלטה דורשת הסכמה.
  • SMS opt-out לא מספיק לשיחות AI יוצאות — חוק ספאם דורש הסכמה מפורשת.
  • בעברית עם מבטא: דייקנות STT נופלת ל-80% מ-95%. בנו fallback.

קלט נדרש

שדה תיאור
Use case inbound / outbound / app
Volume minutes/month
Languages עברית / English / שתיהן
Latency tolerance <500ms / <1s
Telephony Twilio? VoIP?

פלט צפוי

Deliverable תוכן
Stack choice S2S / cascading + tools
Cost model per minute / per call
Latency analysis bottlenecks
Hebrew quality plan voice + STT testing
Compliance recording consent

כללי עבודה

  • פלט בעברית, מונחים מקצועיים באנגלית
  • מחירים per minute, per 1K chars
  • 2026: OpenAI Realtime, ElevenLabs Conv, Cartesia מובילים

דגלים אדומים

  • אין הסכמה להקלטה → הפרת חוק.
  • Voice cloning בלי הסכמה → אסור + תביעות.
  • Latency >1.5s → חוויה רעה, נטישה.
  • אין fallback להעברה לאדם → לקוחות זועמים.
  • TTS עברית בלי native בדיקה → טעויות מביכות.

הערות חשובות

  • S2S = העתיד. עדיין נדרשים cascading למקרים מסוימים.
  • ElevenLabs = quality king ל-TTS. Cartesia = speed king.
  • חוויה טבעית > עוד 100ms חיסכון.
  • תמיד "transfer to human" כ-escape hatch.
  • בעברית: בדקו עם דוברים מגוונים (ספרדי, אשכנזי, רוסי-עברית).

פרומפט לדוגמה

תכנן voice agent ל-customer support בקופ"ח, עברית, 100K דקות/חודש.

השווה OpenAI Realtime ל-Vapi (Deepgram+GPT+ElevenLabs) latency + עלות.

איך עושים Hebrew TTS עם מותג קולי עקבי על ElevenLabs?


© 2026 AI Expert Pro | גרסה 1.1.0

📥 התקנה בחצי דקה

  1. 1. הורד ופתח את קובץ ה-ZIP — תקבל תיקייה בשם voice-ai-realtime.
  2. 2. ב-Claude Code: העבר את התיקייה אל ~/.claude/skills/.
    באפליקציה (Claude / Cowork): הגדרות ← Capabilities ← Skills ← העלאה.
  3. 3. בקש מ-Claude את מה שצריך בעברית — הוא יפעיל את ה-skill לבד כשזה רלוונטי.

רוצה skill כזה, אבל מותאם בדיוק לעסק שלך?

בקורס Claude לעסקים תלמד לבנות skills משלך — לתהליכים הספציפיים שלך, בעברית, בלי תלות באף אחד.

לפרטים על לעבוד חכם יותר עם Claude ←

🧩 עוד skills מחבילת מומחה AI לעסקים

📚 פרומפטים באותו תחום

קהילה