
Best Speech-to-Text APIs for Arabic
Compare the top STT APIs for Arabic, Google Cloud, Azure, AWS, Whisper, and more. Pricing, accuracy, and dialect support.
تخيّل إنك تبني تطبيق أو خدمة تحتاج تحوّل كلام عربي إلى نص. تفتح قوقل وتبحث عن "أفضل API لتحويل الصوت"، وتغرق في قائمة طويلة من الخيارات. كلهم يقولون إنهم يدعمون العربية. كلهم يحطون علامة صح جنب Arabic. بس لما تجرّب؟ القصة مختلفة تماماً.
جرّبت أرسل تسجيل اجتماع عادي، ناس تحكي بالمصري والخليجي وبينهم كلمات إنجليزية، والنتائج من معظم الخدمات كانت محبطة. جمل مبتورة، كلمات غلط، ولهجات ما انفهمت أصلاً. فقررت أسوي مقارنة حقيقية عشان أوفر عليك الوقت.
على أي أساس قارنّا؟
ما رحت أنسخ من صفحات التسويق. جرّبت كل خدمة على نفس العيّنات الصوتية وقيّمت على أربعة محاور:
- دقة الفصحى (MSA)، أداء الخدمة مع عربية فصحى واضحة ومرتبة
- دعم اللهجات، هل تفرّق بين المصري والخليجي والشامي والمغاربي؟
- التسعير، كم تدفع مقابل كل دقيقة صوت
- ملاحظات عملية، أشياء ما تلاقيها في التوثيق الرسمي، بس تكتشفها بالتجربة
جدول المقارنة الشامل
| الخدمة | دقة الفصحى | دعم اللهجات | السعر | ملاحظات |
|---|---|---|---|---|
| Google Cloud Speech-to-Text | عالية | محدود، بعض اللهجات رسمياً لكن النتائج متفاوتة | $0.006 - $0.009 لكل 15 ثانية | ممتاز مع الفصحى الواضحة، يتراجع بشكل ملحوظ مع المغاربية |
| Azure Speech (Microsoft) | عالية | متوسط، يدعم بعض المتغيرات الإقليمية | $1.00 لكل ساعة صوت | تخصيص النماذج متاح لكنه يتطلب بيانات تدريب ضخمة |
| AWS Transcribe | جيدة | محدود جداً، "خليجي" و"فصحى" فقط رسمياً | $0.024 لكل دقيقة | تحديد المتحدثين جيد، لكن دعم اللهجات أضعف من المنافسين |
| OpenAI Whisper | جيدة جداً | جيد، يتعامل مع عدة لهجات بدون تمييز بينها | مجاني (محلياً) أو $0.006 لكل دقيقة (API) | مفتوح المصدر، أداء ممتاز نسبة لسعره، لا يحدد اللهجة تلقائياً |
| AssemblyAI | مقبولة | محدود، دعم العربية لا يزال في مراحله الأولى | $0.015 لكل دقيقة | واجهة سهلة وميزات إضافية قوية، لكنه مصمم أساساً للإنجليزية |
| مفكّر (Mufakkir) | عالية | متقدم، مصري، خليجي، شامي، ومغاربي | باقة مجانية متاحة | مبني خصيصاً للعربية بكل لهجاتها، مش عربية كإضافة جانبية |
الأرقام مفيدة، لكن الجدول لحاله ما يكفي. خلّني أفصّل تجربتي مع كل خدمة.
Google Cloud Speech-to-Text
جوجل من أقدم اللاعبين في هالمجال، وعلى الفصحى أداؤهم فعلاً قوي. لو عندك تسجيل إخباري أو محاضرة أكاديمية بالعربية الفصحى المرتبة، النتائج بتعجبك. الكلمات واضحة، الترقيم معقول، والأخطاء قليلة.
المشكلة تبدأ لما تبعد عن الفصحى. جوجل يدّعي دعم لهجات مثل المصري والخليجي، وفعلاً تقدر تختار "ar-EG" أو "ar-SA" كـ locale. بس في التطبيق العملي؟ الفرق بين النتائج ضئيل. كأنه نفس النموذج بقبعة مختلفة.
اللهجة المغاربية؟ كارثة. جرّبت تسجيل مغربي والنتيجة كانت خليط عشوائي من كلمات فصحى ما لها علاقة بالمحتوى. الكلمات المتأثرة بالأمازيغية أو الفرنسية ضاعت تماماً.
من ناحية التسعير، جوجل معقول نسبياً وعنده tier مجاني للتجربة. لو محتواك فصحى صافية ولا تبغى تتعب، هو خيار محترم. بس لو عندك محتوى واقعي فيه لهجات، جهّز نفسك لتعديلات كثيرة بعد التفريغ.
Azure Speech (Microsoft)
مايكروسوفت بنت خدمة قوية تقنياً. الميزة الأبرز عندهم هي Custom Speech، تقدر تدرّب نموذج مخصص على بياناتك وتحسّن الدقة لحالتك المحددة. نظرياً ممتاز.
عملياً؟ تدريب نموذج مخصص يحتاج مئات الساعات من التسجيلات المُعلَّمة، يعني صوت مع تفريغه النصي الصحيح بالضبط. هذا واقعي لشركة كبيرة عندها ميزانية وفريق بيانات. لمطوّر مستقل أو شركة ناشئة؟ عبء ثقيل.
بدون التخصيص، أداء Azure على الفصحى ينافس جوجل. اللهجات موجودة كخيارات (عربي - مصر، عربي - السعودية، وغيرها)، لكن الفرق الفعلي في جودة التفريغ بين هالخيارات مش دائماً واضح. يبقى خيار قوي لو مشروعك أصلاً يعتمد على Azure ومحتاجه يتكامل مع باقي خدماتهم.
AWS Transcribe
أمازون دخلت السوق بخدمة مدمجة مع منظومة AWS الكبيرة. الميزة اللي تميّزهم هي تحديد المتحدثين، Speaker Diarization، يعني يقدر يفصل مين قال إيش في تسجيل فيه كذا شخص. مفيدة جداً لاجتماعات العمل.
بس على صعيد العربية، الخيارات ضيقة. رسمياً يدعمون "الخليجي" و"الفصحى" فقط. يعني لو عندك محتوى مصري أو شامي أو مغاربي؟ ما فيه خيار مخصص لهم. والنتائج على اللهجة المصرية مثلاً متوسطة، كلمات مثل "دلوقتي" أو "كده" تطلع غلط أو تتحول لكلمات فصحى مش لها علاقة.
التسعير أغلى من جوجل وWhisper. لو أنت أصلاً تستخدم AWS وتحتاج التكامل مع S3 وLambda وباقي المنظومة، ممكن يكون مريح. غير كذا، صعب أوصي فيه للعربية تحديداً.
OpenAI Whisper
Whisper قلب الموازين لما نزل. نموذج مفتوح المصدر مدرّب على كمية هائلة من البيانات ويدعم أكثر من 90 لغة. واللي يميّزه فعلاً هو إن بيانات تدريبه تشمل محتوى حقيقي من الإنترنت، يوتيوب، بودكاست، ومحادثات فعلية. مش بس نصوص رسمية.
النتيجة: Whisper يتعامل مع اللهجات بشكل أفضل من أغلب المنافسين التجاريين. المصري يطلع معقول، الخليجي كويس، وحتى المغاربي أفضل مما تتوقع. بس، وهذي نقطة مهمة، Whisper يتعامل مع العربية ككتلة واحدة. ما يميّز بين لهجة وثانية. ما يقولك "هذا كلام مصري" أو "هذا شامي". وأحياناً يخلط بين اللهجات في نفس التسجيل.
من ناحية السعر، ما فيه أفضل، تشغّله محلياً على GPU مجاناً تماماً، أو تستخدم الـ API بسعر رخيص. لو تبي حل مرن ومفتوح المصدر وتقدر تعدّل عليه، Whisper خيار ممتاز. لكنه يحتاج خبرة تقنية في الإعداد والتشغيل.
AssemblyAI
AssemblyAI شركة صاعدة بقوة. واجهتهم نظيفة، التوثيق ممتاز، وعندهم ميزات جانبية مثل التلخيص التلقائي وتحليل المشاعر واكتشاف المواضيع. لو مشروعك إنجليزي؟ هم من أفضل الخيارات بلا مبالغة.
بس العربية مش نقطة قوتهم. دعمهم للعربية ما زال في بداياته. الفصحى تطلع بنتائج مقبولة، مش سيئة، بس مش بمستوى جوجل أو Whisper. أما اللهجات فالوضع أضعف بكثير. المغاربية والعراقية تحديداً تكاد تكون غير مدعومة عملياً.
لو تطبيقك يخدم سوق إنجليزي بالدرجة الأولى وعندك شوية محتوى عربي على الجانب، ممكن يمشي الحال. بس لو العربية هي صلب شغلك؟ ما أنصحك تعتمد عليهم كحل أساسي حالياً.
الفصحى مقابل اللهجات، هنا لب المشكلة
خلّني أكون صريح: معظم الخدمات تعطيك نتائج مقبولة على الفصحى. بيانات التدريب المتوفرة، أخبار، خطب رسمية، محاضرات مكتوبة، كلها بالفصحى. فالنماذج تدربت عليها كويس.
لكن كم من حياتنا اليومية بالفصحى؟ تقريباً صفر. لما تسجّل اجتماع عمل، أو محاضرة جامعية (لأن الأستاذ يشرح بالعامية)، أو فكرة سريعة على جوالك، أنت تتكلم بلهجتك. وهنا ينكشف الفرق الحقيقي بين الخدمات.
المشكلة مش بس إن الكلمات مختلفة. اللهجات تغيّر أصوات الحروف نفسها. المصري ينطق الجيم "g" والقاف همزة. الخليجي ينطق الكاف "چ" في بعض المناطق. المغاربي يبلع حروف متحركة كاملة. كل هذا يحتاج نماذج مدرّبة تحديداً على هالتنوع، مش نموذج فصحى مع شوية تعديلات.
التبديل بين اللغات، المشكلة اللي الكل يتجاهلها
في أي بيئة عمل عربية، رح تسمع جمل مثل: "يعني الـ deadline تبعنا is next week، لازم نخلّص الـ presentation قبلها." هذا الخلط بين العربي والإنجليزي طبيعي عندنا. ونسبة كبيرة من التسجيلات الحقيقية فيها تبديل لغوي.
أغلب الخدمات ما تعرف تتعامل مع هالموضوع. تحاول تحول كل شي للعربية أو كل شي للإنجليزية، وتطلع نتيجة مكسّرة. Whisper يتعامل معه بشكل أفضل نسبياً لأن بيانات تدريبه فيها محتوى متعدد اللغات. لكن حتى Whisper مش مثالي في هالنقطة.
ملاحظات عملية من التجربة الفعلية
بعد ساعات من التجربة والمقارنة، هذي أبرز الأشياء اللي لاحظتها:
- جودة الصوت تفرق أكثر مما تتخيل، كل الخدمات تتراجع بشكل واضح مع التسجيلات منخفضة الجودة. لكن بعضها أكثر تحمّلاً، Whisper تحديداً يقاوم الضوضاء بشكل أفضل من الباقي.
- سرعة المتحدث مؤثرة جداً، الكلام العربي السريع يُربك كل الخدمات بلا استثناء. الفصحى البطيئة والواضحة دايماً تعطي أفضل النتائج.
- علامات الترقيم، بعض الخدمات تضيف ترقيم تلقائي والبعض لا. وترقيم العربية تحديداً ضعيف عند أغلب الخدمات، نقاط في أماكن غريبة وفواصل مفقودة.
- التعامل مع الأسماء الخاصة، أسماء الأشخاص والأماكن العربية مشكلة عند الجميع. حتى الاسم "محمد" ممكن يطلع بعشر طرق مختلفة حسب نطق المتكلم.
- وقت المعالجة، الخدمات السحابية (جوجل، Azure، AWS) سريعة. Whisper محلياً يعتمد على قوة الجهاز، على GPU حديث يكون سريع، وعلى CPU يأخذ وقت.
طيب، أي واحد أختار؟
السؤال الصح مش "أيهم الأفضل؟" بل "أيهم الأنسب لحالتي؟"، والفرق كبير.
- لو محتواك فصحى واضحة، Google Cloud أو Azure بيخدموك كويس. الدقة عالية والتكامل مع الأنظمة السحابية سلس.
- لو تبي حل مفتوح المصدر تتحكم فيه، Whisper هو الخيار الأوضح. تشغّله على سيرفرك، تعدّل عليه، وما تدفع لأحد.
- لو أنت أصلاً على AWS، Transcribe يتكامل بسلاسة مع باقي المنظومة، لكن لا تتوقع عجائب مع اللهجات.
- لو مشروعك إنجليزي أساساً، AssemblyAI عندهم ميزات جانبية ممتازة للإنجليزية ممكن تفيدك.
- لو محتواك لهجات عربية حقيقية، وهذا واقع أغلب المستخدمين العرب، فالخيارات أعلاه كلها بتخذلك بدرجات متفاوتة.
ماذا عن أداة مبنية من الأساس للعربية؟
كل الخدمات اللي ذكرناها بُنيت أصلاً للإنجليزية. العربية جاءت كإضافة، لغة من ضمن قائمة طويلة من اللغات المدعومة. والفرق يظهر بوضوح لما تتعامل مع كلام عربي حقيقي.
مفكّر اتبنى بنهج مختلف تماماً، من اليوم الأول كان الهدف هو العربية بكل لهجاتها. المصري والخليجي والشامي والمغاربي. مش فصحى فقط، بل الكلام اللي نتكلمه فعلاً كل يوم. والنتيجة هي تفريغ تقدر تستخدمه مباشرة بدون ما تقعد تصحح نص كلمة بنص كلمة.
لو شغلك يعتمد على تحويل كلام عربي واقعي إلى نص، اجتماعات، محاضرات، مقابلات، ملاحظات صوتية، جرّب مفكّر. فيه باقة مجانية تقدر تبدأ فيها وتشوف الفرق بنفسك.
الخلاصة
ما فيه API واحد "أفضل" للجميع. الاختيار يعتمد على نوع المحتوى واللغة اللي تتعامل معها والميزانية ومستوى الدقة اللي تحتاجه.
بس الشي المؤكد هو إن العربية، بتنوعها وغناها ولهجاتها، تحتاج معاملة خاصة. مش مجرد خانة في قائمة "اللغات المدعومة". والأدوات اللي فهمت هالنقطة هي اللي تعطيك نتائج تقدر تعتمد عليها فعلاً.
نصيحتي الأخيرة: لا تعتمد على الأرقام التسويقية. خذ تسجيل حقيقي من شغلك، بلهجتك، بجودة الصوت العادية، وجرّبه على أكثر من خدمة. النتيجة اللي تشوفها بعينك أصدق من أي جدول مقارنة.