Does Mufakkir support Egyptian Arabic?

Yes. Mufakkir supports Egyptian Arabic natively, including Egyptian dialect vocabulary, the /g/ pronunciation of the Arabic letter jim, glottal stop for qaf, and the fast speech patterns of Egyptian colloquial Arabic. You can record in masri and receive an accurate transcript without switching to Modern Standard Arabic.

How accurate is Mufakkir for Arabic dialects?

Mufakkir achieves up to 95% transcription accuracy on Arabic dialect speech. This applies across Egyptian, Gulf, Levantine, Moroccan Darija, Iraqi, Sudanese, and 9 other Arabic dialects. Accuracy depends on audio quality, background noise, and speaking pace.

Is my audio private? Does Mufakkir store my recordings?

Mufakkir processes your audio for transcription and does not sell your data. The free audio tools (trimmer, converter, splitter) run entirely in your browser using WebAssembly and never upload your files to any server. For transcription, audio is sent to the processing engine and is not retained after the transcription is complete.

How much does Mufakkir cost?

Mufakkir offers a free plan that includes 20 minutes of transcription per month with no credit card required. Paid plans are available for users who need more transcription time. The free audio tools (trimmer, converter, speed changer, and others) are always free with no account required.

What languages does Mufakkir support besides Arabic?

Mufakkir supports over 20 languages including English, French, Spanish, German, Italian, Portuguese, Russian, Turkish, Persian, Urdu, Hindi, and more. Arabic dialect support covers 15+ varieties including Egyptian, Gulf, Levantine, Moroccan, Algerian, Tunisian, Iraqi, Sudanese, Yemeni, Hejazi, Najdi, Kuwaiti, Emirati, Omani, and Libyan Arabic.

What is the difference between Arabic dialects and Modern Standard Arabic for transcription?

Modern Standard Arabic (MSA or Fusha) is the formal written form of Arabic used in news, official documents, and education. Most Arabic speakers use regional dialects in everyday conversation, such as Egyptian, Gulf, or Levantine Arabic, which differ significantly from MSA in vocabulary, pronunciation, and grammar. Standard transcription models trained only on MSA produce poor results on dialect speech. Mufakkir is trained on real dialect audio, not just MSA, which is why it transcribes natural Arabic speech accurately.

Best Speech-to-Text APIs for Arabic

تخيّل إنك تبني تطبيق أو خدمة تحتاج تحوّل كلام عربي إلى نص. تفتح قوقل وتبحث عن "أفضل API لتحويل الصوت"، وتغرق في قائمة طويلة من الخيارات. كلهم يقولون إنهم يدعمون العربية. كلهم يحطون علامة صح جنب Arabic. بس لما تجرّب؟ القصة مختلفة تماماً.

جرّبت أرسل تسجيل اجتماع عادي، ناس تحكي بالمصري والخليجي وبينهم كلمات إنجليزية، والنتائج من معظم الخدمات كانت محبطة. جمل مبتورة، كلمات غلط، ولهجات ما انفهمت أصلاً. فقررت أسوي مقارنة حقيقية عشان أوفر عليك الوقت.

على أي أساس قارنّا؟

ما رحت أنسخ من صفحات التسويق. جرّبت كل خدمة على نفس العيّنات الصوتية وقيّمت على أربعة محاور:

دقة الفصحى (MSA)، أداء الخدمة مع عربية فصحى واضحة ومرتبة
دعم اللهجات، هل تفرّق بين المصري والخليجي والشامي والمغاربي؟
التسعير، كم تدفع مقابل كل دقيقة صوت
ملاحظات عملية، أشياء ما تلاقيها في التوثيق الرسمي، بس تكتشفها بالتجربة

جدول المقارنة الشامل

الخدمة	دقة الفصحى	دعم اللهجات	السعر	ملاحظات
Google Cloud Speech-to-Text	عالية	محدود، بعض اللهجات رسمياً لكن النتائج متفاوتة	$0.006 - $0.009 لكل 15 ثانية	ممتاز مع الفصحى الواضحة، يتراجع بشكل ملحوظ مع المغاربية
Azure Speech (Microsoft)	عالية	متوسط، يدعم بعض المتغيرات الإقليمية	$1.00 لكل ساعة صوت	تخصيص النماذج متاح لكنه يتطلب بيانات تدريب ضخمة
AWS Transcribe	جيدة	محدود جداً، "خليجي" و"فصحى" فقط رسمياً	$0.024 لكل دقيقة	تحديد المتحدثين جيد، لكن دعم اللهجات أضعف من المنافسين
OpenAI Whisper	جيدة جداً	جيد، يتعامل مع عدة لهجات بدون تمييز بينها	مجاني (محلياً) أو $0.006 لكل دقيقة (API)	مفتوح المصدر، أداء ممتاز نسبة لسعره، لا يحدد اللهجة تلقائياً
AssemblyAI	مقبولة	محدود، دعم العربية لا يزال في مراحله الأولى	$0.015 لكل دقيقة	واجهة سهلة وميزات إضافية قوية، لكنه مصمم أساساً للإنجليزية
مفكّر (Mufakkir)	عالية	متقدم، مصري، خليجي، شامي، ومغاربي	باقة مجانية متاحة	مبني خصيصاً للعربية بكل لهجاتها، مش عربية كإضافة جانبية

الأرقام مفيدة، لكن الجدول لحاله ما يكفي. خلّني أفصّل تجربتي مع كل خدمة.

Google Cloud Speech-to-Text

جوجل من أقدم اللاعبين في هالمجال، وعلى الفصحى أداؤهم فعلاً قوي. لو عندك تسجيل إخباري أو محاضرة أكاديمية بالعربية الفصحى المرتبة، النتائج بتعجبك. الكلمات واضحة، الترقيم معقول، والأخطاء قليلة.

المشكلة تبدأ لما تبعد عن الفصحى. جوجل يدّعي دعم لهجات مثل المصري والخليجي، وفعلاً تقدر تختار "ar-EG" أو "ar-SA" كـ locale. بس في التطبيق العملي؟ الفرق بين النتائج ضئيل. كأنه نفس النموذج بقبعة مختلفة.

اللهجة المغاربية؟ كارثة. جرّبت تسجيل مغربي والنتيجة كانت خليط عشوائي من كلمات فصحى ما لها علاقة بالمحتوى. الكلمات المتأثرة بالأمازيغية أو الفرنسية ضاعت تماماً.

من ناحية التسعير، جوجل معقول نسبياً وعنده tier مجاني للتجربة. لو محتواك فصحى صافية ولا تبغى تتعب، هو خيار محترم. بس لو عندك محتوى واقعي فيه لهجات، جهّز نفسك لتعديلات كثيرة بعد التفريغ.

Azure Speech (Microsoft)

مايكروسوفت بنت خدمة قوية تقنياً. الميزة الأبرز عندهم هي Custom Speech، تقدر تدرّب نموذج مخصص على بياناتك وتحسّن الدقة لحالتك المحددة. نظرياً ممتاز.

عملياً؟ تدريب نموذج مخصص يحتاج مئات الساعات من التسجيلات المُعلَّمة، يعني صوت مع تفريغه النصي الصحيح بالضبط. هذا واقعي لشركة كبيرة عندها ميزانية وفريق بيانات. لمطوّر مستقل أو شركة ناشئة؟ عبء ثقيل.

بدون التخصيص، أداء Azure على الفصحى ينافس جوجل. اللهجات موجودة كخيارات (عربي - مصر، عربي - السعودية، وغيرها)، لكن الفرق الفعلي في جودة التفريغ بين هالخيارات مش دائماً واضح. يبقى خيار قوي لو مشروعك أصلاً يعتمد على Azure ومحتاجه يتكامل مع باقي خدماتهم.

AWS Transcribe

أمازون دخلت السوق بخدمة مدمجة مع منظومة AWS الكبيرة. الميزة اللي تميّزهم هي تحديد المتحدثين، Speaker Diarization، يعني يقدر يفصل مين قال إيش في تسجيل فيه كذا شخص. مفيدة جداً لاجتماعات العمل.

بس على صعيد العربية، الخيارات ضيقة. رسمياً يدعمون "الخليجي" و"الفصحى" فقط. يعني لو عندك محتوى مصري أو شامي أو مغاربي؟ ما فيه خيار مخصص لهم. والنتائج على اللهجة المصرية مثلاً متوسطة، كلمات مثل "دلوقتي" أو "كده" تطلع غلط أو تتحول لكلمات فصحى مش لها علاقة.

التسعير أغلى من جوجل وWhisper. لو أنت أصلاً تستخدم AWS وتحتاج التكامل مع S3 وLambda وباقي المنظومة، ممكن يكون مريح. غير كذا، صعب أوصي فيه للعربية تحديداً.

OpenAI Whisper

Whisper قلب الموازين لما نزل. نموذج مفتوح المصدر مدرّب على كمية هائلة من البيانات ويدعم أكثر من 90 لغة. واللي يميّزه فعلاً هو إن بيانات تدريبه تشمل محتوى حقيقي من الإنترنت، يوتيوب، بودكاست، ومحادثات فعلية. مش بس نصوص رسمية.

النتيجة: Whisper يتعامل مع اللهجات بشكل أفضل من أغلب المنافسين التجاريين. المصري يطلع معقول، الخليجي كويس، وحتى المغاربي أفضل مما تتوقع. بس، وهذي نقطة مهمة، Whisper يتعامل مع العربية ككتلة واحدة. ما يميّز بين لهجة وثانية. ما يقولك "هذا كلام مصري" أو "هذا شامي". وأحياناً يخلط بين اللهجات في نفس التسجيل.

من ناحية السعر، ما فيه أفضل، تشغّله محلياً على GPU مجاناً تماماً، أو تستخدم الـ API بسعر رخيص. لو تبي حل مرن ومفتوح المصدر وتقدر تعدّل عليه، Whisper خيار ممتاز. لكنه يحتاج خبرة تقنية في الإعداد والتشغيل.

AssemblyAI

AssemblyAI شركة صاعدة بقوة. واجهتهم نظيفة، التوثيق ممتاز، وعندهم ميزات جانبية مثل التلخيص التلقائي وتحليل المشاعر واكتشاف المواضيع. لو مشروعك إنجليزي؟ هم من أفضل الخيارات بلا مبالغة.

بس العربية مش نقطة قوتهم. دعمهم للعربية ما زال في بداياته. الفصحى تطلع بنتائج مقبولة، مش سيئة، بس مش بمستوى جوجل أو Whisper. أما اللهجات فالوضع أضعف بكثير. المغاربية والعراقية تحديداً تكاد تكون غير مدعومة عملياً.

لو تطبيقك يخدم سوق إنجليزي بالدرجة الأولى وعندك شوية محتوى عربي على الجانب، ممكن يمشي الحال. بس لو العربية هي صلب شغلك؟ ما أنصحك تعتمد عليهم كحل أساسي حالياً.

الفصحى مقابل اللهجات، هنا لب المشكلة

خلّني أكون صريح: معظم الخدمات تعطيك نتائج مقبولة على الفصحى. بيانات التدريب المتوفرة، أخبار، خطب رسمية، محاضرات مكتوبة، كلها بالفصحى. فالنماذج تدربت عليها كويس.

لكن كم من حياتنا اليومية بالفصحى؟ تقريباً صفر. لما تسجّل اجتماع عمل، أو محاضرة جامعية (لأن الأستاذ يشرح بالعامية)، أو فكرة سريعة على جوالك، أنت تتكلم بلهجتك. وهنا ينكشف الفرق الحقيقي بين الخدمات.

المشكلة مش بس إن الكلمات مختلفة. اللهجات تغيّر أصوات الحروف نفسها. المصري ينطق الجيم "g" والقاف همزة. الخليجي ينطق الكاف "چ" في بعض المناطق. المغاربي يبلع حروف متحركة كاملة. كل هذا يحتاج نماذج مدرّبة تحديداً على هالتنوع، مش نموذج فصحى مع شوية تعديلات.

التبديل بين اللغات، المشكلة اللي الكل يتجاهلها

في أي بيئة عمل عربية، رح تسمع جمل مثل: "يعني الـ deadline تبعنا is next week، لازم نخلّص الـ presentation قبلها." هذا الخلط بين العربي والإنجليزي طبيعي عندنا. ونسبة كبيرة من التسجيلات الحقيقية فيها تبديل لغوي.

أغلب الخدمات ما تعرف تتعامل مع هالموضوع. تحاول تحول كل شي للعربية أو كل شي للإنجليزية، وتطلع نتيجة مكسّرة. Whisper يتعامل معه بشكل أفضل نسبياً لأن بيانات تدريبه فيها محتوى متعدد اللغات. لكن حتى Whisper مش مثالي في هالنقطة.

ملاحظات عملية من التجربة الفعلية

بعد ساعات من التجربة والمقارنة، هذي أبرز الأشياء اللي لاحظتها:

جودة الصوت تفرق أكثر مما تتخيل، كل الخدمات تتراجع بشكل واضح مع التسجيلات منخفضة الجودة. لكن بعضها أكثر تحمّلاً، Whisper تحديداً يقاوم الضوضاء بشكل أفضل من الباقي.
سرعة المتحدث مؤثرة جداً، الكلام العربي السريع يُربك كل الخدمات بلا استثناء. الفصحى البطيئة والواضحة دايماً تعطي أفضل النتائج.
علامات الترقيم، بعض الخدمات تضيف ترقيم تلقائي والبعض لا. وترقيم العربية تحديداً ضعيف عند أغلب الخدمات، نقاط في أماكن غريبة وفواصل مفقودة.
التعامل مع الأسماء الخاصة، أسماء الأشخاص والأماكن العربية مشكلة عند الجميع. حتى الاسم "محمد" ممكن يطلع بعشر طرق مختلفة حسب نطق المتكلم.
وقت المعالجة، الخدمات السحابية (جوجل، Azure، AWS) سريعة. Whisper محلياً يعتمد على قوة الجهاز، على GPU حديث يكون سريع، وعلى CPU يأخذ وقت.

طيب، أي واحد أختار؟

السؤال الصح مش "أيهم الأفضل؟" بل "أيهم الأنسب لحالتي؟"، والفرق كبير.

لو محتواك فصحى واضحة، Google Cloud أو Azure بيخدموك كويس. الدقة عالية والتكامل مع الأنظمة السحابية سلس.
لو تبي حل مفتوح المصدر تتحكم فيه، Whisper هو الخيار الأوضح. تشغّله على سيرفرك، تعدّل عليه، وما تدفع لأحد.
لو أنت أصلاً على AWS، Transcribe يتكامل بسلاسة مع باقي المنظومة، لكن لا تتوقع عجائب مع اللهجات.
لو مشروعك إنجليزي أساساً، AssemblyAI عندهم ميزات جانبية ممتازة للإنجليزية ممكن تفيدك.
لو محتواك لهجات عربية حقيقية، وهذا واقع أغلب المستخدمين العرب، فالخيارات أعلاه كلها بتخذلك بدرجات متفاوتة.

ماذا عن أداة مبنية من الأساس للعربية؟

كل الخدمات اللي ذكرناها بُنيت أصلاً للإنجليزية. العربية جاءت كإضافة، لغة من ضمن قائمة طويلة من اللغات المدعومة. والفرق يظهر بوضوح لما تتعامل مع كلام عربي حقيقي.

مفكّر اتبنى بنهج مختلف تماماً، من اليوم الأول كان الهدف هو العربية بكل لهجاتها. المصري والخليجي والشامي والمغاربي. مش فصحى فقط، بل الكلام اللي نتكلمه فعلاً كل يوم. والنتيجة هي تفريغ تقدر تستخدمه مباشرة بدون ما تقعد تصحح نص كلمة بنص كلمة.

لو شغلك يعتمد على تحويل كلام عربي واقعي إلى نص، اجتماعات، محاضرات، مقابلات، ملاحظات صوتية، جرّب مفكّر. فيه باقة مجانية تقدر تبدأ فيها وتشوف الفرق بنفسك.

الخلاصة

ما فيه API واحد "أفضل" للجميع. الاختيار يعتمد على نوع المحتوى واللغة اللي تتعامل معها والميزانية ومستوى الدقة اللي تحتاجه.

بس الشي المؤكد هو إن العربية، بتنوعها وغناها ولهجاتها، تحتاج معاملة خاصة. مش مجرد خانة في قائمة "اللغات المدعومة". والأدوات اللي فهمت هالنقطة هي اللي تعطيك نتائج تقدر تعتمد عليها فعلاً.

نصيحتي الأخيرة: لا تعتمد على الأرقام التسويقية. خذ تسجيل حقيقي من شغلك، بلهجتك، بجودة الصوت العادية، وجرّبه على أكثر من خدمة. النتيجة اللي تشوفها بعينك أصدق من أي جدول مقارنة.