Speech Evaluation Lane

مسار تقييم الصوت التحريري العربي

بطاقة Labs عامة لتقييم سير عمل التفريغ الصوتي العربي قبل تحوله إلى benchmark منشور: التأخير، وبنية المتحدث، والتعامل مع التداخل، وكلفة الإصلاح التحريري.

هذه الصفحة تفتح مسار الصوت داخل Labs كطبقة قرار علنية: كيف نقيس التفريغ العربي في غرفة تحرير فعلية قبل تحويله إلى artifact قابلة للتنزيل والنشر.

هذا المسار يحول طبقة المقالة والمراجعة في الصوت إلى إطار Labs تشغيلي واضح، مرتبط بمراجع حية من Hugging Face وبمكدس مقاييس صريح للتفريغ التحريري.

فتح مسار الصوت التقاط المصادر التحريرية إطار حي من Hugging Face

افتح المقالة المرجعية افتح مراجعة Whisper افتح Voxtral على HF

وضع المسار

بطاقة المسار منشورة الآن. تصدير الـdataset وحزم الصوت المصدرية تأتي في الخطوة التالية بعد تثبيت مجموعة التقييم.

هذا المسار منشور الآن كبطاقة scorecard ومراجع تشغيلية. لم نعلن بعد dataset صوتية مستقلة، لكن الإطار صار جاهزًا على السطح العام ويمكن البناء فوقه مباشرة.

الموديلات الحية

المرشح اللحظي

mistralai/Voxtral-Mini-4B-Realtime-2602

التنزيلات: 777.4 ألف

آخر تحديث: 11 مارس 2026

الخط المرجعي

openai/whisper-large-v3

التنزيلات: 4.9 مليون

آخر تحديث: 12 أغسطس 2024

إطار التقييم

دقة التعرف

قِس جودة النص الخام، لكن أبقها طبقة واحدة داخل البطاقة لا القرار كله.

إسناد المتحدث

النصوص التحريرية تنهار سريعًا عندما تُنسب الاقتباسات أو الأدوار إلى المتحدث الخطأ.

التعامل مع التداخل

قِس ما إذا كان المسار يحافظ على بنية صالحة للاستخدام عندما يتداخل الكلام أو تتراكب الأصوات.

ملف التأخير

الأنظمة اللحظية تحتاج مقايضة بين الجودة والتأخير تظل صالحة للملاحظات الحية والترجمة الفورية والتقاط المصادر.

كلفة الإصلاح البشري

المقياس النهائي هو وقت المحرر: كم إصلاحًا يحتاجه النص قبل أن يصبح صالحًا للاقتباس والبحث والنشر.

الإطار المرجعي

model

mistralai/Voxtral-Mini-4B-Realtime-2602

المرشح اللحظي الذي يجعل التأخير جزءًا من تعريف الجودة لا هامشًا لاحقًا.

model

openai/whisper-large-v3

الخط المرجعي متعدد اللغات الذي ما زال يثبت التفريغ طويل الشكل والاعتمادية خارج الزمن الحقيقي.

paper

Diarization-Aware Multi-Speaker ASR

إشارة بحثية تدفع تقييم التفريغ نحو مسارات واعية بالمتحدث وبالتداخل.

paper

Joint ASR and Speaker Role Diarization

مرساة بحثية ثانية للتعامل مع بنية المتحدث كجزء من فائدة النص لا كميزة جانبية.

ما الذي يأتي بعد ذلك

تثبيت مجموعة التقييم

تحديد أول سيناريوهات المقابلات والاجتماعات والتداخل التي تستحق أن تصبح النواة العلنية القابلة لإعادة الإنتاج.

تجهيز حزم الصوت المصدرية

تجميع المقاطع المصدرية والنصوص المرجعية وملاحظات الإصلاح حتى ينتقل المسار من التأطير التحريري إلى أدلة benchmark فعلية.

نشر الدفعة على Hugging Face

بعد استقرار المجموعة، نُصدر أول artifact صوتية كدفعة Labs عامة بدل إبقائها كملاحظة داخلية.

المواد المرتبطة

مقال DevHub

التحويل من الصوت إلى النص بالعربية في 2026: توقّف عن ترتيب الأنظمة وفق WER فقط

جودة التحويل من الصوت إلى النص بالعربية لا يختصرها رقم خطأ واحد. هذا الدليل يوضح كيف نقيّم أنظمة التفريغ الصوتي لسير العمل التحريري الحقيقي، حيث يهم المتحدث والزمن والتكلفة البشرية بقدر أهمية التعرف الخام.

28 مارس 2026 • 4 دقائق قراءة

مراجعة مراجعات العتاد والبرمجيات

مراجعة Whisper large-v3: هل يصلح فعلًا كعمود ترجمة صوتية لغرفة أخبار عالمية؟

ما يزال Whisper large-v3 من أكثر قواعد التحويل من الصوت إلى النص فائدة لعمليات التحرير الثنائية اللغة، لكن القيمة الحقيقية في غرفة الأخبار لا تتحدد بالدقة الخام وحدها.

Whisper التفريغ الصوتي تحويل الكلام إلى نص غرفة الأخبار

27 مارس 2026 • 4.6/5

مقال DevHub

مخطط DevHub: طبقة تحريرية ثنائية اللغة بالذكاء الاصطناعي من دون إبطاء الموقع

بناء منشور تقني عالمي بالعربية والإنجليزية لا يتطلب ترجمة فقط، بل يحتاج طبقة تحريرية ذكية للبحث والتفريغ والاكتشاف متعدد اللغات.

DevHub Hugging Face الترجمة سير التحرير Embeddings تحويل الكلام إلى نص

27 مارس 2026 • 2 دقائق قراءة