جامعة البصرة تنظم محاضرة عن وظيف النماذج المحولة المدربة مسبقاً للغة العربية في الكشف عن المواضيع وتصنيفها في البيانات النصية العربية

Disable Preloader

جامعة البصرة تنظم محاضرة عن وظيف النماذج المحولة المدربة مسبقاً للغة العربية في الكشف عن المواضيع وتصنيفها في البيانات النصية العربية

نظمت كلية علوم الحاسوب وتكنولوجيا المعلومات في جامعة البصرة محاضرة علمية بعنوان Leveraging Arabic Pre-trained Transformer Models for Topic Detecion and classification in Arabic Textual Data ”.
وهدفت المحاضرة إلى عرض موجزاً لابرز ماتوصلت اليه رسالة الماجساير , والتي تهدف الى معالجة إشكالية تصنيف النصوص العربية غير المهيكلة المتاحة على الإنترنت تلقائياً، وهي مهمة بالغة التعقيد نظراً للخصائص الصرفية والنحوية للغة العربية كالاشتقاق والتشكيل وتعدد الجذور.

وتضمنت المحاضرة، التي قدمتها الباحثة / نور سلمان داود معالجة هذا التحدي، يقترح البحث نظاماً هجيناً متكاملاً يبدأ بمرحلة معالجة مسبقة مخصصة للنص العربي، تشمل التطبيع وإدارة التشكيل وإزالة الكلمات الشائعة واستخراج الجذور، ثم يمر بثلاث مراحل متسلسلة: اكتشاف المواضيع عبر نموذج BERTopic المعتمد على التمثيلات السياقية العميقة، يليه تصنيف تلقائي للمواضيع باستخدام نموذج NAMAA العربي، وأخيراً قياس مستوى التوافق مع التصنيف البشري عبر معامل Cohen's Kappa.

اختُبر النظام على أربعة نماذج لغوية عربية هي Asafaya وAraBERTv2 و AraBERTv2 وQARiB، باستخدام مجموعتَي أخبار عربية في مجالَي الرياضة والاقتصاد تتباينان في حجمهما وتوزيع فئاتهما، مما يحاكي بيئات النشر الحقيقية. وقد أظهر النظام قدرة عالية على اكتشاف مواضيع ذات تماسك دلالي مرتفع، مع دقة تصنيف بلغت 98.2% وتطابق شبه تام مع التصنيف البشري.