بحث علمي في جامعة دمشق لضبط المحتوى العربي على تويتر المتعلق بكوفيد 19

هدفت الدراسة التي قدمها فريق بحثي من كلية الهندسة المعلوماتية بجامعة دمشق إلى تقديم نهج فعال يعتمد على نموذج اللغة AraBERT لمكافحة التغريدات المتعلقة بالوباء المعلوماتي الخاص بكوفيد-19
.

رتب الفريق البحثي الدراسة على شكل خطة مؤلفة من خطوتين حيث تضمنت الخطوة الأولى سلسلة من إجراءات المعالجة المسبقة لتحويل مصطلحات تويتر، بما في ذلك الرموز التعبيرية والرموز الانفعالية، إلى نص عادي، واستغلت الخطوة الثانية نسخة من AraBERT، والتي تم تدريبه مسبقاً على النص العادي لضبط التغريدات وتصنيفها فيما يتعلق بتسميتها.

كان الدافع وراء استخدام النماذج اللغوية المدربة مسبقاً على النصوص البسيطة بدلاً من التغريدات هو ضرورة معالجة قضيتين حاسمتين أظهرتهما الأدبيات العلمية، وهما الأول نماذج اللغة المدربة مسبقاً متاحة على نطاق واسع في العديد من اللغات، مع تجنب الوقت. كتدريب نموذجي مستهلك ومكثف للموارد مباشرة على التغريدات من الصفر، مما يسمح بالتركيز فقط على ضبطها، الثاني مجموعات النص العادي المتاحة أكبر من تلك المخصصة للتغريدات فقط، مما يسمح بأداء أفضل.

قام بالدراسة في كلية الهندسة المعلوماتية بجامعة دمشق عام 2021 فريق بحثي مؤلف من ثلاثة باحثين.

 



عداد الزوار / 775642322 /