جامعة بيرزيت تطلق مدوّنة محوسبة تشمل ست لهجات عاميّة

جامعة بيرزيت تطلق مدوّنة محوسبة تشمل ست لهجات عاميّة

  أطلقت جامعة بيرزيت، يوم السبت، مدونة تشمل حوسبة لست لهجات عربية (1.3) مليون كلمة.

وشملت المدونة اللهجات: الفلسطينية واللبنانية والعراقية والليبية والسودانية واليمنية، وتهدف إلى إغناء الحاسوب وتقنيات الذكاء الاصطناعي في مساعدتها على فهم النصوص المكتوبة بالعاميات العربية، عملت على بعض منها مع الجامعة الأميركية والأمم المتحدة، وتم إطلاق هذه المدونة في مكتب الأمم المتحدة في نيويورك. 

والمدونة هي مجموعة من النصوص العامية التي تم جمعها من عدة مواقع وشبكات تواصل اجتماعي مثل تويتر وفيسبوك ويوتيوب، ونصوص أخرى، وتم تصريف وتعريف خصائص كل كلمة في هذه النصوص، وتوسيم كل كلمة في النص وتحليلها إلى سوابق ولواحق وجذر وقسم كلام، إضافة إلى مدخلة عامية وفصحى ومعنى باللغة الإنجليزية.  

ويمكن استخدام المدونة كمعجم ثلاثي، عامية-فصحى-إنجليزية، خاصة للأجانب والباحثين، ولبناء تطبيقات حاسوبية يمكنها فهم ما يكتب على شبكات التواصل الاجتماعي كي يتمكن الحاسوب من ترجمة وفهم المحتوى العربي المكتوب بالعامية، وبالتالي تحويل النص العامي آلياً إلى الفصحى، وتدقيق النصوص العامية وترجمتها آلياً وغيرها.

تجدر الإشارة إلى أن مدونة اللهجة العامية الفلسطينية (تسمى كراس) قد تم حوسبتها وإطلاقها سابقا عام 2013 بدعم من وزارة التعليم العالي، وقد تم إعادة العمل على هذه المدونة وتحسين محتواها وإضافة مدونة العامية اللبنانية (تسمى بلدي) والتي تتكون من حوالي 10 آلاف كلمة، بحيث تصبح المدونة الفلسطينية واللبنانية معاً تمثيلا للهجات الشامية.

وجرى بناء مدونة اللهجات الأربع الأخرى (الليبية والسودانية والعراقية واليمنية) اعتمادا على المنهجية التي استخدمت لبناء المدونة الفلسطينية، وذلك بالتعاون بين جامعة بيرزيت وكل من الجامعة الأميركية في بيروت والأمم المتحدة.

وتم جمع المدونة اليمنية من تويتر، وتحتوي على حوالي مليون كلمة، أما المدونة الليبية والسودانية والعراقية فقد تم جمعها من موقعي فيسبوك ويوتيوب، وتحتوي كل منها على حوالي 50 ألف كلمة، ويمكن للباحثين تنزيل واستعمال المدونة بالكامل من خلال هذا الرابط:  http://portal.sina.birzeit.edu/curras.

 
https://fb.watch/htvJTe3NjP

تزامناً مع اليوم العالمي للغة العربية، يسعدنا في جامعة بيرزيت إطلاق منصة اللهجات العامية العربية (كراسات). قمنا بحوسبة 6 لهجات عربية (فلسطينية، لبنانية، عراقية، يمنية، ليبية، سودانية). We are happy to release six Arabic dialects corpora (1.3 million tokens, morphologically-annotated) https://portal.sina.birzeit.edu/curras تمت حوسبة (العراقية واليمنية والليبية والسودانية) بالتعاون مع الأمم المتحدة والجامعة الامريكية ببيروت. For more: https://portal.sina.birzeit.edu/curras/about-ar.html #اليوم_العالمي_للغة_العربية #AI #ArabicNLP #NLP #NLP4Peace #AI4Peace #Birzeit_University #UN_DPPA #UN #arabiclanguageday #arabic_ontology

Posted by ‎Birzeit University | جامعة بيرزيت‎ on Saturday, December 17, 2022