كلية العلوم تناقش رسالة ماجستير بعنوان(مولد تعليق الصور باستخدام نماذج التعلم العميق)
ناقش قسم الحاسبات في كلية العلوم رسالة الماجستير للطالب ياسر حميد زيدان الموسومة
(مولد تعليق الصور باستخدام نماذج التعلم العميق) وعلى قاعة المناقشات في قسم الفيزياء.
هدفت هذه الرسالة الى إنتاج تعليقات توضيحية عالية الجودة عن الصور وتحتوي على معلومات دقيقة ومفيدة عن جميع العناصر والكائنات المرئية الموجودة في الصورة، ويتم استخدام كل من رؤية الكمبيوتر ومعالجة اللغة الطبيعية في هذه المهمة الصعبة المتمثلة في تسمية الصور.
تناولت الدراسة اقتراح نظامين باستخدام نموذج Encoder-Decoder ، النظام الأول يستخدم EfficientNet-B7 الذي تم تدريبه مسبقًا والثاني يستخدم Inception V3 مُدرَّبًا مسبقًا أيضا، باعتبارهم، وحدة تشفير(Encoder) لإستخراج الميزات ، ويستخدم النظامان LSTM مع آلية الانتباه(Attention Mechanism) كوحدة فك ترميز(Decoder) لإنشاء تسميات توضيحية كلمة بكلمة مع التركيز على الأجزاء الأكثر صلة بالصورة. تسمح آلية الانتباه للنموذج بالحضور إلى أجزاء مختلفة من الصورة في أوقات مختلفة أثناء عملية إنشاء التسمية التوضيحية ، مما يؤدي إلى تسميات توضيحية وصفية وأكثر دقة.
يتم تدريب الأنظمة المقترحة على مجموعة بيانات MSCOCO (Microsoft Common Objects in Contex) باستخدام مقاييس Bleu (B1 و B2 و B3 و B4) ودرجة Meteor. حقق النظام باستخدام EfficentNet-B7 النتائج(B1 = 0.888، B2 = 0.875، B3 = 0.857، B4 = 0.666 ، و Meteor = 0.698)، وحقق النظام مع Inception V3 النتائج(B1 = 0.78، B2 = 0.65 ، B3 = 0.51 ، B4 = 0.42 ، و Meteor = 0.543).
واظهرت نتائج النظام الأول مع EfficientNet-B7 المدربة مسبقًا أفضل وأعلى في جميع المقاييس المستخدمة.