تم مناقشة سمنار ما
قبل الكتابة لرسالة ماجستير في كلية تكنولوجيا المعلومات للطالبة غفران عبد الامير
من قبل اللجنة العلمية
من قسم شبكات المعلومات برئاسة الاستاذ المساعد الدكتورة
غيداء عبد الحسين بلال وعضوية كل من الاستاذ المساعد الدكتور اسعد صباح هادي
والاستاذ المساعد الدكتور فائز علي راشد المعموري واشراف الدكتور مهدي عبادي مانع عن الرسالة
الموسومة بـ : " تحسين التشابه في صفحات الانترنيت باستخدام طريقة الهامش
المصغر "
وقد بين الدكتور
مهدي عبادي ان موضوع البحث يتضمن حل مشكلة من مشاكل كيفية ايجاد التشابه في صفحات
الانترنيت
باستخدام طريقة لإيجاد التشابه بين صفحات الويب وحذف المتكرر منها البحث
على محركات البحث العالمية
والتي اعتمدت من قبل شركة كول في عام 2007 وتكون النظام
من عدة مراحل .
حيث ان المرحلة
الاولى تتضمن المعالجة الاولية لرفع العلامات الخاصة بمحتوى الصفحة والفراغات
المتكررة وتوليد
مقاطع مختلفة تسمى K-Shingle و TF-IDFوبعدها يتم توليد مصفوفات خاصة بالتشابه
تسمى Characteristic and Signature Matrix والتي تحول ملفات صفحات الويب الى مصفوفات صغيرة
ذات قيم 0 او 1 .
حيث ان المقطع اذا
كان موجود في الصفحة يكون 1 والا فهو 0 والمرحلة الاخيرة تضمن تطبيق
التقنية Minhash
على المصفوفات المتولدة والتي من خلالها يتم اضافة عدة من دوال hashes .
وكانت المساهمة
الجديدة في هذا العمل هو من خلال استخدام هذه التقنية على بيانات كبيرة وبوقت
قياسي
تضمنت اكثر من 1000 صفحة من قاعدة البيانات وصفحات
من الانترنيت بعد ان تم تصميم خوارزمية كفوءة لهذا الغرض
وتم تقييم النظام من خلال عدة مقاييس تم اعتمادها للنتائج
النهائية
والتي بينت قوة هذه التقنية في ايجاد التشابه باستخدام احد طرق تعدين
البيانات .
