خوارزمية التجميع هي واحدة من أساسيات التعلم غير الخاضع للإشراف, تتعامل مع البيانات غير الموسومة وتصنفها الى مجموعات بناء على أوجه الشبه, اقرأ المقال.
هل من المهم تحديد نوع الخوارزمية قبل البدء بالعمل على نموذجك؟ تحديد النوع المناسب من خوارزمية التجميع Clustering يمثل خطوة حاسمة في عمليات تحليل البيانات وفهمها, إذ يتعلق الأمر بفهم هيكل وطبيعة البيانات التي نعمل عليها، والاستفادة القصوى من هذه العملية تعتمد على اختيار الخوارزمية المناسبة.
تنوع البيانات وتعقيدها يجعل من اختيار نوع خوارزمية التجميع المناسبة أمرا حيويا في مجال تحليل البيانات, بحيث يعكس هذا الاختيار درجة فهمنا لخصائص البيانات وكيفية تنظيمها، مما يسهم في استخراج أقصى قيمة ممكنة من البيانات المتاحة، وقد تكون تقنيات التجميع المختلفة أكثر فعالية في التعامل مع أنواع معينة من البيانات. فعلى سبيل المثال، يمكن أن تكون خوارزميات التجميع القائمة على المراكز الكتل فعالة لتجميع البيانات التي تتبع هياكل مركزية، بينما قد تكون التجميعات القائمة على التوزيع أكثر ملاءمة للبيانات التي تظهر توزيعًا غير منتظم.
لتستطيع اختيار الخوارزمية المناسبة لك, عليك أن تعرف مفهوم خوارزمية التجميع بالإضافة الى طرق تنفيذها وخصائص كل نوع منها, يقدم لك هذا المقال دليل حول أفضل خوارزميات التجميع Clustering, لا تفوت المقال.
خوارزمية التجميع Clustering هي واحدة من أساسيات التعلم الآلي غير خاضع للإشراف Unsupervised Learning, حيث يتم التعامل مع بيانات إدخال غير موسومة, أما عن مفهومها والهدف منها فهي تستخدم لتقسيم مجموعة من البيانات إلى مجموعات فرعية أو تجميعات بناء على خصائص محددة, حيث يتمثل الهدف في جمع العناصر المتشابهة معا وتفريقها عن العناصر الأخرى لتشكيل تجمعات مميزة. [1]
ولكن لماذا هي مهمة اليوم؟
خوارزميات التجميع تمثل أداة حيوية في مجال تحليل البيانات، حيث تلعب دورا أساسيا في فهم وتنظيم البيانات غير المصنفة, بحيث تسهم في استخلاص الأنماط والتشابهات في البيانات، مما يمكن من تحديد هيكلها والكشف عن العلاقات بين مجموعات البيانات المتشابهة.
بالإضافة إلى ذلك، يمكن استخدام خوارزمية التجميع لتسهيل عمليات التصنيف وتحسين أداء أنظمة التصنيف. كما تستخدم هذه الخوارزميات في ضغط البيانات، مما يحسن كفاءة التخزين والمعالجة. يتيح فهم هيكل البيانات واكتشاف العلاقات الكامنة، بالإضافة إلى تجنب الحاجة إلى التوجيه الإشرافي، إمكانية تحليل البيانات بشكل أكثر مرونة.
يختلف النهج الذي يتم من خلاله تنفيذ التجميع على البيانات تبعا لاختلاف نوع البيانات المراد تحليلها والهدف منه, هذه أهم أربعة طرق لتنفيذها: [2]
يتم تجميع البيانات حسب مناطق التركيز العالي لنقاط البيانات محاطة بمناطق ذات تراكم منخفض لنقاط البيانات. ببساطة، تقوم الخوارزمية بالبحث عن الأماكن التي تكون كثيفة بنقاط البيانات وتسمى هذه الأماكن "تجمعات" أو "مجموعات". إن أهم ما يميزها هو أن التجمعات يمكن أن تكون بأي شكل دون وجود قيود على الظروف المتوقعة, بالإضافة الى ذلك, فإنها تتجاهل القيم الشاذة ولا تضمها الى التجمعات.
تعتبر جميع نقاط البيانات أجزاء من تجمع بناء على احتمالية أن تنتمي إلى تجمع معين, بحيث يكون هناك نقطة مركزية، ومع زيادة مسافة نقطة البيانات عن المركز، تقل احتمالية أن تكون جزءا من ذلك التجمع.
تقوم على مبدأ فصل نقاط البيانات استنادا إلى عدة مراكز في البيانات, من خلال تعيين كل نقطة بيانات إلى مجموعة بناء على قيمة تربيع مسافتها عن المركز. هذا هو النوع الأكثر استخداما من بين أنواع التجميع, و ما يميزها هو أنها تظهر حساسية قليلة تجاه المعاملات الأولية التي تُعطى لها، ولكنها سريعة وفعالة.
التجميع القائم على التسلسل
يُستخدم هذا النهج عادة في تنظيم البيانات التسلسلية، مثل تلك التي يمكن الحصول عليها من قاعدة بيانات الشركة أو التصنيفات الضريبية, يقوم ببناء شجرة من التجمعات حيث يتم تنظيم كل شيء من الأعلى إلى الأسفل,
هذا يكون أكثر قيودًا من غيره من أنواع التجميع، ولكنه مثالي لأنواع معينة من مجموعات البيانات.
تعرف في هذا القسم على أهم 5 خوارزميات تجميع وإيجابيات وسلبيات كل منها: [3]
وهي أكثر خوارزمية تجميع شيوعا لأنها سهلة الفهم والتنفيذ. تشكل خوارزمية تجميع k-means جزءا حيويا من مقدمة علم البيانات وتعلم الآلة, فيما يلي توضيح سريع لكيفية عملها: يتم تحديد بعض الفئات أو المجموعات ثم تهيئة نقاط الوسط بشكل عشوائي, بعد ذلك
تصنف كل نقطة بيانات عن طريق حساب المسافة بينها وبين وسط كل مجموعة. الخطوة التالية هي تصنيف النقطة الى المجموعة التي يكون وسطها أقرب إليها.
بعد ذلك, يتم حساب المتوسط لجميع الفيكتورات في المجموعة المحددة وإعادة حساب وسط المجموعة, تكرر هذه العملية عدة مرات.
الإيجابيات
السلبيات
تساعد في العثور على المناطق الكثيفة لنقاط البيانات, فهي خوارزمية قائمة على المركز تهدف إلى تحديد نقاط المراكز لكل مجموعة. تعمل عن طريق تحديث المرشحين لنقاط المركز كمتوسط للنقاط داخل النافذة المتحركة, ثم تأتي مرحلة ما بعد المعالجة من خلال تصفية نوافذ المرشحين، مما يساعد في القضاء على النسخ القريبة جدا, وبالتالي، تكون النتيجة تشكيل مجموعة نهائية من نقاط المركز مع مجموعاتها المقابلة
الإيجابيات
السلبيات
هي خوارزمية تجميع قائمة على الكثافة في المجال مع التصنيف للضوضاء، تعتبر تحسينا على خوارزمية Mean-Shift حيث تتمتع بمزايا محددة. تبدأ خوارزمية DBSCAN بنقطة بيانات بداية عشوائية, يتم تصنيف جميع النقاط ضمن مسافة معينة (تسمى إبسيلون - Ɛ) كنقاط مجاورة, ولكن لبدء عملية التجمع يتطلب وجود عدد أدنى من النقاط في الجوار, إذا توفرت هذه الشروط، تصبح النقطة الحالية أول نقطة في المجموعة, ولكن في حال عدم توفرها تصنف النقطة على أنها "ضوضاء". بكلتا الحالتين، تصبح النقطة الحالية نقطة تم زيارتها. بعد ذلك, تصبح جميع النقاط ضمن المسافة Ɛ جزءا من نفس المجموعة. يتم تكرار العملية لجميع النقاط الجديدة المضافة إلى مجموعة التجميع، مما يؤدي إلى تكوين مجموعات متجانسة استنادًا إلى كثافة النقاط في المجال. تستمر الخوارزمية في العمل حتى تقوم بزيارة ووسم كل نقطة ضمن مجال Ɛ للمجموعة. عند اكتمال العملية، يتم بدء العمل من جديد باختيار نقطة غير مزروعة مما يؤدي إلى اكتشاف مجموعات إضافية أو ضوضاء. في النهاية، يتم وضع علامة على كل نقطة لتحديد ما إذا كانت جزءا من مجموعة أو تعتبر ضوضاء.
الإيجابيات
السلبيات
نماذج الاختلال الطبيعي GMMs أكثر مرونة من خوارزمية K-means. نبدأ بالافتراض بأن نقاط البيانات موزعة بشكل طبيعي غاوسي, هناك معاملين لوصف شكل كل مجموعة، وهما المتوسط والانحراف المعياري, حيث يمكن للمجموعة أن تأخذ أي شكل إهليلجي نظرا لوجود انحراف معياري في كل من الاتجاهين X و Y، وليس من الضروري أن يكون لديها شكل دائري, وبالتالي، فإن كل مجموعة فردية تتبع توزيع غاوسي. نستخدم خوارزمية EM كخوارزمية تحسين للعثور على معاملات التوزيع الغاوسي لكل مجموعة. تعمل الخوارزمية كالآتي, يتم اختيار عدد المجموعات وتهيئة معاملات توزيع غاوس لكل مجموعة, ثم حساب احتمالية كل نقطة بيانات بالانتماء إلى مجموعة معينة، حيث يزيد احتمال الانتماء كلما اقتربت النقطة من مركز التوزيع الغاوسي. بناء على هذه الاحتمالات، يتم تحديد معاملات جديدة لتوزيعات غاوس لتعظيم احتمالات نقاط البيانات. تكرر هذه الخطوات حتى يتحقق التقارب حيث لا توجد اختلافات كبيرة.
الإيجابيات
هناك فئتين من خوارزميات التجميع الهرمي، الأعلى لأسفل والأسفل لأعلى. في مفهوم الأسفل لأعلى من التجميع الهرمي تعامل كل نقطة بيانات كمجموعة فردية في المرحلة الأولية, ثم يتم دمج أزواج من المجموعات حتى تصبح لديك مجموعة واحدة تحتوي على جميع نقاط البيانات. يمكن مقارنتها بشجرة حيث يكون الجذر هو المجموعة الفريدة التي تجمع جميع العينات، وتكون الأوراق هي المجموعات التي تحتوي على عينة واحدة.
تعمل الخوارزمية كالآتي, يتم اعتبار كل نقطة بيانات فردية كمجموعة مستقلة, ثم يتم اختيار مقياس للمسافة لقياس البعد بين مجموعتين, بعد ذلك يتم استخدام طريقة الارتباط المتوسط، حيث تكون المسافة بين مجموعتين هي المسافة المتوسطة بين نقاط البيانات في كل مجموعة.
في كل تكرار، يتم دمج مجموعتين لديهما أدنى ارتباط متوسط، حتى نصل إلى مجموعة واحدة كبيرة تحتوي على جميع نقاط البيانات.
الإيجابيات
الخاتمة
تعتبر خوارزميات التجميع من الخوارزميات شائعة الاستخدام والتي تعد أفضل خيار إذا أردت أن تتعامل مع بيانات غير موسومة, بحيث تستطيع تصنيفها وتقسيمها الى مجموعات منفصلة بناء على خصائص محددة.
تتنفذ خوارزميات التجميع بأربع طرق: بناء على الكثافة عندما تجمع البيانات حسب مناطق التركيز العالي, بناء على التوزيع بحيث تكون البيانات موزعة حول المركز وكلما زاد بعدها عن المركز قلت احتمالية انضمامها الى هذا التجميع, بناء على مركز الكتل حيث تعين كل نقطة بناء على قيمة تربيع مسافتها عن المركز, وأخيرا القائم على التسلسل.
أما عن أفضل خوارزميات التجميع, فلدينا خوارزمية K-means تمتاز بأنها أكثر شيوعا لأنها الأسرع والأسهل, خوارزمية Mean-shift تستخدم المراكز كنقاط مرجعية للعثور على مناطق كثيفة لنقاط البيانات.
أما خوارزمية DBSCAN تعتبر من أفضل خوارزميات التجميع لأنها تتعامل مع القيم الشاذة على أنها ضوضاء, خوارزمية تجميع EM باستخدام GMM تتمتع بالمرونة لأنها تستخدم مفهوم الانحراف المعياري وخوارزمية التسلسل الهرمي. اختيار الخوارزمية المناسبة يعتمد على نوع البيانات التي ستتعامل معها والهدف منه لذلك ابذل مجهودا لاختيار النوع الأنسب والأفضل لك.
المصادر