مدونتنا

Blog Thumbnail

أفضل 5 خوارزميات تجميع Clustering يجب أن تعرفها|SHAI

خوارزمية التجميع هي واحدة من أساسيات التعلم غير الخاضع للإشراف, تتعامل مع البيانات غير الموسومة وتصنفها الى مجموعات بناء على أوجه الشبه, اقرأ المقال.

2/8/2025 - 10 دقائق


أفضل 5 خوارزميات تجميع Clustering لتصنيف البيانات: اختر الخوارزمية بعناية 

هل من المهم تحديد نوع الخوارزمية قبل البدء بالعمل على نموذجك؟ تحديد النوع المناسب من خوارزمية التجميع  Clustering يمثل خطوة حاسمة في عمليات تحليل البيانات وفهمها, إذ يتعلق الأمر بفهم هيكل وطبيعة البيانات التي نعمل عليها، والاستفادة القصوى من هذه العملية تعتمد على اختيار الخوارزمية المناسبة. 


تنوع البيانات وتعقيدها يجعل من اختيار نوع خوارزمية التجميع المناسبة أمرا حيويا في مجال تحليل البيانات, بحيث يعكس هذا الاختيار درجة فهمنا لخصائص البيانات وكيفية تنظيمها، مما يسهم في استخراج أقصى قيمة ممكنة من البيانات المتاحة، وقد تكون تقنيات التجميع المختلفة أكثر فعالية في التعامل مع أنواع معينة من البيانات. فعلى سبيل المثال، يمكن أن تكون خوارزميات التجميع القائمة على المراكز الكتل فعالة لتجميع البيانات التي تتبع هياكل مركزية، بينما قد تكون التجميعات القائمة على التوزيع أكثر ملاءمة للبيانات التي تظهر توزيعًا غير منتظم.

لتستطيع اختيار الخوارزمية المناسبة لك, عليك أن تعرف مفهوم خوارزمية التجميع بالإضافة الى طرق تنفيذها وخصائص كل نوع منها, يقدم لك هذا المقال دليل حول أفضل خوارزميات التجميع Clustering, لا تفوت المقال. 


ما هي خوارزمية التجميع Clustering ودورها في تحليل البيانات 

خوارزمية التجميع Clustering هي واحدة من أساسيات التعلم الآلي غير خاضع للإشراف Unsupervised Learning, حيث يتم التعامل مع بيانات إدخال غير موسومة, أما عن مفهومها والهدف منها فهي تستخدم لتقسيم مجموعة من البيانات إلى مجموعات فرعية أو تجميعات بناء على خصائص محددة, حيث يتمثل الهدف في جمع العناصر المتشابهة معا وتفريقها عن العناصر الأخرى لتشكيل تجمعات مميزة. [1]


ولكن لماذا هي مهمة اليوم؟ 

خوارزميات التجميع تمثل أداة حيوية في مجال تحليل البيانات، حيث تلعب دورا أساسيا في فهم وتنظيم البيانات غير المصنفة, بحيث تسهم  في استخلاص الأنماط والتشابهات في البيانات، مما يمكن من تحديد هيكلها والكشف عن العلاقات بين مجموعات البيانات المتشابهة. 

بالإضافة إلى ذلك، يمكن استخدام خوارزمية التجميع لتسهيل عمليات التصنيف وتحسين أداء أنظمة التصنيف. كما تستخدم هذه الخوارزميات في ضغط البيانات، مما يحسن كفاءة التخزين والمعالجة. يتيح فهم هيكل البيانات واكتشاف العلاقات الكامنة، بالإضافة إلى تجنب الحاجة إلى التوجيه الإشرافي، إمكانية تحليل البيانات بشكل أكثر مرونة.



طرق تنفيذ خوارزميات التجميع

يختلف النهج الذي يتم من خلاله تنفيذ التجميع على البيانات تبعا لاختلاف نوع البيانات المراد تحليلها والهدف منه, هذه أهم أربعة طرق لتنفيذها: [2]

  • تجميع البيانات بناء على الكثافة Density-Based

 يتم تجميع البيانات حسب مناطق التركيز العالي لنقاط البيانات محاطة بمناطق ذات تراكم منخفض لنقاط البيانات. ببساطة، تقوم الخوارزمية بالبحث عن الأماكن التي تكون كثيفة بنقاط البيانات وتسمى هذه الأماكن "تجمعات" أو "مجموعات". إن أهم ما يميزها هو أن التجمعات يمكن أن تكون بأي شكل دون وجود قيود على الظروف المتوقعة, بالإضافة الى ذلك, فإنها تتجاهل القيم الشاذة ولا تضمها الى التجمعات.


  • بناء على التوزيع Distribution-based

تعتبر جميع نقاط البيانات أجزاء من تجمع بناء على احتمالية أن تنتمي إلى تجمع معين, بحيث يكون هناك نقطة مركزية، ومع زيادة مسافة نقطة البيانات عن المركز، تقل احتمالية أن تكون جزءا من ذلك التجمع.


  • بناء على مركز الكتل Centroid-based

تقوم على مبدأ فصل نقاط البيانات استنادا إلى عدة مراكز في البيانات, من خلال تعيين كل نقطة بيانات إلى مجموعة بناء على قيمة تربيع مسافتها عن المركز. هذا هو النوع الأكثر استخداما من بين أنواع التجميع, و ما يميزها هو أنها تظهر حساسية قليلة تجاه المعاملات الأولية التي تُعطى لها، ولكنها سريعة وفعالة.


  • القائم على التسلسل Hierarchical-based

التجميع القائم على التسلسل

يُستخدم هذا النهج عادة في تنظيم البيانات التسلسلية، مثل تلك التي يمكن الحصول عليها من قاعدة بيانات الشركة أو التصنيفات الضريبية, يقوم ببناء شجرة من التجمعات حيث يتم تنظيم كل شيء من الأعلى إلى الأسفل, 


هذا يكون أكثر قيودًا من غيره من أنواع التجميع، ولكنه مثالي لأنواع معينة من مجموعات البيانات.



أفضل 5 خوارزميات تجميع يمكنك استخدامها

تعرف في هذا القسم على أهم 5 خوارزميات تجميع وإيجابيات وسلبيات كل منها: [3]


  • خوارزمية K-mean

وهي أكثر خوارزمية تجميع شيوعا لأنها سهلة الفهم والتنفيذ. تشكل خوارزمية تجميع k-means جزءا حيويا من مقدمة علم البيانات وتعلم الآلة, فيما يلي توضيح سريع لكيفية عملها: يتم تحديد بعض الفئات أو المجموعات ثم تهيئة نقاط الوسط بشكل عشوائي, بعد ذلك

تصنف كل نقطة بيانات عن طريق حساب المسافة بينها وبين وسط كل مجموعة. الخطوة التالية هي تصنيف النقطة الى المجموعة التي يكون وسطها أقرب إليها.

بعد ذلك, يتم حساب المتوسط ​​لجميع الفيكتورات في المجموعة المحددة وإعادة حساب وسط المجموعة, تكرر هذه العملية عدة مرات.  

الإيجابيات 

  • تعتبر الأسرع بسبب سهولة الحسابات


السلبيات

  • تحديد وتصنيف الفئات يمكن أن يكون صعبا بعض الشيء
  • لأن اختيار مراكز التجميع يكون عشوائيا, إن النتائج قد تفتقر إلى التناسق



  • خوارزمية Mean-shift

تساعد في العثور على المناطق الكثيفة لنقاط البيانات, فهي خوارزمية قائمة على المركز تهدف إلى تحديد نقاط المراكز لكل مجموعة. تعمل عن طريق تحديث المرشحين لنقاط المركز كمتوسط ​​للنقاط داخل النافذة المتحركة, ثم تأتي مرحلة ما بعد المعالجة من خلال تصفية نوافذ المرشحين، مما يساعد في القضاء على النسخ القريبة جدا, وبالتالي، تكون النتيجة تشكيل مجموعة نهائية من نقاط المركز مع مجموعاتها المقابلة

 الإيجابيات 

  • لا يلزم اختيار عدد التجمعات كما في خوارزمية K-means
  • تتجه مراكز التجميع نحو نقطة الكثافة القصوى، وهو جانب مرغوب لأنه يتناسب جيدًا مع المنطق القائم على البيانات

                   

السلبيات

  • اختيار حجم النافذة ونصف قطرها يشكل تحديا، حيث إذا كان حجم النافذة صغيرا جدا، قد يؤدي ذلك إلى انغماس سريع للخوارزمية مما يؤدي إلى تكوين مجموعات صغيرة متنازعة، أما إذا كان حجم النافذة كبيرا جدا، قد يؤدي ذلك إلى انغماس بطيء، مما قد يسفر عن دمج مجموعات متميزة.


  • الخوارزمية القائمة على الكثافة  DBSCAN

 هي خوارزمية تجميع قائمة على الكثافة في المجال مع التصنيف للضوضاء، تعتبر تحسينا على خوارزمية Mean-Shift حيث تتمتع بمزايا محددة. تبدأ خوارزمية DBSCAN بنقطة بيانات بداية عشوائية, يتم تصنيف جميع النقاط ضمن مسافة معينة (تسمى إبسيلون - Ɛ) كنقاط مجاورة, ولكن لبدء عملية التجمع يتطلب وجود عدد أدنى من النقاط في الجوار, إذا توفرت هذه الشروط، تصبح النقطة الحالية أول نقطة في المجموعة, ولكن في حال عدم توفرها تصنف النقطة على أنها "ضوضاء". بكلتا الحالتين، تصبح النقطة الحالية نقطة تم زيارتها. بعد ذلك, تصبح جميع النقاط ضمن المسافة Ɛ جزءا من نفس المجموعة. يتم تكرار العملية لجميع النقاط الجديدة المضافة إلى مجموعة التجميع، مما يؤدي إلى تكوين مجموعات متجانسة استنادًا إلى كثافة النقاط في المجال. تستمر الخوارزمية في العمل حتى تقوم بزيارة ووسم كل نقطة ضمن مجال Ɛ للمجموعة. عند اكتمال العملية، يتم بدء العمل من جديد باختيار نقطة غير مزروعة مما يؤدي إلى اكتشاف مجموعات إضافية أو ضوضاء. في النهاية، يتم وضع علامة على كل نقطة لتحديد ما إذا كانت جزءا من مجموعة أو تعتبر ضوضاء.

الإيجابيات 

  • تعتبر من أفضل خوارزميات التجميع, لأنها لا تتطلب تحديد عدد مسبق من المجموعات
  • تحدد القيم الشاذة على أنها ضوضاء، على عكس طريقة Mean-Shift التي تقوم بإلزام مثل هذه النقاط في المجموعة على الرغم من وجود خصائص مختلفة لديها
  • توجد المجموعات بأشكال وأحجام مختلفة بشكل جيد


السلبيات

  • الخوارزمية ليست فعالة جدا عندما تكون هناك مجموعات ذات كثافات متباينة, هناك تباين في تحديد حد المسافة Ɛ والنقاط الدنيا لتحديد الجوار عند حدوث تغير في مستويات الكثافة.
  • إذا كانت لديك بيانات ذات أبعاد عالية، فإن تحديد حد المسافة Ɛ يصبح مهمة صعبة



  • خوارزمية تجميع EM باستخدام GMM-تجميع بواسطة التوقع والتحسين EM باستخدام نماذج الاختلال الطبيعي GMM

نماذج الاختلال الطبيعي GMMs أكثر مرونة من خوارزمية K-means. نبدأ بالافتراض بأن نقاط البيانات موزعة بشكل طبيعي غاوسي, هناك معاملين لوصف شكل كل مجموعة، وهما المتوسط والانحراف المعياري, حيث يمكن للمجموعة أن تأخذ أي شكل إهليلجي نظرا لوجود انحراف معياري في كل من الاتجاهين X و Y، وليس من الضروري أن يكون لديها شكل دائري, وبالتالي، فإن كل مجموعة فردية تتبع توزيع غاوسي. نستخدم خوارزمية EM كخوارزمية تحسين للعثور على معاملات التوزيع الغاوسي لكل مجموعة. تعمل الخوارزمية كالآتي, يتم اختيار عدد المجموعات وتهيئة معاملات توزيع غاوس لكل مجموعة, ثم حساب احتمالية كل نقطة بيانات بالانتماء إلى مجموعة معينة، حيث يزيد احتمال الانتماء كلما اقتربت النقطة من مركز التوزيع الغاوسي. بناء على هذه الاحتمالات، يتم تحديد معاملات جديدة لتوزيعات غاوس لتعظيم احتمالات نقاط البيانات. تكرر هذه الخطوات حتى يتحقق التقارب حيث لا توجد اختلافات كبيرة.

الإيجابيات

  • تتميز بمستوى أعلى من المرونة فيما يتعلق بتغطية التجمع في نماذج الاختلال الطبيعي GMMs مقارنة بتجميع K-means بسبب مفهوم الانحراف المعياري



  • خوارزمية التسلسل الهرمي

هناك فئتين من خوارزميات التجميع الهرمي، الأعلى لأسفل والأسفل لأعلى. في مفهوم الأسفل لأعلى من التجميع الهرمي تعامل كل نقطة بيانات كمجموعة فردية في المرحلة الأولية, ثم يتم دمج أزواج من المجموعات حتى تصبح لديك مجموعة واحدة تحتوي على جميع نقاط البيانات. يمكن مقارنتها بشجرة حيث يكون الجذر هو المجموعة الفريدة التي تجمع جميع العينات، وتكون الأوراق هي المجموعات التي تحتوي على عينة واحدة. 

تعمل الخوارزمية كالآتي,  يتم اعتبار كل نقطة بيانات فردية كمجموعة مستقلة, ثم يتم اختيار مقياس للمسافة لقياس البعد بين مجموعتين, بعد ذلك يتم استخدام طريقة الارتباط المتوسط، حيث تكون المسافة بين مجموعتين هي المسافة المتوسطة بين نقاط البيانات في كل مجموعة.

في كل تكرار، يتم دمج مجموعتين لديهما أدنى ارتباط متوسط، حتى نصل إلى مجموعة واحدة كبيرة تحتوي على جميع نقاط البيانات.

الإيجابيات

  • لا يتم تحديد عدد المجموعات مسبقا بل يمكنك اختيار أفضل المجموعات
  •  هذه الخوارزمية ليست حساسة لاختيار مقياس المسافة أي يمكن استخدام مختلف مقاييس المسافة دون أن يؤثر ذلك بشكل كبير على أدائها



الخاتمة 

تعتبر خوارزميات التجميع من الخوارزميات شائعة الاستخدام والتي تعد أفضل خيار إذا أردت أن تتعامل مع بيانات غير موسومة, بحيث تستطيع تصنيفها وتقسيمها الى مجموعات منفصلة بناء على خصائص محددة. 


تتنفذ خوارزميات التجميع بأربع طرق: بناء على الكثافة عندما تجمع البيانات حسب مناطق التركيز العالي, بناء على التوزيع بحيث تكون البيانات موزعة حول المركز وكلما زاد بعدها عن المركز قلت احتمالية انضمامها الى هذا التجميع, بناء على مركز الكتل حيث تعين كل نقطة بناء على قيمة تربيع مسافتها عن المركز, وأخيرا القائم على التسلسل.


أما عن أفضل خوارزميات التجميع, فلدينا خوارزمية  K-means تمتاز بأنها أكثر شيوعا لأنها الأسرع والأسهل, خوارزمية Mean-shift تستخدم المراكز كنقاط مرجعية للعثور على مناطق كثيفة لنقاط البيانات.


أما خوارزمية DBSCAN تعتبر من أفضل خوارزميات التجميع لأنها تتعامل مع القيم الشاذة على أنها ضوضاء, خوارزمية تجميع EM باستخدام GMM تتمتع بالمرونة لأنها تستخدم مفهوم الانحراف المعياري   وخوارزمية التسلسل الهرمي. اختيار الخوارزمية المناسبة يعتمد على نوع البيانات التي ستتعامل معها والهدف منه لذلك ابذل مجهودا لاختيار النوع الأنسب والأفضل لك. 





المصادر

  1. Clustering in Machine Learning - GeeksforGeeks
  2. 8 Clustering Algorithms in Machine Learning that All Data Scientists Should Know
  3. Top 5 Clustering Algorithms Data Scientists Should Know



لايوجد تعليقات بعد!

سجل الدخول ﻹضافة تعليق

العلامات
التعلم الالي