مدونتنا

Blog Thumbnail

أهم ما يجب أن تعرفه عن خوارزمية K-mean التصنيفية|SHAI

خوارزمية K-mean التصنيفية هي خوارزمية تجميع تعتمد على تصنيف البيانات في مجموعات منفصلة اعتمادا على قيمة K والتي تمثل عدد المجموعات, اقرأ المقال للمزيد.

2/6/2025 - 7 دقائق


الخوارزمية التصنيفية K-mean Clustering: كيف تعمل وما التحديات المتعلقة بها؟  

تخيل معي التالي: انت صاحب متجر بيع بالتجزئة وأردت أن تحدد فئات العملاء بناء على سلوكيات الشراء, ماذا ستفعل؟ ستبدأ أولا بجمع البيانات حولهم بخصوص المبلغ الذي ينفقونه شهريا وعدد مرات زيارة المتجر, ثم قمت بتوزيعهم على مجموعات بناء على أوجه الشبه بينهم, بعد ذلك, توصلت الى نتيجة أن مجموعة من العملاء ينفقون كميات كبيرة من المال ويزورون المتجر بانتظام, بينما مجموعة أخرى من العملاء ينفقون مبالغ أقل ولا يأتون بانتظام.

 تبدو خطوات سهلة وعملية, صحيح؟ هل ستقوم بكل ذلك يدويا؟ اذا أردت أن تعمل بشكل يدوي على ذلك فقد تتوقف في منتصف الطريق حائرا بين كمية البيانات الهائلة, ولكننا في عصر الذكاء الاصطناعي حيث السهولة والسرعة, ماذا لو كانت هذه الخطوات محوسبة؟ إنها الخوارزمية التصنيفية K-mean clustering ستوفر عليك عناء ذلك كله, لتفهم ما هي أكثر وما كيفية عملها ابق معنا في المقال.



ما مفهوم الخوارزمية التصنيفية K-mean؟ 

لنفهم معنى الخوارزمية التصنيفية علينا أولا توضيح معنى خوارزمية التجميع Clustering 

ما هي خوارزمية التجميع Clustering ؟

هي خوارزمية تعلم غير خاضع للإشراف Unsupervised learning وهي عملية تجميع البيانات في مجموعات بناء على أوجه الشبه بينهم. 


أما الخوارزمية التصنيفية K-mean هي خوارزمية تعلم غير خاضع للإشراف Unsupervised Learning, حيث تتعلم التعامل مع البيانات غير الموسومة أو غير المصنفة دون إشراف ودون أي تدريب مسبق, والهدف هو تصنيف البيانات في مجموعات بناء على أنماط معينة وأوجه الشبه بينهم.


اذا تقوم هذه الخوارزمية على تصنيف بيانات الإدخال الى مجموعات منفصلة تختلف عن بعضها البعض ولكن تكون البيانات في المجموعة الواحدة متشابهة من حيث جوانب معينة.

يعبر الـ K في اسمها عن عدد المجموعات المراد تصنيف البيانات إليها, مثلا: إذا كانت K=2 إذا ينبغي تصنيف البيانات إلى مجموعتين, وإذا كانت K=3 اذا سيتم تصنيفها الى ثلاث مجموعات, يجب تحديد قيمة K مسبقا (سنأتي بالتفصيل الى كيفية اختيار قيمة K)


تستخدم المراكز Centroids كنقاط تمثيل لهذه المجموعات, المراكز تمثل وسط كل مجموعة، وتحدث بشكل متكرر حتى يتم تحقيق تجميع مستقر, الهدف هو تقسيم البيانات إلى مجموعات متجانسة وتحديد وسوم لكل مجموعة.  [1]




كيف تعمل خوارزمية التصنيفية؟ 

يتم تمثيل كل تجمع من نقاط البيانات المتشابهة بوسيط يسمى المركز Centroid, وهذا المركز يمثل المتوسط الحسابي لهذه النقاط, اذا كل تجمع من النقاط المتشابهة لها مركز يمثل المتوسط الحسابي لها. [2]


 أثناء عمل الخوارزمية يتم تحديث موقع المراكز بشكل متكرر ومع كل تحديث للمركز يتم إعادة تصنيف النقاط الى أقرب مركز لها, من خلال حساب المسافة بين النقطة والمركز ثم تصنف الى أقرب مركز لها. 


تستمر هذه العملية الى أن تكون كل نقطة أقرب الى مركز واحد وهو مركز تجمعها الخاص بدلا من أن تكون أقرب الى مراكز التجمعات الأخرى, إذا الهدف من العملية  السابقة هو التكرار للوصول الى عدد التجمعات المطلوب والذي تم تحديده مسبقا بواسطة K.

 إذا تستمر العملية السابقة حتى نحصل على عدد التجمعات بناء على قيمة K , على سبيل المثال، عند ضبط قيمة K على 2، سيتم تجميع مجموعة البيانات الخاصة بك في تجمعين، في حين أنه إذا قمت بتعيين K  على 4، ستجمع البيانات في 4 تجمعات.


كيف يتم اختيار قيمة K؟

أحد الطرق الشائعة لاختيار قيمة K هو اختبار أعداد مختلفة من التجمعات وقياس نتيجة مجموع الأخطاء التربيعية Sum of Squared Errors الناتجة عن ذلك، يتم اختيار قيمة K بحيث تؤدي الزيادة الصغيرة في قيمتها الى انخفاض كبير في مجموع الأخطاء, بينما يؤدي انخفاض قيمتها بشكل سريع إلى زيادة حادة في مجموع الأخطاء, تسمى النقطة التي تحدد العدد الأمثل للفئات أو العناقيد اسم "نقطة المرفق" Elbow Point. 


نلخص آلية العمل بهذه الخطوات: 

  1. تختار الخوارزمية مركزا لكل تجمع, مثلا اخترنا قيمة K=3 إذا ستختار 3 مراكز
  2. يتم تعيين كل نقطة في مجموعة البيانات إلى المركز الأقرب لها، وهذا يعني أن نقطة البيانات تعتبر جزءًا من تجمع معين إذا كانت أقرب إلى مركز هذا التجمع من أي مركز آخر
  3. بالنسبة لكل تجمع تقوم الخوارزمية بإعادة حساب المركز بأخذ المتوسط لجميع النقاط في التجمع؛ لتقليل التباين الداخلي للتجمع بالمقارنة مع الخطوة السابقة. نظرًا لتغيير المراكز يتم إعادة تعيين النقاط إلى المركز الأقرب لها
  4. تكرر العملية في الخطوة رقم 3 حتى يتم تصغير مجموع المسافات بين نقاط البيانات ومراكزها المقابلة إلى الحد الأدنى، أو حتى يتم الوصول إلى الحد الأقصى لعدد التكرارات، أو حتى لا تحدث تغييرات في قيم المراكز.



3. أهم التطبيقات على هذه الخوارزمية

كما ذكرنا أن هذه الخوارزمية تستخدم لتصنيف البيانات, فإنها تستخدم في عدد من التطبيقات, منها: [3]


  • تصنيف المستندات: تستخدم هذه الخوارزمية في تصنيف المستندات الى فئات متعددة بناء على العلامات، والمواضيع، والمحتوى. يتطلب معالجة المستندات الأولية تمثيل كل مستند كـ "فيكتور" واستخدام تردد المصطلح لتحديد المصطلحات المستخدمة بشكل شائع تساعد في تصنيف المستند, يتم بعد ذلك تجميع متجهات المستندات للمساعدة في تحديد التشابه في مجموعات المستندات


  • تحسين خدمة التوصيل في المتاجر:  تحسين عملية توصيل البضائع باستخدام الطائرات بدون طيار, حيث تساعد هذه التقنية في العثور على العدد الأمثل لمواقع الإطلاق


  • كشف الاحتيال والنصب في مجال التأمين: من التطبيقات المهمة في هذا المجال هو اكتشاف التحايل وحالات النصب في مجالات مثل السيارات والرعاية الصحية والتأمين


  • تصنيف العملاء: يتيح الخوارزمية للمسوقين تحسين حملاتهم التسويقية من خلال معرفة قاعدة عملائهم، وتصنيفهم بناء على أنماط الشراء، والاهتمامات، أو رصد النشاط



4. إيجابيات وسلبيات الخوارزمية

إيجابيات [4]

  • سهلة من حيث الفهم والتنفيذ
  • تستطيع استيعاب كمية كبيرة من البيانات
  • غير مكلفة حسابيا
  • إمكانية تشغيل الخوارزمية بسهولة وسرعة مع تعيينات مسبقة 


السلبيات [4]

  • اختيار قيمة K يدويا وليس بشكل آلي والاعتماد على القيم الابتدائية لتحديد موقع نقطة البداية لكل مجموعة, وهذا من شأنه أن يقلل من جودة النتائج
  • اختلاف النتائج وعدم انتظام أداء الخوارزمية عند تغيير قيمة K
  • تقوم الخوارزمية بتجميع نقاط البيانات على شكل دائري ولها مركز Centroid والمشكلة في ذلك أن هذا التمثيل لا يكون مناسب دائما لجميع أنواع البيانات 
  •  في حال وجود قيم بيانات بعيدة أو غير معتادة Outliers فإنها ستؤثر في تحديد مواقع المراكز Centroids
  • تصبح الخوارزمية غير فعالة في حال زيادة عدد الأبعاد "لعنة الأبعاد", بسبب زيادة بعد النقاط عن بعضها والذي يجعل من الصعب تمييز العلاقات بينها أو تجميعها, كما أنها تزيد من استهلاك الموارد الحسابية




الخاتمة

في هذا المقال تناولنا مفهوم الخوارزمية التصنيفية K-mean وهي أحد أنواع خوارزمية التجميع Clustering والتي تعد خوارزمية تعلم غير خاضع للإشراف, والغرض منها هو تصنيف البيانات الى مجموعات منفصلة اعتمادا على نقاط التشابه بينها, والذي يحدد عدد المجموعات هو قيمة K.

تقوم الخوارزمية على تجميع نقاط البيانات المتشابهة على شكل دائري وتحدد مركز Centroid يتوافق مع المتوسط الحسابي لهذه النقاط, يتم تحديث موقع المراكز بشكل متكرر وبناء عليه يعاد تصنيف النقاط لأقرب مركز لها. تتميز بأنها سهلة الاستخدام مما يجعلها مفيدة جدا في مجموعة واسعة من التطبيقات, سواء كنا نتحدث عن تحليل السوق، أو استكشاف الأنماط في البيانات الطبية، أو حتى في فهم توزيع المستخدمين على الإنترنت، 

وغيرها من التطبيقات. 

فلنتطلع دائمًا إلى المستقبل بعيون الاستكشاف والتحدي، حيث يمكننا تحسين وتطوير هذه الخوارزميات لتلبية تحديات عصرنا المتسارع, وكما يقول الحكماء، إن نهاية إحدى القصص هي بداية لأخرى.




المصادر

  1. K means Clustering - Introduction - GeeksforGeeks
  2. Introduction to K-Means Clustering | Pinecone
  3. K-Means Clustering in Machine Learning - Scaler Topics
  4. K-Means Clustering Explained.
لايوجد تعليقات بعد!

سجل الدخول ﻹضافة تعليق

العلامات
التعلم الالي