خوارزمية K-mean التصنيفية هي خوارزمية تجميع تعتمد على تصنيف البيانات في مجموعات منفصلة اعتمادا على قيمة K والتي تمثل عدد المجموعات, اقرأ المقال للمزيد.
تخيل معي التالي: انت صاحب متجر بيع بالتجزئة وأردت أن تحدد فئات العملاء بناء على سلوكيات الشراء, ماذا ستفعل؟ ستبدأ أولا بجمع البيانات حولهم بخصوص المبلغ الذي ينفقونه شهريا وعدد مرات زيارة المتجر, ثم قمت بتوزيعهم على مجموعات بناء على أوجه الشبه بينهم, بعد ذلك, توصلت الى نتيجة أن مجموعة من العملاء ينفقون كميات كبيرة من المال ويزورون المتجر بانتظام, بينما مجموعة أخرى من العملاء ينفقون مبالغ أقل ولا يأتون بانتظام.
تبدو خطوات سهلة وعملية, صحيح؟ هل ستقوم بكل ذلك يدويا؟ اذا أردت أن تعمل بشكل يدوي على ذلك فقد تتوقف في منتصف الطريق حائرا بين كمية البيانات الهائلة, ولكننا في عصر الذكاء الاصطناعي حيث السهولة والسرعة, ماذا لو كانت هذه الخطوات محوسبة؟ إنها الخوارزمية التصنيفية K-mean clustering ستوفر عليك عناء ذلك كله, لتفهم ما هي أكثر وما كيفية عملها ابق معنا في المقال.
لنفهم معنى الخوارزمية التصنيفية علينا أولا توضيح معنى خوارزمية التجميع Clustering
ما هي خوارزمية التجميع Clustering ؟
هي خوارزمية تعلم غير خاضع للإشراف Unsupervised learning وهي عملية تجميع البيانات في مجموعات بناء على أوجه الشبه بينهم.
أما الخوارزمية التصنيفية K-mean هي خوارزمية تعلم غير خاضع للإشراف Unsupervised Learning, حيث تتعلم التعامل مع البيانات غير الموسومة أو غير المصنفة دون إشراف ودون أي تدريب مسبق, والهدف هو تصنيف البيانات في مجموعات بناء على أنماط معينة وأوجه الشبه بينهم.
اذا تقوم هذه الخوارزمية على تصنيف بيانات الإدخال الى مجموعات منفصلة تختلف عن بعضها البعض ولكن تكون البيانات في المجموعة الواحدة متشابهة من حيث جوانب معينة.
يعبر الـ K في اسمها عن عدد المجموعات المراد تصنيف البيانات إليها, مثلا: إذا كانت K=2 إذا ينبغي تصنيف البيانات إلى مجموعتين, وإذا كانت K=3 اذا سيتم تصنيفها الى ثلاث مجموعات, يجب تحديد قيمة K مسبقا (سنأتي بالتفصيل الى كيفية اختيار قيمة K)
تستخدم المراكز Centroids كنقاط تمثيل لهذه المجموعات, المراكز تمثل وسط كل مجموعة، وتحدث بشكل متكرر حتى يتم تحقيق تجميع مستقر, الهدف هو تقسيم البيانات إلى مجموعات متجانسة وتحديد وسوم لكل مجموعة. [1]
يتم تمثيل كل تجمع من نقاط البيانات المتشابهة بوسيط يسمى المركز Centroid, وهذا المركز يمثل المتوسط الحسابي لهذه النقاط, اذا كل تجمع من النقاط المتشابهة لها مركز يمثل المتوسط الحسابي لها. [2]
أثناء عمل الخوارزمية يتم تحديث موقع المراكز بشكل متكرر ومع كل تحديث للمركز يتم إعادة تصنيف النقاط الى أقرب مركز لها, من خلال حساب المسافة بين النقطة والمركز ثم تصنف الى أقرب مركز لها.
تستمر هذه العملية الى أن تكون كل نقطة أقرب الى مركز واحد وهو مركز تجمعها الخاص بدلا من أن تكون أقرب الى مراكز التجمعات الأخرى, إذا الهدف من العملية السابقة هو التكرار للوصول الى عدد التجمعات المطلوب والذي تم تحديده مسبقا بواسطة K.
إذا تستمر العملية السابقة حتى نحصل على عدد التجمعات بناء على قيمة K , على سبيل المثال، عند ضبط قيمة K على 2، سيتم تجميع مجموعة البيانات الخاصة بك في تجمعين، في حين أنه إذا قمت بتعيين K على 4، ستجمع البيانات في 4 تجمعات.
كيف يتم اختيار قيمة K؟
أحد الطرق الشائعة لاختيار قيمة K هو اختبار أعداد مختلفة من التجمعات وقياس نتيجة مجموع الأخطاء التربيعية Sum of Squared Errors الناتجة عن ذلك، يتم اختيار قيمة K بحيث تؤدي الزيادة الصغيرة في قيمتها الى انخفاض كبير في مجموع الأخطاء, بينما يؤدي انخفاض قيمتها بشكل سريع إلى زيادة حادة في مجموع الأخطاء, تسمى النقطة التي تحدد العدد الأمثل للفئات أو العناقيد اسم "نقطة المرفق" Elbow Point.
نلخص آلية العمل بهذه الخطوات:
كما ذكرنا أن هذه الخوارزمية تستخدم لتصنيف البيانات, فإنها تستخدم في عدد من التطبيقات, منها: [3]
إيجابيات [4]
السلبيات [4]
الخاتمة
في هذا المقال تناولنا مفهوم الخوارزمية التصنيفية K-mean وهي أحد أنواع خوارزمية التجميع Clustering والتي تعد خوارزمية تعلم غير خاضع للإشراف, والغرض منها هو تصنيف البيانات الى مجموعات منفصلة اعتمادا على نقاط التشابه بينها, والذي يحدد عدد المجموعات هو قيمة K.
تقوم الخوارزمية على تجميع نقاط البيانات المتشابهة على شكل دائري وتحدد مركز Centroid يتوافق مع المتوسط الحسابي لهذه النقاط, يتم تحديث موقع المراكز بشكل متكرر وبناء عليه يعاد تصنيف النقاط لأقرب مركز لها. تتميز بأنها سهلة الاستخدام مما يجعلها مفيدة جدا في مجموعة واسعة من التطبيقات, سواء كنا نتحدث عن تحليل السوق، أو استكشاف الأنماط في البيانات الطبية، أو حتى في فهم توزيع المستخدمين على الإنترنت،
وغيرها من التطبيقات.
فلنتطلع دائمًا إلى المستقبل بعيون الاستكشاف والتحدي، حيث يمكننا تحسين وتطوير هذه الخوارزميات لتلبية تحديات عصرنا المتسارع, وكما يقول الحكماء، إن نهاية إحدى القصص هي بداية لأخرى.
المصادر