تبرع خوارزمية الانحدار اللوجستي في مشاكل التصنيف وبالأخص التصنيف الثنائي, كما أنها تعد سهلة الاستخدام, تعرف على مميزاتها وأهم الافتراضات في هذا المقال.
هل سمعت عن خوارزمية الانحدار اللوجستي من قبل؟ ربما تكون قد سمعت عنها إذا كنت مهتما بتحليل البيانات أو تعلم الآلة, هذه الخوارزمية تعد واحدة من الأدوات الأساسية التي يستخدمها علماء البيانات والخبراء في العديد من المجالات لتحليل البيانات واتخاذ القرارات المستنيرة.
خوارزمية الانحدار اللوجستي ليست معقدة كما يبدو من اسمها, فهي تستخدم على نطاق واسع لحل مشكلات التصنيف الثنائية Binary Classification حيث يكون الهدف هو التنبؤ بواحد من فئتين فقط< مثل "نعم" أو "لا"، "نجاح" أو "فشل".
في هذا المقال، سنتناول بالتفصيل مفهوم خوارزمية الانحدار اللوجستي, مبدأ عملها, استخداماتها المختلفة, كيفية تدريبها على البيانات, والتحديات التي قد تواجهها أثناء التعامل معها. سنحاول تقديم معلومات غنية ومفيدة تفيدك سواء كنت مبتدئا أو على دراية جيدة بعالم التحليل الإحصائي وتعلم الآلة.
خوارزمية الانحدار اللوجستي Logistic Regression هي خوارزمية تعلم آلي تتبع التعلم الخاضع للإشراف تستخدم لحل مشاكل التصنيف على أساس مجموعة من المتغيرات المستقلة. [1]
على الرغم من أن اسمها يوحي بأنها تنتمي إلى فئة النماذج الانحدارية المستخدمة للتنبؤ بالقيم المستمرة, مثل الانحدار الخطي, فإن الفرق الأساسي بينها وبين الانحدار الخطي هو أن خوارزمية الانحدار اللوجستي تتعامل مع القيم الثنائية أو الاحتمالية (0 أو 1) فقط, بينما تتعامل الانحدار الخطي مع القيم المستمرة.
الهدف الرئيسي لخوارزمية الانحدار اللوجستي هو تقدير احتمالية وقوع حدث معين (مثل إصابة الشخص بمرض معين) استنادا إلى بيانات موجودة.
إذا استنادا إلى البيانات يتم استخدام دالة السيجمويد Sigmoid وذلك لإعطاء قيمة تتراوح بين 0 و 1, بذلك فإنها تعطي قيمة احتمالية تقع بين 1 و 0, بدلا من أن تكون القيمة إما (نعم أو لا) , أو (0 أو 1).
تعد هذه الخوارزمية من الخوارزميات المهمة والمفيدة, لعدد من الأسباب, من أهمها: [2]
يعد الانحدار اللوجستي خوارزمية بسيطة نسبيا لتنفيذها مقارنة مع خوارزميات تعلم الآلة الأخرى, فهي تتطلب موارد حسابية أقل, مما يجعلها خيارا ممتازا للمبتدئين وللمشاريع التي تتطلب السرعة والبساطة.
على عكس الخوارزميات الأكثر تعقيدا مثل الشبكات العصبية أو آلة المتجه الداعم SVM, لا يتطلب الانحدار اللوجستي تعديلا معقدا للمعاملات ويمكن تنفيذه بسهولة باستخدام الأدوات الأساسية, كما أن الأساس الرياضي له يعتمد على مفاهيم بسيطة في الاحتمالات, مما يجعله سهل الفهم والتطبيق في السيناريوهات العملية.
من المزايا الكبرى لخوارزمية الانحدار اللوجستي هي ملاءمتها للمجموعات البيانية التي يمكن فصلها خطيا, أي الحالات التي يمكن فيها فصل الفئتين بخط مستقيم أو مستوى (في الأبعاد الأعلى), حيث يمكن لهذه الخوارزمية التمييز بفعالية بين الفئات.
تعمل الخوارزمية من خلال تعلم حد فاصل خطي يفصل الفئات استنادا إلى الميزات المدخلة. إنه مفيد بشكل خاص عندما تكون البيانات منظمة بشكل جيد وتظهر علاقة خطية واضحة بين المتغيرات المدخلة والهدف.
الانحدار اللوجستي ليس فقط خوارزمية تصنيف, بل هو أيضا أداة لفهم العلاقات بين الميزات المدخلة والمتغير المستهدف. المعاملات (الأوزان) التي يتم تعلمها خلال عملية التدريب تخبرك بمدى تأثير كل ميزة على التنبؤ.
هذه المعاملات تشير إلى الاتجاه و القوة التي يؤثر بها كل عامل في النتيجة. تجعل هذه القابلية للتفسير الانحدار اللوجستي أداة قوية لفهم تأثير العوامل المختلفة, خاصة في مجالات مثل الرعاية الصحية, والاقتصاد, والعلوم الاجتماعية, حيث يكون فهم هذه العلاقات مهما بقدر أهمية إجراء التنبؤات.
يمتلك الانحدار اللوجستي القدرة الفريدة على التنبؤ بالاحتمالات وهو ميزة كبيرة, على عكس الخوارزميات التي تعطي فقط تسميات الفئات, فإن الانحدار اللوجستي يقدم درجة احتمالية (بين 0 و 1) لكل تنبؤ, مما يمثل احتمال انتماء نقطة البيانات إلى فئة معينة.
هذه الميزة مفيدة بشكل خاص في السيناريوهات التي يتطلب فيها اتخاذ القرارات استنادا إلى عتبة الاحتمالات (مثل الاحتمال 0.5 أو أكثر). إنها تمكن من اتخاذ قرارات أكثر دقة, مثل تصنيف النقاط بناء على احتمالاتها أو تعديل العتبة لتناسب الاحتياجات التجارية المحددة.
الانحدار اللوجستي يدعم تقنيات مثل التنظيم Regularization, مثل L1 و L2, والتي يمكن أن تساعد في تجنب مشكلة فرط التجهيز Overfitting, يمكن تنظيم النموذج لتحسين أدائه على البيانات الجديدة من خلال تقليل تأثير بعض المدخلات أو تقليل تعقيد النموذج. هذه الميزة تجعل الخوارزمية أكثر قوة ومرونة في التعامل مع البيانات غير المثالية.
عند مقارنة خوارزميات تعلم الآلة الأخرى التي تعمل على نماذج غير قابلة للتفسير بسهولة, يوفر الانحدار اللوجستي درجة عالية من القابلية للتفسير. على سبيل المثال, يمكن أن تكون قيمة المعامل (الوزن) التي تعلمها النموذج في الانحدار اللوجستي مؤشرا مباشرا على مدى تأثير الميزة على التنبؤ. هذه الميزة تجعل الانحدار اللوجستي خيارا جيدا في المجالات التي تتطلب شفافية مثل الطب والقانون.
يمكن لهذه الخوارزمية التعامل مع أنواع مختلفة من البيانات, بما في ذلك البيانات المستمرة (مثل العمر والدخل) والبيانات التصنيفية (مثل الجنس أو الحالة الاجتماعية). يمكن تمثيل البيانات التصنيفية باستخدام تقنيات مثل الترميز الثنائي One-Hot Encoding, مما يسمح باستخدام الانحدار اللوجستي في مجموعة واسعة من التطبيقات.
هناك ثلاثة أنواع من الانحدار اللوجستي, وهي: [3]
الانحدار اللوجستي الثنائي هو النوع الأكثر استخداما من الانحدار اللوجستي ويستخدم عندما يكون المتغير المستهدف يحتوي على نتيجتين فقط, عادة ما يتم تمثيل هذه النتائج كـ 0 و 1, أو صحيح و خطأ, مثل:
الهدف منه هو نمذجة الاحتمال بأن نقطة البيانات تنتمي إلى إحدى الفئتين, يخرج النموذج قيمة احتمالية بين 0 و 1, والتي يتم تفسيرها كاحتمال أن تنتمي نقطة البيانات إلى الفئة الإيجابية (عادة الفئة 1).
إذا كانت الاحتمالية أكبر من العتبة المحددة (عادة 0.5), يتم تصنيف النقطة إلى الفئة 1, وإذا كانت أقل, يتم تصنيفها إلى الفئة 0.
مثال على الاستخدام: التنبؤ بما إذا كان البريد الإلكتروني هو بريد مزعج (1) أو ليس بريدا مزعجا (0), التنبؤ بما إذا كان العميل سيشتري منتجا (نعم/لا).
الانحدار اللوجستي متعدد الفئات هو امتداد للانحدار اللوجستي الثنائي ويستخدم لمشاكل التصنيف التي تحتوي على أكثر من فئتين (أي مشكلة التصنيف المتعدد), فبدلا من التنبؤ بين فئتين فقط, يقوم الانحدار اللوجستي متعدد الفئات بنمذجة الاحتمالية لكل فئة ممكنة.
في الانحدار اللوجستي متعدد الفئات, يتم اختيار فئة واحدة كفئة مرجعية (غالبا الفئة 0), ويحسب النموذج الاحتمالات بأن تنتمي النقطة إلى الفئات الأخرى بالنسبة للفئة المرجعية. النتيجة هي مجموعة من الاحتمالات لكل فئة, ويتم اختيار الفئة التي تحتوي على أعلى احتمالية كالفئة المتنبأ بها.
مثال على الاستخدام: تصنيف أنواع الفواكه بناء على خصائص مثل اللون والشكل والحجم (مثل التفاح, الموز, البرتقال), تصنيف المقالات الإخبارية إلى مواضيع مختلفة (مثل الرياضة, السياسة, التكنولوجيا).
الانحدار اللوجستي الترتيبي يستخدم عندما يتكون المتغير المستهدف من فئات مرتبة, على عكس الانحدار اللوجستي متعدد الفئات, حيث تكون الفئات غير مرتبة, يتعامل الانحدار اللوجستي الترتيبي مع الحالات التي تكون فيها الفئات لها ترتيب طبيعي أو تصنيف. على سبيل المثال, قد تكون تصنيفات رضا العملاء مصنفة م ضعيف, مقبول, و ممتاز, حيث يكون الترتيب ذا أهمية ولكن المسافة بين الفئات قد لا تكون متساوية.
يقوم الانحدار اللوجستي الترتيبي بتقدير الاحتمالية لأن تكون النتيجة في كل فئة, مع الأخذ في الاعتبار الطبيعة الترتيبية للمتغير المستهدف. يتم بناء النموذج عادة باستخدام نموذج اللوجيت التراكمي, الذي يعامل المشكلة كمجموعة من المقارنات الثنائية بين الفئات المجاورة.
مثال على الاستخدام: التنبؤ بمستوى التعليم لشخص (مثل الثانوية العامة, بكالوريوس, ماجستير, دكتوراه), تصنيف جودة المنتج على مقياس من 1 إلى 5, تصنيف مراحل السرطان (مبكر, متوسط, متقدم).
تستخدم خوارزمية الانحدار اللوجستي على نطاق واسع في العديد من المجالات, ومن أبرز الاستخدامات:
تعتمد الخوارزمية على بعض الافتراضات التي يجب التحقق منها لضمان دقة النموذج, من هذه الافتراضات ما يلي: [4]
الخاتمة
في الختام, تعتبر خوارزمية الانحدار اللوجستي أداة هامة وفعالة في مجالات متعددة مثل تحليل البيانات الطبية, التسويق الرقمي, والمالية. توفر هذه الخوارزمية حلولا بسيطة وفعالة لمشاكل التصنيف الثنائي, مع إمكانية تقديم تنبؤات احتمالية تساهم في اتخاذ قرارات مستنيرة. كما تتميز بسهولة تنفيذها وقابليتها للتفسير, مما يجعلها خيارا مثاليا للمبتدئين والممارسين على حد سواء. ورغم مزاياها, إلا أن استخدامها يتطلب التحقق من بعض الافتراضات الأساسية مثل استقلالية البيانات وحجم العينة الكبير لضمان دقة النتائج.
المصادر