في هذا المقال نوضح مفهوم تقنية التعرف على الصور وأهميتها، بالإضافة الى كيفية عملها، وأشهر التقنيات المستخدمة فيها، إذا أردت معرفة المزيد عنها اقرأ المقال .
في مقالة سابقة عن تقنية التعرف على الوجه ذكرنا أن من استخداماتها تعزيز الأمن عبر أنظمة المراقبة في الأماكن العامة والمطارات، وتسهيل فتح الهواتف الذكية والأجهزة الإلكترونية وغيرها من التطبيقات، وذلك من خلال التقاط الصور عبر الكاميرات وتحليلها، ولكن كيف تفهم الكاميرات محتوى الصور والفيديوهات الملتقطة بالدرجة الأولى، يعود الفضل الى تقنية التعرف على الصور. تقنية التعرف على الوجه تعد جزءا من تقنية التعرف على الصور، حيث أن الأساس هو التقاط الصورة وفهم ماهيتها ثم فهم الغرض منها بالتعرف على الوجه أم لا.
تهدف التقنية الى تحليل وفهم الصور الرقمية بطريقة تمكن الأنظمة من التعرف على محتواها بدقة وفعالية، حيث تعتمد على خوارزميات معقدة قادرة على استخراج الميزات الأساسية من الصور، وتصنيفها أو تحديدها بناء على المعطيات الموجودة.
تستخدم تقنية التعرف على الصور في مجموعة واسعة من المجالات، مثل الأمن والمراقبة، والتطبيقات الطبية، والسيارات الذاتية القيادة، وحتى في مجالات التسويق والترفيه، مما يجعلها أداة حيوية في عصرنا الرقمي. في هذا المقال نشرح المزيد عن هذه التقنية بتوضيح مفهومها وكيفية عملها، بالإضافة الي التقنيات المستخدمة فيها، وغيرها من المواضيع، لمعرفة المزيد عنها أكمل المقال حتى النهاية.
تقنية التعرف على الصور هي تطبيق من تطبيقات الرؤية الحاسوبية, حيث تمكن الأنظمة الحاسوبية والآلات من فهم محتوى الصور والفيديوهات الرقمية، وذلك من خلال تحديد العناصر والأماكن والأشخاص والنصوص فيها. بمعنى آخر هي التقنية التي تعطي الحواسيب القدرة على رؤية وتفسير الصور من حولها تماما كما لو كانت إنسانا.
باستخدام الرؤية الحاسوبية و خوارزميات الذكاء الاصطناعي الأخرى، تستطيع الأنظمة تحليل محتوى الصور والفيديوهات من خلال مقارنتها مع بيانات موجودة مسبقا في قاعدة البيانات والتي تعلمتها من تحليل صور سابقة.
تستخدم هذه التقنية في تطبيقات مثل التعرف على الوجه كما ذكرنا سابقا، كما يستفيد منها الأطباء والعاملين في القطاع الطبي في قراءة الصور الطبية لتحديد وجود الأورام والكسور في العظام. أما في مجال المصانع تستخدم للكشف عن المنتجات المعطوبة في خطوط التجميع. في السيارات ذاتية القيادة، تستخدم التقنية للتعرف على إشارات المرور والمشاة والعوائق على الطرق لضمان القيادة الآمنة.
لكن لماذا تعد تقنية التعرف على الصور مهمة جدا؟ فضلا عن أهميتها في التعرف على الوجه لأغراض المراقبة وتعزيز الأمان، إلا أن أهميتها أكبر بكثير، وذلك لأنه مع زيادة كمية البيانات المرئية التي يولدها العالم باستمرار، التي لا نفع منها ولا فائدة إذا لم تتم معالجتها واستخراج معلومات ذات قيمة منها، وبهذا تنتقل تقنية التعرف على الصور من كونها أداة للتعرف على الصور الى أداة مهمة لتحليل البيانات. [1]
كخطوة أولى من آلية عمل التعرف على الصور، هي تجهيز مجموعة من البيانات تحتوي على كمية كبيرة من الصور والفيديوهات، مجهزة ومحددة بخصائص وميزات ذات أهمية، مثلا إذا كانت الصورة تحتوي على قطة فيجب تحديد الصورة على أنها قطة، وإذا احتوت على مجموعة من القطط فيجب وضع علامات أو حدود حولها. [2]
بعد ذلك, تستخدم مجموعة البيانات لتدريب شبكة عصبية حتى تتعلم كيفية التعرف على مفهوم معين من خلال تزويدها بمجموعات متنوعة من الأمثلة لتتمكن من اكتشاف الأنماط والميزات المشتركة التي تساعدها في التعرف على الكائنات عند مواجهتها في المستقبل، يتم ذلك من خلال عرض العديد من الأمثلة المختلفة التي تحتوي على نفس النوع من الكائنات أو المفاهيم مثلا الكلاب والقطط.
من أشهر أنواع الشبكات العصبية المستخدمة في التعرف على الصور هي الشبكة العصبية الالتفافية CNN وذلك لأنها تستطيع اكتشاف الميزات من الصور دون الحاجة الى تدخل بشري.
تحتوي هذه الشبكات على طبقات مختلفة، تبدأ بطبقة تعرف بالطبقة الالتفافية، التي تطبق فلاتر على الصور لمسح بيكسلاتها، ومقارنة ألوانها وأشكالها لاستخراج ميزات مثل الحواف والزوايا.
تبدأ الشبكة العصبية الالتفافية بتحليل تفاصيل صغيرة في الصورة باستخدام الطبقة الأولى، ثم تنتقل الى تحليل أجزاء أكبر من الصورة باستخدام الطبقات التالية، مع التركيز على ميزات أكثر تعقيدا في كل خطوة. في النهاية، تجمع المعلومات من جميع الطبقات لتحديد محتوى الصورة بناء على المميزات التي اكتشفتها.
بعد تدريب الشبكة العصبية الالتفافية على مجموعة بيانات التدريب، تصبح الآن جاهزة للعمل، حيث يتم تغذيتها بصور وفيديوهات جديدة لتتعرف عليها، وذلك بمقارنتها ببيانات التدريب، ثم تقدم تصنيفات لها أو تحدد وجود عناصر معينة.
مثلا، في السيارات ذاتية القيادة، يتم تدريب النظام على التعرف على إشارات المرور، فإنه يمكنه تحديد الضوء الأحمر وبالتالي اتخاذ قرار التوقف.
لا تقتصر تقنية التعرف على الصور على الشبكة العصبية الالتفافية فحسب، بل هناك تقنيات أخرى مستخدمة لنفس الغرض، منها: [3]
هي نوع من أنواع الشبكة العصبية الالتفافية العميقة التي تستخدم مفهوم "التعلم المتبقي" للتعامل مع مشكلة تلاشي التدرج التي تؤثر على الشبكات العصبية العميقة، هذا التصميم يساعد في تدريب شبكات عميقة جدا بشكل أكثر فعالية، مما يجعلها مثالية لمهام التعرف على الصور.
هي نوع من الشبكات العصبية العميقة التي تتميز بتصميم فريد يربط كل طبقة من الشبكة بجميع الطبقات السابقة لها، حيث تتلقى كل طبقة مدخلات من جميع الطبقات السابقة، وبالتالي تعزز إعادة استخدام المميزات بدلا من إعادة تعلمها مما يقلل الحاجة الى تعلم ميزات جديدة في كل طبقة، هذا التصميم يقلل الحاجة الى تدريب الشبكة بشكل مكثف لتجنب فقدان المعلومات.
صممت للعمل في البيئات ذات الموارد المحدودة مثل الأجهزة المحمولة، تستخدم تقنية الالتفافات القابلة للفصل عموديا بدلا من الالتفاف التقليدي، وهي طريقة فعالة لتقليل الجهد الحسابي في شبكات MobileNet وذلك من خلال تقليل عدد العمليات الحسابية المطلوبة، مع الحفاظ على مستوى جيد من الدقة في التعرف على الصور. هذا يجعلها مثالية لتطبيقات التعرف على الصور في الوقت الحقيقي في الأجهزة ذات الموارد المحدودة.
هي اختصار ل You Only Look Once وهي خوارزمية للتعرف على الأشياء في الوقت الحقيقي، تقوم بذلك من خلال تقسيم الصورة الى شبكة من المربعات الصغيرة، وتفحص كل مربع لتحديد ما إذا كان يحتوي على جسم معين، إذا تم اكتشاف جسم في أي مربع، تقوم YOLO بتحديد موقعه داخل الصورة وتوقع نوعه أو فئته (مثل سيارة، شخص، أو حيوان) في نفس الوقت.
تقوم YOLO بتلك الخطوات في وقت واحد مما يجعلها سريعة في التعرف على الأشياء، هذا يجعلها مثالية للتطبيقات التي تحتاج إلى اكتشاف الأجسام في الوقت الفعلي، مثل الأنظمة الأمنية أو السيارات ذاتية القيادة.
يعد تحديد الأشياء جزء من التعرف على الصور، بينما يكون التعرف على الصور هو قدرة الحواسيب على تمييز الصورة ككل وبشكل عام، مثلا لوحة فنية أو صورة لمنظر طبيعي، أو مشهد ليلي، تقوم مهمة تحديد الأشياء بتحديد الأجسام المختلفة ومواقعها داخل الصورة.
مثلا في صورة للشارع، التعرف على الصور تقوم بتحديد الصورة بشكل عام بأنها صورة للشارع، أما في تحديد الأشياء يتم تحديد العناصر المختلفة داخل الصورة مثل، السيارات والمباني والأشخاص وأي جسم آخر داخلها. بذلك يكون الفرق بينهما بمدى التعمق في مفهوم الصورة، حيث أن تحديد الأشياء تختص بتفاصيل الصورة.
الى جانب مهمة تحديد الأشياء تتضمن مهمة التعرف على الصور مهام أخرى، مثل: [4]
الفرق بين الرؤية الحاسوبية والتعرف على الصور أن الرؤية الحاسوبية أعم وأشمل حيث أن أنها تمكن الأنظمة من فهم وتفسير محتوى الفيديو أو الصور بطريقة مشابهة للإنسان، وتشمل مهام مثل التعرف على الأشخاص والأشياء و تتبع الحركة وتحليل المشاهد.
أما التعرف على الصور هي تخصص ضمن الرؤية الحاسوبية تركز على تحليل الصور لفهم محتواها، تتضمن مهام مثل التعرف على الصور ووسم الصور و اكتشاف الأجسام.
الخاتمة
في ختام المقال, نرى أن تقنية التعرف على الصور تشكل جزءا أساسيا من الرؤية الحاسوبية، حيث تسهم في تحليل وفهم المحتوى البصري بدقة. تعتمد هذه التقنية على خوارزميات متقدمة مثل الشبكات العصبية الالتفافية CNN التي تمكن الأنظمة من اكتشاف وتحليل الميزات الأساسية في الصور. تشمل التطبيقات العملية للتعرف على الصور الأمن والمراقبة، الطب، السيارات الذاتية القيادة، والمصانع، حيث تستخدم لتحديد الوجوه وتعزيز الأمان, قراءة الصور الطبية لتشخيص الأمراض، وتمكين المركبات من التعرف على إشارات المرور والعوائق.
كما استعرضنا تقنيات مختلفة مثل شبكة ResNet, DenseNet, MobileNet, وخوارزمية YOLO, التي تقدم ميزات مميزة لتلبية احتياجات محددة. على سبيل المثال, توفر YOLO سرعة عالية في التعرف على الأجسام في الوقت الفعلي, بينما توفر MobileNet حلا فعالا للأجهزة ذات الموارد المحدودة. بفضل القدرة على تحليل كميات هائلة من البيانات البصرية، تلعب تقنية التعرف على الصور دورا حيويا في تحسين الكفاءة في مختلف المجالات وتعزيز إمكانيات الأنظمة الذكية.
المصادر