My IBM Log in اشترك

ما المقصود بتجزئة المثيل؟

المؤلفون

Dave Bergmann

Senior Writer, AI Models

IBM

Cole Stryker

Editorial Lead, AI Models

Gather

ما المقصود بتجزئة المثيل؟

تعد تجزئة المثيل مهمة رؤية حاسوبية تعتمد على التعلم العميق والحوسبة الشخصية، حيث تتنبأ بالحدود الدقيقة لكل بكسل موجود في كل مثيل كائن فردي في أي صورة.

وتوفر تجزئة المثيل، وهي مجموعة فرعية من مجال أوسع لتجزئة الصور، مخرجات أكثر تفصيلاً وتعقيدًا من خوارزميات الكشف التقليدية. تتوفر مهام تجزئة أخرى للصور تشمل التجزئة الدلالية، تصنف كل بكسل في الصورة حسب الفئة الدلالية - فئة "الشيء" أو "الأشياء" التي تمثلها - والتجزئة الشاملة، والتي تجمع بين أهداف كل من تجزئة المثيل والتجزئة الدلالية.

تتميز عملية تقسيم المثيل بمجموعة كبيرة من حالات استخدام معالجة الصور في العديد من الصناعات، بدءًا من تحليل الأشعة الطبية واكتشاف الأشياء ذات الأهمية في صور الأقمار الصناعية إلى تمكين الملاحة في السيارات ذاتية القيادة.

تجزئة المثيل مقابل كشف الكائنات

يتمثل الفرق الأساسي بين مهام تجزئة المثيل والكشف عن الكائنات التقليدية في أن تجزئة المثيل تتنبأ بحدود كل كائن على مستوى البكسل بينما الكشف عن الكائن يتنبأ بالموقع التقريبي للكائن فقط.

تعد طرق الكشف عن الكائنات التقليدية مزيجًا متطورًا من تصنيف الصور وتوطين الكائنات. حيث يتم تدريب نموذج كشف الكائنات باستخدام خوارزميات التعلم الآلي المختلفة للتعرف على الأنماط المرئية لفئات الكائنات ذات الصلة؛ فمثلاً، يمكن تدريب نموذج القيادة الآلية للمركبات للتمييز بين أشياء مثل "السيارة" و"المشاة"، بينما يقوم نموذج كشف الكائنات بتحليل البيانات المرئية الموجودة في صورة ما من أجل شرح أي مثيلات كائن ذات صلة ولإنشاء مناطق مستطيلة، تسمى "المربعات المحددة"، والتي بداخلها يقع كل مثيل.

وبالمثل، نجد أنظمة تجزئة المثيل تكتشف الكائنات التي في الصورة، لكن بتفاصيل أكبر بكثير: فبدلًا من الاكتفاء برسم مربع محيط يقارب موقع مثيل الكائن، تقوم خوارزميات تجزئة المثيل بإنشاء "قناع تجزئة" لكل بكسل على حدة في شكل دقيق ومساحة دقيقة لكل مثيل بإحكام.

تقوم العديد من بنيات نماذج تجزئة النماذج الرائدة، مثل Mask R-CNN، بإجراء كشف تقليدي للاعتراض كخطوة أولية في عملية توليد أقنعة التجزئة. عادة ما توفر هذه النماذج "ذات المرحلتين" دقة حديثة، وإن كان ذلك مع مقايضة في السرعة.

تجزئة المثيل مقابل التجزئة الدلالية

التجزئة الدلالية هي مهمة أقل تعقيدًا من تجزئة المثيل. على عكس تجزئة المثيل، لا يهتم التجزئة الدلالية بالعد أو التمييز بين المثيلات المختلفة: الهدف الوحيد من التجزئة الدلالية هو التعليق على كل بكسل في صورة بتسمية فئة دلالية.

لا تميز نماذج التجزئة الدلالية بين الأشياء- وهي فئات كيانات قابلة للعدّ والإحصاء وذات أشكال مميزة، مثل "السيارة" أو "الشخص" - والعموميات(أي فئات من كيانات لا يمكن عدُّها وذات أشكال متغيرة، مثل "السماء" أو "الطريق").

إذا كانت مثيلات الكائن المتعددة من نفس الفئة متجاورة بشكل وثيق أو متداخلة مع بعضها البعض، فسيقوم نموذج التجزئة الدلالي بتجميعها معًا داخل مقطع صورة واحد بكل بساطة. ضع في اعتبارك، على سبيل المثال، كيف يتعامل نموذج التجزئة الدلالي مع السيارات المتوقفة معًا بشكل وثيق على كل جانب من جوانب الشارع في هذه الصورة.

على العكس من ذلك، تركز نماذج تجزئة المثيل حصريًا على اكتشاف وإنشاء أقنعة تجزئة للأشياء الفردية. يجب أن يكون نموذج تجزئة المثيل قادرًا على تحديد كل مثيل كائن مختلف - حتى بالنسبة للمثيلات المسدودة لنفس فئة الكائنات.

تجزئة المثيل مقابل التجزئة الشاملة

تستلزم التجزئة الشاملة كلاً من التصنيف الدلالي لكل بكسل في الصورة وتحديد كل مثيل كائن مختلف.

يمكن لنماذج التجزئة الشاملة نظريًا إجراء تجزئة المثيل، ولكنها تفعل ذلك بتكلفة حسابية أكبر بكثير (حيث تتضمن مخرجاتها معلومات إضافية لا تتعلق بالضرورة بمهام تجزئة المثيل).

قامت المحاولات الأولية للتجزئة الشاملة ببساطة بإجراء كل من تجزئة المثيل والتجزئة الدلالية بشكل منفصل، ثم جمعت مخرجاتها في خطوة ما بعد المعالجة. هذه الطريقة غير فعالة من الناحية الحسابية وتكافح لحل التناقضات بين مخرجات البيانات من النموذج الدلالي ومخرجات البيانات من نموذج المثيل.

تربط الأساليب الحديثة "رأس" التجزئة الدلالية وتجزئة المثيل "رأس" ب "العمود الفقري" المشترك - غالبًا ما تكون شبكة هرمية للميزات (FPN) - لاستخراج الميزات: عزل البيانات المرئية ذات الصلة. هذا يضيف الكفاءة ويزيل التناقضات.

حالات استخدام تجزئة المثيل

يعد تقسيم المثيل ضروريًا لمجموعة متنوعة من مهام رؤية الكمبيوتر.

  •  التصوير الطبي: يستخدم تجزئة المثيل للكشف عن الحدود المحددة للأنسجة والأمراض، مثل الأورام
  • القيادة الذاتية: يسمح تجزئة المثيل للسيارات ذاتية القيادة بكشف وتصنيف السيارات والأشياء والأشخاص وخصائص الطريق (مثل إشارات المرور) بدقة.
  • صورة الأقمار الصناعية: تساعد تجزئة المثيل على تحديد وعزل الأجسام ذات الأهمية، مثل التمييز بين المباني المتعددة على طول طريق لأغراض النظام العالمي لتحديد المواقع.
  • التشغيل الآلي: تسمح تجزئة المثيل بفرز العناصر واكتشاف العيوب، وعلى غرار السيارات ذاتية القيادة، تسمح للآلات بالتمييز حول الأجسام الموجودة في بيئتها والتنقل حولها.

كيف تعمل تجزئة المثيل؟

أصبح التعلم العميق ضروريًا لتجزئة المثيل: حيث تستخدم جميع طرق تجزئة الصور الحديثة تقريبًا الشبكات العصبية. على الرغم من أن السنوات الأخيرة شهدت ظهور نماذج المحولات كبديل قابل للتطبيق، فإن معظم طرق تجزئة الصور (بما في ذلك تلك المستخدمة للتجزئة على سبيل المثال) تستفيد من شكل من أشكال الشبكات العصبية التلافيفية (CNNs).

تنقسم نماذج تجزئة المثيل المستندة إلى CNN إلى فئتين:

  • تقوم النماذج ذات المرحلتين، مثل Mask R-CNN، بإجراء الكشف عن الكائنات أولاً، ثم إنشاء أقنعة تجزئة الكائنات
  • ونجد أن النماذج أحادية المرحلة (أي: التي لا تحتاج مرحلتين)، مثل YOLACT، تؤدي كلتا المهمتين بالتوازي.

تستخدم كل من نماذج تجزئة المثيل المستندة إلى شبكة CNN ونماذج تجزئة المثيل المستندة إلى المحولات بنية تشفير-مفك تشفير، حيث يتم استخدام شبكة تشفير لاستخراج البيانات ذات الصلة من صورة الإدخال وتستخدم شبكة فك التشفير بيانات الميزة المستخرجة لإعادة بناء الصورة بخريطة تجزئة.

لفهم نماذج تجزئة النماذج، من المفيد فهم الأجزاء المكونة لها.

الشبكات العصبية التلافيفية (CNNs)

يمكن لشبكات CNN البسيطة إجراء تصنيف الصور، وتصنيف الكائنات (لكن الأخير هذا للصور التي تحتوي على كائن واحد فقط).

كي تكون الخوارزميات الرياضية متوافقة مع الصورة، يجب أن تمثل الصورة بتنسيق رقمي. تعالج CNNs صورة إدخال بألوان RGB كمصفوفة ثلاثية الأبعاد (3D) من البكسلات، حيث تمثل الأبعاد الثلاثة للبكسل قيم R(ed) وG(reen) و(B)lue، على التوالي.

توجد ثلاثة أنواع من الطبقات في شبكة CNN التقليدية:

  • تستخدم الطبقة (الطبقات) التلافيفية مرشحات ثنائية الأبعاد، تسمى النواة، لاستخراج الميزات ذات الصلة من الصورة عن طريق إجراء التلافيف. بعد كل عملية التفاف، تتحرك النواة إلى منطقة مجاورة، وتكرر هذه العملية حتى تجتاز الصورة بأكملها. ناتج استخراج هذه الميزة هو خريطة ميزات.

  • تقوم طبقة (طبقات) التجميع بضغط بيانات خريطة الميزة. هذه العملية، التي تسمى أيضًا تخفيض العينة أو تقليل الأبعاد، تزيد من الكفاءة الحسابية وتقلل من مخاطر الإفراط في تدريب النموذج.

  • تستقبل الطبقة (أو الطبقات) المتصلة اتصالاً كاملاً البيانات المرئية من كل عقدة في الشبكة العصبية وتجمعها - ومن هنا جاءت عبارة "متصلة بالكامل" - وتتنبأ بما إذا كانت الصورة تتطابق مع أي فئات تم تدريبها على التعرف عليها أم لا.

في حين أن الطبقات التلافيفية الإضافية يمكن أن تعزز الدقة، فإن إضافة عدد كبير جدًا من الطبقات يؤدي إلى تلاشي التدرجات، مما يمنع تحسين النموذج. حلت بنية ResNet هذه المشكلة، مما مهد الطريق لشبكات CNN بمئات (أو حتى آلاف) من الطبقات.

شبكة CNN حسب المنطقة (R-CNN)

تم تطوير R-CNN لحل مهام الكشف عن الكائنات المتعددة المعقدة التي لا يمكن تحقيقها باستخدام شبكات CNN القياسية. ويُعد تطورها اللاحق، وهو شبكة R-CNN الأسرع، عنصرًا من نماذج تجزئة النماذج.

لعمل تنبؤات على مستوى الكائن (بدلًا من مستوى الصورة)، تقدم شبكة R-CNN مقترحات المنطقة: حيث تستخدم R-CNN البحث الانتقائي لاقتراح حوالي 2000 مربع متداخل قد يحتوي على كائن، ثم تغذي كل "اقتراح كائن" في CNN لاستخراج الميزات. بعد ذلك تقوم خوارزميات آلة الدعم المتجه (SVM) بتصنيف الكائنات وإنشاء مربعات حدودية.

لقد حسّنت شبكة R-CNN السريعة من سرعة شبكة R-CNN بشكل كبير من خلال تغذية الصورة بأكملها أولاً في شبكة CNN لاستخراج الميزات، ثم استخدام خريطة الميزات الناتجة لتحديد المناطق ذات الأهمية (RoIs). ثم بعدها بوقت قصير، نجحت Faster R-CNN في تحسين السرعة والدقة من خلال تقديم شبكة اقتراح منطقة قابلة للتدريب (RPN) لتحل محل خوارزمية البحث الانتقائي الأبطأ غير القابلة للتدريب.

شبكات تلافيفية بالكامل

إن شبكات FCN تحل محل الطبقات الثابتة والمتصلة بالكامل لشبكة CNN البسيطة بطبقات تلافيفية وتجميع إضافية - ولذا "سميت تلافيفية بالكامل". لقد أدى ظهور شبكات FCN إلى ظهور عصر جديد من تقنيات تجزئة الصور.

مثل شبكات CNN التقليدية، تستخدم شبكات FCN شبكة تشفير، مثل ResNet أو VGG، لاستخراج الميزات واختبار عينات منها. لكن بدلًا من تمرير البيانات المشفرة إلى طبقة متصلة بالكامل لتصنيف الصورة بأكملها، تمرر شبكات FCN البيانات المشفرة عبر طبقات من شبكة "وحدة فك التشفير" والتي تصنف بيانات الميزة المضغوطة وترفع عيناتها لإعادة بناء الصورة الأصلية باستخدام أقنعة تجزئة بمقدار بكسل تلو بكسل.

وبطبيعة الحال، يتم فقدان بعض البيانات أثناء عملية تخفيض العينات. وفي وقت لاحق، أدخلت تنويعات شبكة FCN اللاحقة، مثل شبكة U-Net، وصلات تخطي تتجاوز بعض الطبقات التلافيفية بشكل انتقائي للحفاظ على تفاصيل أكبر.

قناع R-CNN

نجحت بنية شبكة R-CNN الخاصة بالقناع في الجمع بين الكشف عن الكائنات لشبكة R-CNN السريعة وبين قدرات التجزئة لشبكة FCN لتحقيق طفرة في تجزئة المثيل.

بعد أن تُنشئ شبكة RPN مربعات حدودية للأجسام المقترحة، وتتأكد بقية شبكة R-CNN الأسرع من مقترحات المناطق التي تحتوي على أجسام (وتقوم بإجراء انحدارات لتحسين دقة المربعات الحدودية للأجسام)، تأتي شبكة FCN لتنشئ قناع تجزئة للأجسام الموجودة داخل كل مربع حدودي.

هذه العملية فعالة حتى عند إغلاق الكائنات، حيث يمكن لشبكة R-CNN الأسرع التمييز بين كل مثيل كائن لضمان تقسيم كل منها على حدة.

نماذج تتم من مرة واحدة (في مرحلة واحدة)

تتطلب بعض تطبيقات تجزئة النماذج، مثل الكشف عن العناصر المعيبة في خط تجميع التصنيع، نتائج في الوقت الفعلي. تم تطوير نماذج المرحلة الواحدة لحالات الاستخدام التي تكون فيها السرعة ذات أولوية قصوى.

النماذج ذات المرحلتين مثل Mask R-CNN دقيقة للغاية، ولكن من الصعب تسريع نهجها المتسلسل بطبيعته. نماذج تجزئة مثيل اللقطة الواحدة مثل YOLACT (أنت تنظر فقط في المعاملات) تعتمد بدلًا من ذلك على نماذج كشف الكائنات ذات المرحلة الواحدة مثل YOLO (أنت تنظر مرة واحدة فقط).

في YOLACT، تقوم شبكة FPN بإنشاء خرائط ميزات عالية الدقة، ليتم إدخالها في فرعين متوازيين: حيث إن فرع FCN يقترح k "أقنعة نموذجية" لمثيلات الكائن المحتملة. وفي الوقت نفسه، ينتج فرع من الطبقات المتصلة بالكامل العديد من "مربعات الربط"، على غرار مقترحات المنطقة، ويتنبأ أيضًا "بمعاملات القناع" k - واحد لكل قناع نموذجي - يمثل احتمالية محاذاة الكائن المقترح مع قناع التجزئة المقترح. يتم استخدام القمع غير الأقصى (NMS) لتصفية الحالات المقترحة ذات أعلى معاملات القناع.

نماذج المحولات

استكشفت الابتكارات الحديثة في مجال تجزئة المثيل والشاملة نماذج المحولات، مستوحاة من نجاحها في مجالات مثل معالجة اللغة الطبيعية. تستخدم نماذج مثل محولات الرؤية (ViT) الانتباه الذاتي بدلًا من الالتواء، مما يسمح بتحليل شامل للسياق المرئي للصورة.

تمثل التحدي الأساسي، الذي احتاج إلى اجتياز، في المتطلبات الحسابية: حيث زاد مدى التعقيد الحسابي للانتباه الذاتي تربيعيًا مع حجم الصورة. تستخدم محولات Swin s winshifted (بدلًا من الخطوات المنزلقة التقليدية) لإنشاء طبقات غير متداخلة للانتباه الذاتي، مما يجعل التعقيد الحسابي يزداد خطيًا، وليس تربيعيًا، مع حجم الصورة. تنافس النماذج القائمة على Swin الآن دقة الإطارات الرائدة القائمة على CNN.

نماذج تجزئة مثيل التدريب

يجب تدريب خوارزميات التعلُّم الآلي، بما في ذلك خوارزميات التعلُّم العميق المستخدمة في تجزئة المثيل. يتم تدريب كلٍ من النماذج القائمة على شبكة CNN والنماذج القائمة على المحولات باستخدام الانتساب العكسي: تقوم النماذج بهندسة عكسية لصور التدريب المشروحة لتعلم الأوزان والتحيزات المناسبة للمهمة المطروحة.

يجب أن تكون التعليقات التوضيحية لبيانات التدريب دقيقة للغاية لتحقيق أقصى قدر من التعلم الآلي المناسب وأن تكون بمثابة معيار "الحقيقة الأساسية" التي يمكنها تقييم النماذج المدرَّبة وتحسينها. نظرًا لأن القدرات البشرية تتجاوز إلى حد كبير حتى أكثر نماذج الرؤية للكمبيوتر دقة، فإن هذا الشرح يتم يدويًا - وهي عملية مكلفة وكثيفة العمالة.

لتجنب الوقت والتكلفة اللازمين لمجموعة البيانات المخصصة، تستخدم معظم النماذج مجموعة بيانات تدريبية كبيرة مفتوحة المصدر أو تقوم بالضبط الدقيق لشبكة ترميز مُدرَّبة مسبقًا لمهام رسومية أكثر تحديدًا. تتضمن مجموعات البيانات المفتوحة المصدر الشائعة ما يلي:

  • COCO (الأشياء الشائعة في السياق): مجموعة بيانات ضخمة تحتوي على أكثر من 330000 صورة مع مقاطع توضيحية مقسمة إلى 80 فئة من الأشياء و91 فئة من العموميات

  • ADE20K: مجموعة بيانات تجزئة مشهد أنشأها معهد ماساتشوستس الأمريكي للتكنولوجيا تحتوي على أكثر من 20000 صورة ذات أكثر من 150 فئة دلالية

  • مناظر المدينة: مجموعة بيانات واسعة النطاق تركز على الشوارع الحضرية، مع صور ملتقطة من 50 مدينة في مختلف أوقات النهار وفصول السنة والظروف الجوية.

تقييم نماذج تجزئة المثيل

المقاييس الأكثر شيوعًا المستخدمة في تجزئة المثيل والأداء هي التقاطع عبر الاتحاد (IoU) و الدقة المتوسطة (AP). وعادةً ما يتم التعبير عن هذه المقاييس من حيث الأداء مقارنةً بمجموعة بيانات قياسية، مثل "نقطة وصول تصل إلى 54.4 على مجموعة بيانات COCO".

مقياس التقاطع على الاتحاد (IoU)

يقيس IoU التداخل على مستوى البكسل بين قناع الحقيقة الأرضية وبين تنبؤ النموذج، معبرًا عنه كنسبة مئوية أو عدد صحيح بين 0 و1. بالنسبة للصور ذات المثيلات المتعددة، يتم استخدام متوسط IoU (mIoU).

في حين يظهر مقياس IoU بسيط، لكن له قيودًا مهمة وهي:

  • إنه يكافئ التنبؤات الفضفاضة للغاية. حتى إذا كان قناع التجزئة كبيرًا جدًا، فإنه سيسجل قيمة IoU مثالية قدرها 1 إذا كان يحتوي على قناع الحقيقة الأرضية بداخله.
  • لا يمكن استخدامه كدالة خسارة. بالنسبة للتنبؤات السيئة التي لا يوجد بها تداخل - سواء أكانت بعيدة قليلاً أو حتى غير قريبة - فإن وحدة المعالجة = 0. هذا يعني أن IoU غير قابل للتمييز، وبالتالي لا يمكن أن يساعد الخوارزمية على تحسين النموذج. يعدل التقاطع المعمم عبر الاتحاد (أو GIoU) IoU لجعله قابلًا للتفاضل.

 

الدقة المتوسطة (AP)

يتم حساب نقطة الوصول على أنها المنطقة الواقعة أسفل منحنى الاستدعاء الدقيق. فهو يوازن بين المقاييس، الدقة والاستدعاء، يتم حسابهما باستخدام قيم نتائج منفصلة مثل الإيجابيات الحقيقية (TP) والسلبيات الحقيقية (TN) والإيجابيات الخطأ (FP) والسلبيات الخطأ (FN).

  • تقيس الدقة عدد المرات التي تكون فيها التنبؤات الإيجابية - في هذه الحالة، وحدات البكسل لمثيل مجزأ - صحيحة: TP/(TP+FP). لها الجانب السلبي المتمثل في مكافأة السلبيات الكاذبة.
  • يقيس الاستدعاء عدد المرات التي يتم فيها التقاط التنبؤات الإيجابية: TP/(TP+FN). لها الجانب السلبي المتمثل في مكافأة الإيجابيات الخطأ.

ولزيادة الملاءمة إلى الحد الأقصى، غالبًا ما يتم حساب نقطة الوصول في حدود عتبات محددة لوحدة القياس الدولية. على سبيل المثال، يحسب "AP50" نقطة الوصول فقط للتنبؤات التي يزيد عدد IoU فيها عن 50 بالمائة. يتم استخدام متوسط دقة متوسط (mAP) ظرفيًّا كمتوسط قيمة نقطة الوصول عبر جميع الحدود المحسوبة.