EfficientDet: स्केलेबल और एफिशिएंट ऑब्जेक्ट डिटेक्शन की ओर

विषयसूची:

EfficientDet: स्केलेबल और एफिशिएंट ऑब्जेक्ट डिटेक्शन की ओर
EfficientDet: स्केलेबल और एफिशिएंट ऑब्जेक्ट डिटेक्शन की ओर

वीडियो: EfficientDet: स्केलेबल और एफिशिएंट ऑब्जेक्ट डिटेक्शन की ओर

वीडियो: EfficientDet: स्केलेबल और एफिशिएंट ऑब्जेक्ट डिटेक्शन की ओर
वीडियो: [डीपरीडर] कुशल डीईटी: स्केलेबल और कुशल ऑब्जेक्ट डिटेक्शन 2024, नवंबर
Anonim

कंप्यूटर विज़न में मुख्य अनुप्रयोगों में से एक के रूप में, ऑब्जेक्ट डिटेक्शन उन परिदृश्यों में तेजी से महत्वपूर्ण होता जा रहा है जिनमें उच्च परिशुद्धता की आवश्यकता होती है, लेकिन सीमित कंप्यूटिंग संसाधन होते हैं, जैसे कि रोबोटिक्स और ड्राइवर रहित कारें। दुर्भाग्य से, कई आधुनिक उच्च-सटीक डिटेक्टर इन सीमाओं को पूरा नहीं करते हैं। इससे भी महत्वपूर्ण बात यह है कि वास्तविक दुनिया के ऑब्जेक्ट डिटेक्शन एप्लिकेशन विभिन्न प्लेटफार्मों पर चलते हैं, जिन्हें अक्सर विभिन्न संसाधनों की आवश्यकता होती है।

स्केलेबल और कुशल ऑब्जेक्ट डिटेक्शन
स्केलेबल और कुशल ऑब्जेक्ट डिटेक्शन

तो स्वाभाविक सवाल यह है कि सटीक और कुशल ऑब्जेक्ट डिटेक्टरों को कैसे डिज़ाइन किया जाए जो संसाधन बाधाओं की एक विस्तृत श्रृंखला के अनुकूल हो सकें?

EficientDet: CVPR 2020 में अपनाया गया स्केलेबल और एफिशिएंट ऑब्जेक्ट डिटेक्शन, स्केलेबल और कुशल ऑब्जेक्ट डिटेक्टरों के एक नए परिवार का परिचय देता है। तंत्रिका नेटवर्क (एफिशिएंटनेट) को बढ़ाने और एक नए द्वि-दिशात्मक कार्यात्मक नेटवर्क (बीआईएफपीएन) और नए स्केलिंग नियमों को शामिल करने पर पिछले काम पर निर्माण, एफिशिएंटडेट आधुनिक सटीकता प्राप्त करता है जबकि 9 गुना छोटा है और ज्ञात आधुनिक डिटेक्टरों की तुलना में काफी कम गणना का उपयोग करता है। निम्नलिखित आंकड़ा मॉडल के सामान्य नेटवर्क आर्किटेक्चर को दर्शाता है।

छवि
छवि

मॉडल आर्किटेक्चर का अनुकूलन

EfficientDet के पीछे का विचार पिछले अत्याधुनिक डिटेक्शन मॉडल की व्यवस्थित रूप से जांच करके कम्प्यूटेशनल दक्षता में सुधार के समाधान खोजने के प्रयास से उपजा है। सामान्य तौर पर, ऑब्जेक्ट डिटेक्टरों में तीन मुख्य घटक होते हैं: एक रीढ़ की हड्डी जो किसी दी गई छवि से सुविधाओं को निकालती है; वस्तुओं का एक नेटवर्क जो इनपुट के रूप में बैकबोन से कई स्तरों के कार्यों को लेता है और छवि की विशिष्ट विशेषताओं का प्रतिनिधित्व करने वाले संयुक्त कार्यों की एक सूची आउटपुट करता है; और एक अंतिम वर्ग / बॉक्स नेटवर्क जो प्रत्येक वस्तु के वर्ग और स्थान की भविष्यवाणी करने के लिए संयुक्त कार्यों का उपयोग करता है।

इन घटकों के लिए डिज़ाइन विकल्पों की समीक्षा करने के बाद, हमने प्रदर्शन और दक्षता में सुधार के लिए कई प्रमुख अनुकूलन की पहचान की। पिछले डिटेक्टर ज्यादातर ResNets, ResNeXt या AmoebaNet को रीढ़ की हड्डी के रूप में उपयोग करते हैं, जो या तो कम शक्तिशाली होते हैं या EfficientNets की तुलना में कम दक्षता वाले होते हैं। EfficientNet बैकबोन के प्रारंभिक कार्यान्वयन के साथ, बहुत अधिक दक्षता प्राप्त की जा सकती है। उदाहरण के लिए, ResNet-50 बैकबोन का उपयोग करने वाली RetinaNet बेसलाइन से शुरू करते हुए, हमारे एब्लेशन अध्ययन से पता चलता है कि केवल ResNet-50 को EfficientNet-B3 से बदलने से सटीकता में 3% तक सुधार हो सकता है जबकि गणना 20% तक कम हो सकती है। एक अन्य अनुकूलन कार्यात्मक नेटवर्क की दक्षता में सुधार करना है। जबकि पिछले अधिकांश डिटेक्टर केवल डाउनलिंक पिरामिड नेटवर्क (FPN) का उपयोग करते हैं, हम पाते हैं कि डाउनस्ट्रीम FPN स्वाभाविक रूप से सूचना के एकतरफा प्रवाह तक सीमित है। पैनेट जैसे वैकल्पिक एफपीएन अतिरिक्त गणना की कीमत पर अतिरिक्त अपस्ट्रीम जोड़ते हैं।

तंत्रिका वास्तुकला खोज (NAS) का उपयोग करने के हाल के प्रयासों ने एक अधिक जटिल NAS-FPN वास्तुकला की खोज की है। हालाँकि, जबकि यह नेटवर्क संरचना प्रभावी है, यह एक विशिष्ट कार्य के लिए अनियमित और अत्यधिक अनुकूलित भी है, जिससे अन्य कार्यों के अनुकूल होना मुश्किल हो जाता है। इन समस्याओं को हल करने के लिए, हम द्वि-दिशात्मक कार्यों BiFPN के एक नए नेटवर्क का प्रस्ताव करते हैं, जो FPN / PANet / NAS-FPN से बहु-परत कार्यों के संयोजन के विचार को लागू करता है, जो सूचना को ऊपर से नीचे और दोनों में प्रसारित करने की अनुमति देता है। नीचे से उपर तक। नियमित और प्रभावी कनेक्शन का उपयोग करना।

छवि
छवि

दक्षता में और सुधार करने के लिए, हम एक नई तेज़ सामान्यीकृत संश्लेषण तकनीक का प्रस्ताव करते हैं। पारंपरिक दृष्टिकोण आमतौर पर एफपीएन के सभी इनपुट को उसी तरह से व्यवहार करते हैं, यहां तक कि विभिन्न प्रस्तावों पर भी।हालाँकि, हम देखते हैं कि विभिन्न रिज़ॉल्यूशन वाली इनपुट सुविधाएँ अक्सर आउटपुट फ़ंक्शंस में असमान रूप से योगदान करती हैं। इस प्रकार, हम प्रत्येक इनपुट फ़ंक्शन में अतिरिक्त भार जोड़ते हैं और नेटवर्क को प्रत्येक के महत्व को जानने देते हैं। हम सभी नियमित कनवल्शन को कम खर्चीले, गहरे वियोज्य कनवल्शन से भी बदल देंगे। इस अनुकूलन के साथ, हमारा BiFPN कम्प्यूटेशनल लागत को 50% कम करते हुए सटीकता में 4% तक सुधार करता है।

तीसरे अनुकूलन में विभिन्न संसाधन बाधाओं के तहत सटीकता और दक्षता के बीच सबसे अच्छा समझौता करना शामिल है। हमारे पिछले काम से पता चला है कि नेटवर्क की गहराई, चौड़ाई और रिज़ॉल्यूशन को सह-स्केल करने से छवि पहचान प्रदर्शन में काफी सुधार हो सकता है। इस विचार से प्रेरित होकर, हम ऑब्जेक्ट डिटेक्टरों के लिए एक नई समग्र स्केलिंग पद्धति का प्रस्ताव करते हैं जो सामूहिक रूप से रिज़ॉल्यूशन / गहराई / चौड़ाई को बढ़ाता है। प्रत्येक नेटवर्क घटक, अर्थात बैकबोन, ऑब्जेक्ट और ब्लॉक/क्लास प्रेडिक्टिव नेटवर्क में एक जटिल स्केलिंग कारक होगा जो अनुमानी नियमों का उपयोग करके सभी स्केलिंग आयामों को नियंत्रित करता है। यह दृष्टिकोण यह निर्धारित करना आसान बनाता है कि किसी दिए गए लक्ष्य संसाधन बाधा के लिए स्केल कारक की गणना करके मॉडल को कैसे स्केल किया जाए।

नए बैकबोन और BiFPN को मिलाकर, हम पहले एक छोटी EfficientDet-D0 बेसलाइन डिज़ाइन करते हैं और फिर EfficientDet-D1 से D7 प्राप्त करने के लिए कंपाउंड स्केलिंग लागू करते हैं। प्रत्येक सीरियल मॉडल में उच्च कम्प्यूटेशनल लागत होती है, जिसमें 3 बिलियन FLOPs से 300 बिलियन FLOPS तक संसाधन बाधाओं की एक विस्तृत श्रृंखला शामिल होती है, और उच्च सटीकता प्रदान करती है।

प्रदर्शन मॉडल

COCO डेटासेट पर EfficientDet का मूल्यांकन, ऑब्जेक्ट डिटेक्शन के लिए व्यापक रूप से उपयोग किया जाने वाला संदर्भ डेटासेट। EfficientDet-D7 52.2 की औसत औसत सटीकता (mAP) प्राप्त करता है, जो पिछले आधुनिक मॉडल की तुलना में 1.5 अंक अधिक है, 4 गुना कम मापदंडों और 9.4 गुना कम गणनाओं का उपयोग करके

छवि
छवि

हमने EfficientDet और पिछले मॉडल के बीच पैरामीटर आकार और CPU / GPU विलंबता की तुलना भी की। समान सटीकता बाधाओं के साथ, EfficientDet मॉडल अन्य डिटेक्टरों की तुलना में GPU पर 2-4 गुना तेज और प्रोसेसर पर 5-11 गुना तेज चलता है। जबकि EfficientDet मॉडल मुख्य रूप से ऑब्जेक्ट डिटेक्शन के लिए अभिप्रेत है, हम सिमेंटिक सेगमेंटेशन जैसे अन्य कार्यों में भी उनकी प्रभावशीलता का परीक्षण करते हैं। विभाजन कार्यों को करने के लिए, हम एक ही स्केल किए गए बैकबोन और BiFPN को बनाए रखते हुए डिटेक्शन हेड और हेड लॉस और लॉस को बदलकर EfficientDet-D4 को थोड़ा संशोधित करते हैं। हम इस मॉडल की तुलना पास्कल वीओसी 2012 के लिए पिछले आधुनिक सेगमेंटेशन मॉडल से करते हैं, जो व्यापक रूप से इस्तेमाल किया जाने वाला सेगमेंटेशन परीक्षण डेटासेट है।

छवि
छवि

उनके असाधारण प्रदर्शन को देखते हुए, EfficientDet से भविष्य में ऑब्जेक्ट डिटेक्शन रिसर्च के लिए एक नई नींव के रूप में काम करने की उम्मीद है और संभावित रूप से कई वास्तविक दुनिया के अनुप्रयोगों में अत्यधिक सटीक ऑब्जेक्ट डिटेक्शन मॉडल उपयोगी बना सकते हैं। इसलिए Github.com पर कोड और प्रीट्रेन मॉडल के सभी ब्रेकप्वाइंट खोले।

सिफारिश की: