Understanding Image Segmentation: Semantic vs Instance vs Panoptic

छवि विभाजन कंप्यूटर विज़न में सबसे बुनियादी कार्यों में से एक है, फिर भी अकादमिक हलकों के बाहर इसे व्यापक रूप से गलत समझा जाता है। यदि आपने कभी हमारे बैकग्राउंड रिमूवर जैसे टूल का उपयोग किया है या किसी फोटो में किसी विशिष्ट ऑब्जेक्ट को अलग करने का प्रयास किया है, तो आपको विभाजन तकनीक से लाभ हुआ है। लेकिन सभी विभाजन समान नहीं बनाए गए हैं। तीन प्रमुख प्रतिमान हैं: शब्दार्थ, उदाहरण, और पैनाप्टिक विभाजन। प्रत्येक एक अलग उद्देश्य को पूरा करता है और अपने स्वयं के व्यापार-बंद के साथ आता है।

छवि विभाजन क्या है?

इसके मूल में, छवि विभाजन का अर्थ है एक डिजिटल छवि को कई खंडों या क्षेत्रों में विभाजित करना। छवि वर्गीकरण के विपरीत जो संपूर्ण छवि को लेबल करता है, या ऑब्जेक्ट डिटेक्शन जो वस्तुओं के चारों ओर बक्से खींचता है, विभाजन पिक्सेल स्तर पर काम करता है। छवि में प्रत्येक पिक्सेल को एक श्रेणी सौंपी गई है। यह पिक्सेल-स्तरीय परिशुद्धता बैकग्राउंड बदलें और ब्लर बैकग्राउंड जैसे टूल को इतना प्रभावी बनाती है।

कार्य	आउटपुट	परिशुद्धता	उपयोग केस
वर्गीकरण	एकल लेबल	छवि-स्तर	सामग्री मॉडरेशन
वस्तु डिटेक्शन	बाउंडिंग बॉक्स	क्षेत्र-स्तर	सेल्फ-ड्राइविंग कारें
सिमेंटिक सेगमेंटेशन	पिक्सेल-वार लेबल	पिक्सेल-स्तर	मेडिकल इमेजिंग
उदाहरण विभाजन	प्रति-ऑब्जेक्ट मास्क	पिक्सेल-स्तर	ई-कॉमर्स फ़ोटो
पैनोप्टिक सेगमेंटेशन	एकीकृत लेबल	पिक्सेल-स्तर	रोबोटिक्स

यह कैसे काम करता है

आधुनिक सिमेंटिक विभाजन पूरी तरह से कनवल्शनल नेटवर्क (एफसीएन) और यू-नेट जैसे एनकोडर-डिकोडर आर्किटेक्चर पर निर्भर करता है। एनकोडर उत्तरोत्तर स्थानिक जानकारी को कम करता है, जबकि डिकोडर बारीक विवरण पुनर्प्राप्त करता है। कनेक्शन छोड़ें सीमा जानकारी को संरक्षित करने में मदद करते हैं।

सामान्य अनुप्रयोग

स्वायत्त ड्राइविंग सड़क दृश्य को समझना
चिकित्सा छवि विश्लेषण (अंग और ट्यूमर विभाजन)
सैटेलाइट इमेजरी भूमि कवर वर्गीकरण
फोटो समायोजन और एन्हांसमेंट पाइपलाइन

प्रमुख वास्तुकला

मास्क आर-सीएनएन: सबसे व्यापक रूप से अपनाया गया आर्किटेक्चर, मास्क भविष्यवाणी शाखा के साथ तेज़ आर-सीएनएन का विस्तार
YOLACT: एक वास्तविक समय दृष्टिकोण जो प्रोटोटाइप मास्क और रैखिक संयोजन गुणांक उत्पन्न करता है
सोलो: एक पूरी तरह से दृढ़ विधि जो उदाहरण विभाजन को एक वर्गीकरण समस्या के रूप में मानती है

मॉडल	स्पीड (FPS)	mAP	मेमोरी (GB)	वर्ष
मास्क आर-सीएनएन	5	37.1	8.2	2017
YOLACT	33	31.2	4.1	2019
सोलो	12	36.8	6.3	2020
Mask2Former	8	47.7	7.6	2022

परिशुद्धता का यह स्तर हमारे क्रॉप टूल और तीक्ष्णता बढ़ाने वाले को शक्ति प्रदान करता है, जहां उच्च गुणवत्ता वाले आउटपुट के लिए व्यक्तिगत वस्तु सीमाएं मायने रखती हैं।

व्यावहारिक तुलना

मानदंड	सिमेंटिक	उदाहरण	पैनोप्टिक
उदाहरणों को अलग करता है	नहीं	हां	हां
सभी को शामिल करता है पिक्सल	हां	नहीं	हां
कम्प्यूटेशनल लागत	कम	उच्च	बहुत अधिक
प्रशिक्षण जटिलता	मध्यम	उच्च	बहुत उच्च
पृष्ठभूमि के लिए सर्वोत्तम	हां	नहीं	आंशिक

सही दृष्टिकोण चुनना

अधिकांश पृष्ठभूमि हटाने के कार्यों के लिए, सिमेंटिक विभाजन पर्याप्त है। हमारे बैकग्राउंड रिमूवर जैसे उपकरण अग्रभूमि को पृष्ठभूमि से अलग करने के लिए सिमेंटिक सेगमेंटेशन का उपयोग करते हैं। हालाँकि, यदि आपको कई वस्तुओं को अलग-अलग अलग करने की आवश्यकता है, तो मास्क आर-सीएनएन के साथ उदाहरण विभाजन बेहतर विकल्प है। व्यापक दृश्य समझ के लिए, पैनाप्टिक विभाजन स्वर्ण मानक है।

इन प्रौद्योगिकियों को क्रियान्वित होते देखने के लिए हमारे टूल्स पृष्ठ पर जाएँ, या सामान्य प्रश्नों के लिए FAQ देखें। एआई इमेजिंग के बारे में अधिक जानकारी के लिए, अबाउट पेज देखें।