BiRefNet vs U2Net vs MODNet: Comparing AI Matting Models

Si vous avez déjà utilisé un suppresseur d'arrière-plan alimenté par l'IA, vous avez probablement bénéficié de l'une des trois principales architectures d'apprentissage profond : BiRefNet, U2Net ou MODNet. Chacune adopte une approche fondamentalement différente du problème du matting d'image, et chacune a des forces et des faiblesses distinctes. Dans cet article, nous comparons ces modèles en termes de précision, vitesse, utilisation mémoire et performance réelle.

Qu'est-ce que le matting d'image ?

Le matting d'image est la tâche d'estimation précise de l'opacité du premier plan pour chaque pixel d'une image. Contrairement à la segmentation binaire, qui produit un masque dur 0-ou-1, le matting produit un alpha matte continu où les valeurs entre 0 et 1 représentent une transparence partielle. C'est essentiel pour le remplacement d'arrière-plan réaliste, les effets de flou et le compositing.

Aperçu de l'architecture des modèles

MODNet (2020)

MODNet (Matting Objective Decomposition Network) a été conçu pour le matting de portrait en temps réel sans aucune entrée auxiliaire. Son innovation clé est la décomposition de la tâche de matting en trois sous-objectifs :

Branche sémantique : prédit la région grossière du premier plan
Branche de détail : affine les bords et les structures fines
Branche de fusion : combine les deux sorties en un matte final

Cette décomposition permet à MODNet de fonctionner à 30+ FPS sur les GPU grand public.

U2Net (2020)

U2Net (U-squared Net) utilise une architecture U-Net imbriquée où chaque étape de l'encodeur-décodeur est elle-même une structure de type U-Net. Cette conception imbriquée, combinée à des connexions résiduelles (blocs RSU), permet au réseau de capturer à la fois les détails fins et les informations contextuelles larges simultanément.

BiRefNet (2023)

BiRefNet (Bilateral Reference Network) est l'architecture la plus récente. Elle introduit l'apprentissage par référence bilatérale, où le réseau maintient des encodages de référence séparés pour le contexte global et les détails locaux. Cette double approche par chemin permet à BiRefNet d'atteindre une précision de pointe sur les références standard tout en maintenant des vitesses de traitement raisonnables.

Comparaison des performances

Métrique	BiRefNet	U2Net	MODNet
Score FBA (plus élevé = meilleur)	0.987	0.972	0.958
Vitesse (HD, GPU)	0.8s	1.2s	0.3s
Cheveux/fourrure	Excellent	Bon	Moyen
Objets transparents	Bon	Moyen	Faible

Conclusion

QuickBG utilise BiRefNet car il offre la meilleure combinaison de précision et de rapidité pour une utilisation réelle. Bien que MODNet soit plus rapide, BiRefNet produit systématiquement des bords plus propres sur les sujets complexes, ce qui est essentiel pour des cas d'utilisation professionnels comme la photographie de produits e-commerce.