EfficientDet: Mot Skalbar Och Effektiv Objektdetektering

Innehållsförteckning:

EfficientDet: Mot Skalbar Och Effektiv Objektdetektering
EfficientDet: Mot Skalbar Och Effektiv Objektdetektering

Video: EfficientDet: Mot Skalbar Och Effektiv Objektdetektering

Video: EfficientDet: Mot Skalbar Och Effektiv Objektdetektering
Video: [DeepReader] EfficientDet: Scalable and Efficient Object Detection 2024, Maj
Anonim

Som en av de viktigaste applikationerna inom datorvision blir objektdetektering allt viktigare i scenarier som kräver hög precision men har begränsade datorresurser, till exempel robotik och förarlösa bilar. Tyvärr uppfyller många moderna högprecisionsdetektorer inte dessa begränsningar. Ännu viktigare är att verkliga objektdetekteringsapplikationer körs på olika plattformar, vilket ofta kräver olika resurser.

Skalbar och effektiv objektdetektering
Skalbar och effektiv objektdetektering

Så den naturliga frågan är hur man utformar exakta och effektiva objektdetektorer som också kan anpassa sig till ett brett spektrum av resursbegränsningar?

EfficientDet: Skalbar och effektiv objektdetektion, antagen vid CVPR 2020, introducerar en ny familj av skalbara och effektiva objektdetektorer. Baserat på tidigare arbete med skalning av neurala nätverk (EfficientNet) och införlivande av ett nytt dubbelriktat funktionellt nätverk (BiFPN) och nya skalningsregler uppnår EfficientDet modern precision medan den är 9 gånger mindre och använder betydligt mindre beräkning än kända moderna detektorer. Följande bild visar modellernas allmänna nätverksarkitektur.

Bild
Bild

Optimera modellarkitektur

Idén bakom EfficientDet härrör från ett försök att hitta lösningar för att förbättra beräkningseffektiviteten genom att systematiskt undersöka tidigare toppmoderna detektionsmodeller. I allmänhet har objektdetektorer tre huvudkomponenter: en ryggrad som extraherar funktioner från en viss bild; ett nätverk av objekt som tar flera nivåer av funktioner från ryggraden som inmatning och matar ut en lista över kombinerade funktioner som representerar bildens karakteristiska egenskaper; och ett slutligt klass / box-nätverk som använder kombinerade funktioner för att förutsäga klass och plats för varje objekt.

Efter att ha granskat designalternativen för dessa komponenter identifierade vi flera viktiga optimeringar för att förbättra prestanda och effektivitet. Tidigare detektorer använder oftast ResNets, ResNeXt eller AmoebaNet som ryggrad, som antingen är mindre kraftfulla eller har lägre effektivitet än EfficientNets. Med den första implementeringen av EfficientNet-ryggraden kan mycket mer effektivitet uppnås. Till exempel, med början med en RetinaNet-baslinje som använder en ResNet-50-ryggrad, visar vår ablationsstudie att helt enkelt ersätta ResNet-50 med EfficientNet-B3 kan förbättra noggrannheten med 3% samtidigt som beräkningen minskas med 20%. En annan optimering är att förbättra effektiviteten i funktionella nätverk. Medan de flesta av de tidigare detektorerna helt enkelt använder Downlink Pyramid Network (FPN), finner vi att nedströms FPN i sig är begränsad till ett enkelriktat informationsflöde. Alternativa FPN som PANet lägger till ytterligare uppströms till kostnaden för ytterligare beräkning.

Nya försök att använda Neural Architecture Search (NAS) har upptäckt en mer komplex NAS-FPN-arkitektur. Även om denna nätverksstruktur är effektiv är den också oregelbunden och mycket optimerad för en specifik uppgift, vilket gör det svårt att anpassa sig till andra uppgifter. För att lösa dessa problem föreslår vi ett nytt nätverk av dubbelriktade funktioner BiFPN, som implementerar idén att kombinera flerskiktsfunktioner från FPN / PANet / NAS-FPN, som gör att information kan överföras både uppifrån och ned och från botten till toppen. med regelbundna och effektiva anslutningar.

Bild
Bild

För att ytterligare förbättra effektiviteten föreslår vi en ny snabb normaliserad syntesteknik. Traditionella metoder behandlar vanligtvis alla ingångar till FPN på samma sätt, även vid olika upplösningar. Vi observerar dock att ingångsfunktioner med olika upplösningar ofta bidrar ojämnt till utgångsfunktionerna. Således lägger vi till extra vikt för varje ingångsfunktion och låter nätverket lära sig vikten av var och en. Vi kommer också att ersätta alla vanliga krånglar med billigare, djupt avskiljbara krångel. Med denna optimering förbättrar vår BiFPN ytterligare noggrannhet med 4% samtidigt som beräkningskostnaderna minskas med 50%.

Den tredje optimeringen innebär att man uppnår bästa kompromiss mellan noggrannhet och effektivitet under olika resursbegränsningar. Vårt tidigare arbete har visat att samskalning av djup, bredd och upplösning i ett nätverk kan förbättra bildigenkänningsprestanda avsevärt. Inspirerad av denna idé föreslår vi en ny sammansatt skalningsmetod för objektdetektorer som kollektivt ökar upplösningen / djupet / bredden. Varje nätverkskomponent, dvs ryggrad, objekt och block / klass förutsägbart nätverk, kommer att ha en komplex skalningsfaktor som styr alla skalningsdimensioner med hjälp av heuristiska regler. Detta tillvägagångssätt gör det enkelt att bestämma hur man skalar modellen genom att beräkna en skalningsfaktor för en given målresursbegränsning.

Genom att kombinera den nya ryggraden och BiFPN, designar vi först en liten baslinje för EfficientDet-D0 och applicerar sedan sammansatt skalning för att få EfficientDet-D1 till D7. Varje seriemodell har en högre beräkningskostnad, som täcker ett brett utbud av resursbegränsningar från 3 miljarder FLOP till 300 miljarder FLOPS och ger högre noggrannhet.

Prestandamodell

Utvärdera EfficientDet på COCO-datasetet, en mycket använd referensdataset för objektdetektering. EfficientDet-D7 uppnår en genomsnittlig genomsnittlig noggrannhet (mAP) på 52,2, vilket är 1,5 poäng högre än den tidigare moderna modellen, med 4 gånger färre parametrar och 9,4 gånger färre beräkningar

Bild
Bild

Vi jämförde också parameterstorlek och CPU / GPU-latens mellan EfficientDet och tidigare modeller. Med liknande noggrannhetsbegränsningar kör EfficientDet-modellerna 2-4 gånger snabbare på GPU: n och 5–11 gånger snabbare på processorn än andra detektorer. Även om EfficientDet-modeller främst är avsedda för objektdetektering testar vi också deras effektivitet i andra uppgifter som semantisk segmentering. För att utföra segmenteringsuppgifter ändrar vi EfficientDet-D4 något genom att ersätta detekteringshuvudet och huvudförlusten och förlusten samtidigt som vi behåller samma skalade ryggrad och BiFPN. Vi jämför den här modellen med tidigare moderna segmenteringsmodeller för Pascal VOC 2012, ett allmänt använt segmenteringstestdataset.

Bild
Bild

Med tanke på deras exceptionella prestanda förväntas EfficientDet fungera som en ny grund för framtida objektdetekteringsforskning och potentiellt göra mycket noggranna objektdetekteringsmodeller användbara i många verkliga applikationer. Så öppnade alla brytpunkter för koden och förtränad modell på Github.com.

Rekommenderad: