liu.seSearch for publications in DiVA
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Recurrent Graph Neural Networks for Video Instance Segmentation
Linköping University, Department of Electrical Engineering, Computer Vision. Linköping University, Faculty of Science & Engineering. Saab, Linkoping, Sweden.ORCID iD: 0000-0002-0418-9694
Linköping University, Department of Electrical Engineering, Computer Vision. Linköping University, Faculty of Science & Engineering. Zenseact, Sweden.ORCID iD: 0000-0003-2553-3367
Swiss Fed Inst Technol, Switzerland.
Linköping University, Department of Electrical Engineering, Computer Vision. Linköping University, Faculty of Science & Engineering. Univ KwaZulu Natal, South Africa.ORCID iD: 0000-0002-6096-3648
2023 (English)In: International Journal of Computer Vision, ISSN 0920-5691, E-ISSN 1573-1405, Vol. 131, p. 471-495Article in journal (Refereed) Published
Abstract [en]

Video instance segmentation is one of the core problems in computer vision. Formulating a purely learning-based method, which models the generic track management required to solve the video instance segmentation task, is a highly challenging problem. In this work, we propose a novel learning framework where the entire video instance segmentation problem is modeled jointly. To this end, we design a graph neural network that in each frame jointly processes all detections and a memory of previously seen tracks. Past information is considered and processed via a recurrent connection. We demonstrate the effectiveness of the proposed approach in comprehensive experiments. Our approach operates online at over 25 FPS and obtains 16.3 AP on the challenging OVIS benchmark, setting a new state-of-the-art. We further conduct detailed ablative experiments that validate the different aspects of our approach. Code is available at https://github.com/emibr948/RGNNVIS-PlusPlus.

Place, publisher, year, edition, pages
Springer , 2023. Vol. 131, p. 471-495
Keywords [en]
Detection; Tracking; Segmentation; Video
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:liu:diva-190196DOI: 10.1007/s11263-022-01703-8ISI: 000885236800001OAI: oai:DiVA.org:liu-190196DiVA, id: diva2:1714333
Note

Funding Agencies|Wallenberg Artificial Intelligence, Autonomous Systems and Software Program (WASP) - Knut and Alice Wallenberg Foundation; Excellence Center at Linkoping-Lund in Information Technology (ELLIT)

Available from: 2022-11-29 Created: 2022-11-29 Last updated: 2023-11-02Bibliographically approved
In thesis
1. Learning to Analyze Visual Data Streams for Environment Perception
Open this publication in new window or tab >>Learning to Analyze Visual Data Streams for Environment Perception
2023 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]

A mobile robot, instructed by a human operator, acts in an environment with many other objects. However, for an autonomous robot, human instructions should be minimal and only high-level instructions, such as the ultimate task or destination. In order to increase the level of autonomy, it has become a foremost objective to mimic human vision using neural networks that take a stream of images as input and learn a specific computer vision task from large amounts of data. In this thesis, we explore several different models for surround sensing, each of which contributes to a higher understanding of the environment being possible. 

As its first contribution, this thesis presents an object tracking method for video sequences, which is a crucial component in a perception system. This method predicts a fine-grained mask to separate the pixels corresponding to the target from those corresponding to the background. Rather than tracking location and size, the method tracks the initial pixels assigned to the target in this so-called video object segmentation. For subsequent time steps, the goal is to learn how the target looks using features from a neural network. We named our method A-GAME, based on the generative modeling of deep feature space, separating target and background appearances. 

In the second contribution of this thesis, we detect, track, and segment all objects from a set of predefined object classes. This information is how the robot increases its capabilities to perceive the surroundings. We experiment with a graph neural network to weigh all new detections and existing tracks. This model outperforms prior works by separating visually, and semantically similar objects frame by frame. 

The third contribution investigates one limitation of anchor-based detectors, which classify pre-defined bounding boxes as either negative or positive and thus provide a limited set of handled object shapes. One idea is to learn an alternative instance representation. We experiment with a neural network that predicts the distance to the nearest object contour in different directions from each pixel. The network then computes an approximated signed distance function containing the respective instance information. 

Last, this thesis studies a concept within model validation. We observed that overfitting could increase performance on benchmarks. However, this opportunity is insipid for sensing systems in practice since measurements, such as length or angles, are quantities that explain the environment. The fourth contribution of this thesis is an extended validation technique for camera calibration. This technique uses a statistical model for each error difference between an observed value and a corresponding prediction of the projective model. We compute a test over the differences and detect if the projective model is incorrect. 

Abstract [sv]

En mobil robot, instruerad av en mänsklig operatör, agerar i en miljö med många andra föremål. För en autonom robot bör det mänskliga ingripandet vara minimalt och endast vara instruktioner på hög nivå, som den ultimata uppgiften eller destinationen. Neurala nätverk som tar en ström av bilder som indata och lär sig en specifik datorseendeuppgift från stora mängder data, för att efterlikna den förmåga som kommer naturligt för människor, har blivit avgörande i strävan efter autonomi. I denna avhandling utforskar vi olika modeller, som var och en bidrar till att en högre förståelse av omgivningen är möjlig.

I avhandlingens första bidrag undersöks en metod för objektföljning, för att hålla reda på objekt. En förmåga som är ett nyckelelement till hur omvärlden kan uppfattas. Metoden skattar en detaljerad pixel-mask av objektet och klassificerar alla andra pixlar som bakgrund. De initiala pixlarna av objektet spåras, så kallad videoobjektsegmentering, istället för att spåra position och storlek. För efterföljande tidssteg är målet att lära sig utseendet av objektet från särdrag beräknat av ett neuralt nätverk. Vi döpte vår metod till A-GAME, baserad på den generativa modelleringen av djupa särdrag, som skiljer på hur objektet och bakgrunden ser ut.

I det andra bidraget i denna avhandling detekterar, spårar och segmenterar vi alla objekt från en uppsättning redan definierade objektklasser. Denna information är hur roboten kan öka sin förmåga att uppfatta omgivningen. Vi experimenterar med ett neuralt nätverk från grafteori för att vikta alla nya detekterade objekt och befintliga objektspår. Metoden, som bearbetar en bild i taget och separerar visuellt och semantiskt liknande objekt, överträffar tidigare arbeten.

Det tredje bidraget undersöker en begränsning av detektorer som använder ankar-baserade objektkandidater. Dessa detektorer klassificerar redan definierade boxtyper för tänkbara objekt som antingen negativa eller positiva och begränsad därmed vilka objekt som kan detekteras be-roende på form. En idé är att lära sig en alternativ objektrepresentation. Vi experimenterar med ett neuralt nätverk som förutsäger avståndet till närmaste objektkontur i olika riktningar från varje pixel. Det neurala nätverket beräknar sedan en approximerad distansfunktion, för en bild i taget, som innehåller information om de individuella objekten.

Till sist studerar denna avhandling ett koncept inom validering. Vi observerade att överanpassning kunde öka prestandamått på dataset avsedda för jämförelse. Denna möjlighet är dock obetydlig för oss i praktiken eftersom mätningar, såsom längd eller vinklar, är storheter som används för att beskriva omgivningen. Det fjärde bidraget i denna avhandling är en utökad valideringsteknik för kamerakalibrering. Denna teknik använder en statistisk modell för varje avvikelse mellan ett observerat värde och en motsvarande förutsägelse av den projektiva modellen. Ett statistiskt test beräknas över avvikelserna för att upptäcka om en sådan model är felaktig.  

Place, publisher, year, edition, pages
Linköping: Linköping University Electronic Press, 2023. p. 45
Series
Linköping Studies in Science and Technology. Dissertations, ISSN 0345-7524 ; 2283
National Category
Computer Vision and Robotics (Autonomous Systems)
Identifiers
urn:nbn:se:liu:diva-192620 (URN)10.3384/9789180750158 (DOI)9789180750141 (ISBN)9789180750158 (ISBN)
Public defence
2023-04-28, Ada Lovelace, B-building, Campus Valla, Linköping, 10:15 (English)
Opponent
Supervisors
Note

Funding agencies: Saab Dynamics and the Wallenberg AI, Autonomous Systems, and Software Program (WASP) funded by the Knut and Alice Wallenberg Foundation. Furthermore, the computations were enabled by the Berzelius resource provided by the Knut and Alice Wallenberg Foundation at the National Super-computer Centre; and computations were enabled by resources provided by the Swedish National Infrastructure for Computing (SNIC) at Alvis partially funded by the Swedish Research Council through grant agreement no. 2018-05973.

Available from: 2023-03-24 Created: 2023-03-24 Last updated: 2023-03-24Bibliographically approved

Open Access in DiVA

fulltext(4128 kB)411 downloads
File information
File name FULLTEXT01.pdfFile size 4128 kBChecksum SHA-512
d74b5c5079edfcd560554599ab97af5dbcf507efc2410e1e34190cd0bcc8cccf50a5ca2225f649909ffe9205a8bd58158ac0c52be45cbaf5b19f7852aa62bb64
Type fulltextMimetype application/pdf

Other links

Publisher's full text

Authority records

Brissman, EmilJohnander, JoakimFelsberg, Michael

Search in DiVA

By author/editor
Brissman, EmilJohnander, JoakimFelsberg, Michael
By organisation
Computer VisionFaculty of Science & Engineering
In the same journal
International Journal of Computer Vision
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 411 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

doi
urn-nbn

Altmetric score

doi
urn-nbn
Total: 176 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf