Learning to Analyze Visual Data Streams for Environment Perception
2023 (English) Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]
A mobile robot, instructed by a human operator, acts in an environment with many other objects. However, for an autonomous robot, human instructions should be minimal and only high-level instructions, such as the ultimate task or destination. In order to increase the level of autonomy, it has become a foremost objective to mimic human vision using neural networks that take a stream of images as input and learn a specific computer vision task from large amounts of data. In this thesis, we explore several different models for surround sensing, each of which contributes to a higher understanding of the environment being possible.
As its first contribution, this thesis presents an object tracking method for video sequences, which is a crucial component in a perception system. This method predicts a fine-grained mask to separate the pixels corresponding to the target from those corresponding to the background. Rather than tracking location and size, the method tracks the initial pixels assigned to the target in this so-called video object segmentation. For subsequent time steps, the goal is to learn how the target looks using features from a neural network. We named our method A-GAME, based on the generative modeling of deep feature space, separating target and background appearances.
In the second contribution of this thesis, we detect, track, and segment all objects from a set of predefined object classes. This information is how the robot increases its capabilities to perceive the surroundings. We experiment with a graph neural network to weigh all new detections and existing tracks. This model outperforms prior works by separating visually, and semantically similar objects frame by frame.
The third contribution investigates one limitation of anchor-based detectors, which classify pre-defined bounding boxes as either negative or positive and thus provide a limited set of handled object shapes. One idea is to learn an alternative instance representation. We experiment with a neural network that predicts the distance to the nearest object contour in different directions from each pixel. The network then computes an approximated signed distance function containing the respective instance information.
Last, this thesis studies a concept within model validation. We observed that overfitting could increase performance on benchmarks. However, this opportunity is insipid for sensing systems in practice since measurements, such as length or angles, are quantities that explain the environment. The fourth contribution of this thesis is an extended validation technique for camera calibration. This technique uses a statistical model for each error difference between an observed value and a corresponding prediction of the projective model. We compute a test over the differences and detect if the projective model is incorrect.
Abstract [sv]
En mobil robot, instruerad av en mänsklig operatör, agerar i en miljö med många andra föremål. För en autonom robot bör det mänskliga ingripandet vara minimalt och endast vara instruktioner på hög nivå, som den ultimata uppgiften eller destinationen. Neurala nätverk som tar en ström av bilder som indata och lär sig en specifik datorseendeuppgift från stora mängder data, för att efterlikna den förmåga som kommer naturligt för människor, har blivit avgörande i strävan efter autonomi. I denna avhandling utforskar vi olika modeller, som var och en bidrar till att en högre förståelse av omgivningen är möjlig.
I avhandlingens första bidrag undersöks en metod för objektföljning, för att hålla reda på objekt. En förmåga som är ett nyckelelement till hur omvärlden kan uppfattas. Metoden skattar en detaljerad pixel-mask av objektet och klassificerar alla andra pixlar som bakgrund. De initiala pixlarna av objektet spåras, så kallad videoobjektsegmentering, istället för att spåra position och storlek. För efterföljande tidssteg är målet att lära sig utseendet av objektet från särdrag beräknat av ett neuralt nätverk. Vi döpte vår metod till A-GAME, baserad på den generativa modelleringen av djupa särdrag, som skiljer på hur objektet och bakgrunden ser ut.
I det andra bidraget i denna avhandling detekterar, spårar och segmenterar vi alla objekt från en uppsättning redan definierade objektklasser. Denna information är hur roboten kan öka sin förmåga att uppfatta omgivningen. Vi experimenterar med ett neuralt nätverk från grafteori för att vikta alla nya detekterade objekt och befintliga objektspår. Metoden, som bearbetar en bild i taget och separerar visuellt och semantiskt liknande objekt, överträffar tidigare arbeten.
Det tredje bidraget undersöker en begränsning av detektorer som använder ankar-baserade objektkandidater. Dessa detektorer klassificerar redan definierade boxtyper för tänkbara objekt som antingen negativa eller positiva och begränsad därmed vilka objekt som kan detekteras be-roende på form. En idé är att lära sig en alternativ objektrepresentation. Vi experimenterar med ett neuralt nätverk som förutsäger avståndet till närmaste objektkontur i olika riktningar från varje pixel. Det neurala nätverket beräknar sedan en approximerad distansfunktion, för en bild i taget, som innehåller information om de individuella objekten.
Till sist studerar denna avhandling ett koncept inom validering. Vi observerade att överanpassning kunde öka prestandamått på dataset avsedda för jämförelse. Denna möjlighet är dock obetydlig för oss i praktiken eftersom mätningar, såsom längd eller vinklar, är storheter som används för att beskriva omgivningen. Det fjärde bidraget i denna avhandling är en utökad valideringsteknik för kamerakalibrering. Denna teknik använder en statistisk modell för varje avvikelse mellan ett observerat värde och en motsvarande förutsägelse av den projektiva modellen. Ett statistiskt test beräknas över avvikelserna för att upptäcka om en sådan model är felaktig.
Place, publisher, year, edition, pages Linköping: Linköping University Electronic Press, 2023. , p. 45
Series
Linköping Studies in Science and Technology. Dissertations, ISSN 0345-7524 ; 2283
National Category
Computer graphics and computer vision
Identifiers URN: urn:nbn:se:liu:diva-192620 DOI: 10.3384/9789180750158 ISBN: 9789180750141 (print) ISBN: 9789180750158 (electronic) OAI: oai:DiVA.org:liu-192620 DiVA, id: diva2:1745714
Public defence
2023-04-28, Ada Lovelace, B-building, Campus Valla, Linköping, 10:15 (English)
Opponent
Supervisors
Note Funding agencies: Saab Dynamics and the Wallenberg AI, Autonomous Systems, and Software Program (WASP) funded by the Knut and Alice Wallenberg Foundation. Furthermore, the computations were enabled by the Berzelius resource provided by the Knut and Alice Wallenberg Foundation at the National Super-computer Centre; and computations were enabled by resources provided by the Swedish National Infrastructure for Computing (SNIC) at Alvis partially funded by the Swedish Research Council through grant agreement no. 2018-05973.
2023-03-242023-03-242025-02-07 Bibliographically approved
List of papers