Spatiotemporal Learning for Motion Estimation and Visual Recognition
2025 (English)Doctoral thesis, comprehensive summary (Other academic)
Abstract [en]
The field of computer vision has undergone rapid development. Starting from recognition tasks such as classification, detection, and segmentation, the focus of visual analysis has gradually shifted towards learning spatiotemporal information. This thesis presents research on spatiotemporal learning, with a particular emphasis on motion estimation and visual recognition.
First, we address the problem of video object tracking. Previous methods have primarily re-lied on learning improved appearance representations, while the spatiotemporal relationships of individual objects have been underexplored. We propose leveraging optical flow features to achieve higher generalization in semi-supervised video object segmentation, directly incorporating these features into both the target representation and the decoder network. Our experiments and analysis show that enriching feature representations with spatiotemporal information improves segmentation quality and generalization capability.
Next, we investigate spatiotemporal learning in 3D for motion estimation, specifically scene flow estimation. Scene flow estimation as an important research topic in 3D computer vision is crucial for applications such as robotics, autonomous driving, embodied navigation, and tracking. We investigate the problem in different perspectives: 1. What is the best formulation for solving the problem and how to learn a better spatiotemporal feature representation? 2. Can we introduce uncertainty estimation to the task, which is of crucial importance for safety-critical downstream tasks? 3. How to scale the estimation to large-scale data, e.g., autonomous scenes, and leverage the temporal information without introducing much computation overheads? To answer these questions, we explore the use of transformers for improved feature representation, diffusion models for uncertainty estimation, and efficient feature learning methods for multi-frame, large-scale autonomous driving scenarios.
Finally, we extend our research to joint visual segmentation, tracking, and open-vocabulary recognition in LiDAR sequences, particularly for autonomous scenes. In such environments, precise segmentation, tracking, and recognition of objects are essential for downstream analysis and control. Current human-annotated open-source datasets allow for reasonable tracking of traffic participants such as cars and pedestrians. However, we aim to advance beyond this towards segmenting and tracking any object in LiDAR data. To this end, we propose a pseudo-labeling engine that leverages the 2D visual foundation model SAM v2 and the vision-language model CLIP to automatically label LiDAR streams. We further introduce the SAL-4D model, capable of segmenting, tracking, and recognizing any object in a zero-shot manner.
In summary, we explore the learning of spatiotemporal information in both 2D image and 3D point cloud domains. In the image domain, we demonstrate that spatiotemporal information improves video object segmentation quality and generalization. In the 3D point cloud domain, we show that spatiotemporal learning enables more accurate motion estimation and facilitates the first method for zero-shot segmentation, tracking, and open-vocabulary recognition of arbitrary objects.
Abstract [sv]
Forskningen inom datorseende har genomgått en snabb utveckling. Från att ha fokuserat på igenkänningsuppgifter som klassificering, detektion och segmentering, har trenden inom visuell analys gradvis skiftat mot att lära sig spatiotemporal information. Denna avhandling presenterar arbeten med fokus på spatiotemporalt lärande, särskilt för rörelseskattning och visuell igenkänning.
Först behandlar vi problemet med objektspårning i video. Tidigare metoder för objektspårning har i stor utsträckning förlitat sig på att lära sig bättre representationsmodeller för objektens utseende, medan de spatiotemporala relationerna för varje individuellt objekt har varit mindre utforskade. Vi föreslår att använda optiska flödesegenskaper för att uppnå bättre generaliseringsförmåga i semi-superviserad videoobjektsegmentering. Vi föreslår att direkt använda de optiska flödesegenskaperna i målets representation. Våra experiment och analyser visar att ett rikare funktionsuttryck med spatiotemporal information förbättrar både segmenteringskvalitet och igenkänningsprecision.
Därefter undersöker vi spatiotemporalt lärande i 3D för rörelseskattning, det vill säga scenflödesuppskattning. Scenflödesuppskattning är ett viktigt forskningsområde inom 3D-datorseende och har tillämpningar inom bland annat robotik, autonom körning, navigering i miljöer samt spårning. Vi angriper problemet från olika perspektiv: 1. Vad är den bästa formuleringen för att lösa problemet och hur kan vi lära oss en bättre spatiotemporal funktionsrepresentation? 2. Kan vi införa osäkerhetsuppskattning i uppgiften, vilket är avgörande för säkerhetskritiska tillämpningar? 3. Hur kan vi skala upp beräkningen till stora datamängder, t.ex. autonoma scener, och samtidigt utnyttja temporal information utan att öka beräkningskostnaden för mycket? För att besvara dessa frågor undersöker vi användningen av transformatorer för bättre funktionsrepresentation, diffusionmodeller för osäkerhetsuppskattning samt mer effektiva metoder för funktionsinlärning för att skala upp till flerbildsscener i autonom körning.
Slutligen tar vi ett steg längre och kombinerar visuell segmentering, spårning och öppen vokabulärigenkänning i Lidar-sekvenser, särskilt inom autonoma scenarier. I autonoma körmiljöer är det mycket viktigt att segmentera, spåra och känna igen varje objekt. Med dagens mänskliga annoteringar är det möjligt att spåra trafikanter såsom bilar och fotgängare ganska väl. Men vi vill ta detta ett steg längre: mot att segmentera och spåra vad som helst i Lidar. För detta ändamål föreslår vi en pseudoetiketteringsmotor som använder 2D-visionsmodellen SAM och bildspråksmodellen CLIP för att automatiskt märka Lidar-strömmen. Vi föreslår dessutom modellen SAL-4D för att segmentera, spåra och känna igen objekt i ett zero-shot-sammanhang.
Sammanfattningsvis undersöker vi inlärning av spatiotemporal information i både 2D-bild-och 3D-punktmolnsdomäner. Utifrån bilddomänen visar vi att spatiotemporal information förbättrar kvaliteten på videoobjektsegmentering samt generaliseringsförmågan. I 3D-punktmolnsdomänen visar vi att spatiotemporalt lärande ger mer exakt rörelseskattning och möjliggör den första metoden för zero-shot segmentering, spårning och öppen vokabulärigenkänning av godtyckliga objekt.
Place, publisher, year, edition, pages
Linköping: Linköping University Electronic Press, 2025. , p. 67
Series
Linköping Studies in Science and Technology. Dissertations, ISSN 0345-7524 ; 2476
National Category
Computer graphics and computer vision
Identifiers
URN: urn:nbn:se:liu:diva-217740DOI: 10.3384/9789181182323ISBN: 9789181182316 (print)ISBN: 9789181182323 (electronic)OAI: oai:DiVA.org:liu-217740DiVA, id: diva2:1997857
Public defence
2025-10-13, Ada Lovelace, B-building, Campus Valla, Linköping, 10:15 (English)
Opponent
Supervisors
Note
Funding: I would like to acknowledge the Wallenberg AI, Autonomous Systems and Software Program (WASP) for funding my PhD studies. I am also grateful for the computational resources pro-vided by the National Academic Infrastructure for Supercomputing in Sweden (NAISS) at C3SE, partially funded by the Swedish Research Council (grant 2022-06725), as well as the Berzelius re-source, supported by the Knut and Alice Wallenberg Foundation at the National Supercomputer Center.
2025-09-152025-09-152025-09-15Bibliographically approved
List of papers