Open this publication in new window or tab >>2022 (English)Doctoral thesis, comprehensive summary (Other academic)
Prediktionsmetoder för högdimensionella data med censurerade kovariater
Abstract [en]
While access to data steadily increases, not all data are straight-forward to use for prediction. Censored data are common in several industrial scenarios, and typically arise when there are some limitations to measuring equipment such as for instance concentration measuring equipment in chemistry or signal receivers in signal processing.
In this thesis, we take several angles to censored covariate data for prediction problem. We explore the impact on both covariates and the response when the censored covariates are imputed. We consider linear approaches as well as non-linear approaches, and we explore how both frequentist models as well as Bayesian models perform with censored covariate data. While the focus is using the imputed covariate data for prediction, we also investigate model parameter inference and uncertainty inferred by the imputations.
We use real, censored covariate telecommunications data for prediction with some of the most commonly used prediction models and evaluate the performance when single imputations are made. We propose a selective multiple imputation approach which is suitable for high dimensional data that perform well with heavy censoring. We take a Bayesian linear regression approach leveraging information from auxiliary variables using multivariate regression and introduce multivariate draws from conditional distributions to update censored values in the covariates. We fnally offer a bridge between the fexibility of Neural Networks and the probabilistic nature of Bayesian methods by taking a Variational Autoencoder approach and introducing Zero-Infated Truncated Gaussian likelihoods for the covariates to better ft the censored distributions.
Abstract [sv]
I många industriella sammanhang finns stora mängder data att tillgå. Dessa data är dock ofta inkompletta, och strategier behövs för kunna nyttja data på bästa sätt när de används för prediktion. Mycket forskning har fortgått för att hantera saknade data i responsvariabeln, den variabel som ska predikteras, medan mindre forskning inriktats på saknade värden i kovariater, variablerna som används för att prediktera responsvariabeln. Ännu mindre forskning har fokuserat på så kallade censurerade data. Censurerade data är ett specialfall av saknade data där data är partiellt observerat, men som inte kan observeras fullt då exempelvis värden under en specifik tröskel inte går att mäta. Detta är vanligt i exempelvis signaldata, där mottagaren av signalen har en undre gräns för hörbarhet.
I denna avhandling bidrar vi till forskning för censurerade kovariater i prediktionsmodeller genom att introducera strategier som är snabbare och kan hantera mer komplexa beroenden i data än befintliga metoder. Vi angriper problemet från flertalet vinklar, och detta arbete presenterar metoder för att både kunna prediktera data, återställa de censurerade värdena och parametrar från datagenereringsprocessen med god precision.
Vi ställer olika traditionella metoder mot varandra och utvärderar hur enkla metoder för att ersätta, så kallat imputera, censurerade värden påverkar osäkerheten i prediktioner och presenterar alternativ till att ta specifika beslut under stor osäkerhet. Vi visar att det kan vara en fördel att vid tung censurering inte imputera alla censurerade värden och på så sätt åstadkomma kortare beräkningstider. Vi presenterar hur man kan använda beroenden mellan kovariater för att åstadkomma mer effektiva beräkningar och mer precisa imputationer. Slutligen visar vi hur man kan ändra antaganden för sannolikhetsfördelningarna för censorerad data för att kunna imputera med bättre precision. Vi gör detta med en metod som är snabb, flexibel för komplexa data och som kan generera skattningar på osäkerhet.
Place, publisher, year, edition, pages
Linköping: Linköping University Electronic Press, 2022. p. 26
Series
Linköping Studies in Arts and Sciences, ISSN 0282-9800 ; 839Linköping Studies in Statistics, ISSN 1651-1700 ; 16
Keywords
statistics, machine learning, censored covariates, statistik, maskininlärning, censurerade kovariater
National Category
Probability Theory and Statistics
Identifiers
urn:nbn:se:liu:diva-187763 (URN)10.3384/9789179293994 (DOI)9789179293987 (ISBN)9789179293994 (ISBN)
Public defence
2022-10-04, Ada Lovelace, B-huset, Campus Valla, Linköping, 13:15
Opponent
Supervisors
2022-08-232022-08-232022-09-08Bibliographically approved