liu.seSök publikationer i DiVA
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Selective Imputation of Covariates in High Dimensional Censored Data
Linköpings universitet, Institutionen för datavetenskap, Statistik och maskininlärning. Linköpings universitet, Filosofiska fakulteten.ORCID-id: 0000-0003-4271-6683
Linköpings universitet, Institutionen för datavetenskap, Statistik och maskininlärning. Linköpings universitet, Filosofiska fakulteten.
2022 (Engelska)Ingår i: Journal of Computational And Graphical Statistics, ISSN 1061-8600, E-ISSN 1537-2715, Vol. 31, nr 4, s. 1397-1405Artikel i tidskrift (Refereegranskat) Published
Abstract [en]

Efficient modeling of censored data, that is, data which are restricted by some detection limit or truncation, is important for many applications. Ignoring the censoring can be problematic as valuable information may be missing and restoration of these censored values may significantly improve the quality of models. There are many scenarios where one may encounter censored data: survival data, interval-censored data or data with a lower limit of detection. Strategies to handle censored data are plenty, however, little effort has been made to handle censored data of high dimension. In this article, we present a selective multiple imputation approach for predictive modeling when a larger number of covariates are subject to censoring. Our method allows for iterative, subject-wise selection of covariates to impute in order to achieve a fast and accurate predictive model. The algorithm furthermore selects values for imputation which are likely to provide important information if imputed. In contrast to previously proposed methods, our approach is fully nonparametric and therefore, very flexible. We demonstrate that, in comparison to previous work, our model achieves faster execution and often comparable accuracy in a simulated example as well as predicting signal strength in radio network data. for this article are available online.

Ort, förlag, år, upplaga, sidor
Taylor & Francis Inc , 2022. Vol. 31, nr 4, s. 1397-1405
Nyckelord [en]
Censored covariates; Nonparametric model; Random forest; Wireless networks
Nationell ämneskategori
Sannolikhetsteori och statistik
Identifikatorer
URN: urn:nbn:se:liu:diva-184118DOI: 10.1080/10618600.2022.2035233ISI: 000772776700001OAI: oai:DiVA.org:liu-184118DiVA, id: diva2:1650480
Anmärkning

Funding Agencies|Wallenberg AI, Autonomous Systems and Software Program (WASP) - Knut and Alice Wallenberg Foundation

Tillgänglig från: 2022-04-07 Skapad: 2022-04-07 Senast uppdaterad: 2023-03-06
Ingår i avhandling
1. Prediction Methods for High Dimensional Data with Censored Covariates
Öppna denna publikation i ny flik eller fönster >>Prediction Methods for High Dimensional Data with Censored Covariates
2022 (Engelska)Doktorsavhandling, sammanläggning (Övrigt vetenskapligt)
Alternativ titel[sv]
Prediktionsmetoder för högdimensionella data med censurerade kovariater
Abstract [en]

While access to data steadily increases, not all data are straight-forward to use for prediction. Censored data are common in several industrial scenarios, and typically arise when there are some limitations to measuring equipment such as for instance concentration measuring equipment in chemistry or signal receivers in signal processing. 

In this thesis, we take several angles to censored covariate data for prediction problem. We explore the impact on both covariates and the response when the censored covariates are imputed. We consider linear approaches as well as non-linear approaches, and we explore how both frequentist models as well as Bayesian models perform with censored covariate data. While the focus is using the imputed covariate data for prediction, we also investigate model parameter inference and uncertainty inferred by the imputations. 

We use real, censored covariate telecommunications data for prediction with some of the most commonly used prediction models and evaluate the performance when single imputations are made. We propose a selective multiple imputation approach which is suitable for high dimensional data that perform well with heavy censoring. We take a Bayesian linear regression approach leveraging information from auxiliary variables using multivariate regression and introduce multivariate draws from conditional distributions to update censored values in the covariates. We fnally offer a bridge between the fexibility of Neural Networks and the probabilistic nature of Bayesian methods by taking a Variational Autoencoder approach and introducing Zero-Infated Truncated Gaussian likelihoods for the covariates to better ft the censored distributions. 

Abstract [sv]

I många industriella sammanhang finns stora mängder data att tillgå. Dessa data är dock ofta inkompletta, och strategier behövs för kunna nyttja data på bästa sätt när de används för prediktion. Mycket forskning har fortgått för att hantera saknade data i responsvariabeln, den variabel som ska predikteras, medan mindre forskning inriktats på saknade värden i kovariater, variablerna som används för att prediktera responsvariabeln. Ännu mindre forskning har fokuserat på så kallade censurerade data. Censurerade data är ett specialfall av saknade data där data är partiellt observerat, men som inte kan observeras fullt då exempelvis värden under en specifik tröskel inte går att mäta. Detta är vanligt i exempelvis signaldata, där mottagaren av signalen har en undre gräns för hörbarhet.

I denna avhandling bidrar vi till forskning för censurerade kovariater i prediktionsmodeller genom att introducera strategier som är snabbare och kan hantera mer komplexa beroenden i data än befintliga metoder. Vi angriper problemet från flertalet vinklar, och detta arbete presenterar metoder för att både kunna prediktera data, återställa de censurerade värdena och parametrar från datagenereringsprocessen med god precision.

Vi ställer olika traditionella metoder mot varandra och utvärderar hur enkla metoder för att ersätta, så kallat imputera, censurerade värden påverkar osäkerheten i prediktioner och presenterar alternativ till att ta specifika beslut under stor osäkerhet. Vi visar att det kan vara en fördel att vid tung censurering inte imputera alla censurerade värden och på så sätt åstadkomma kortare beräkningstider. Vi presenterar hur man kan använda beroenden mellan kovariater för att åstadkomma mer effektiva beräkningar och mer precisa imputationer. Slutligen visar vi hur man kan ändra antaganden för sannolikhetsfördelningarna för censorerad data för att kunna imputera med bättre precision. Vi gör detta med en metod som är snabb, flexibel för komplexa data och som kan generera skattningar på osäkerhet.

Ort, förlag, år, upplaga, sidor
Linköping: Linköping University Electronic Press, 2022. s. 26
Serie
Linköping Studies in Arts and Sciences, ISSN 0282-9800 ; 839Linköping Studies in Statistics, ISSN 1651-1700 ; 16
Nyckelord
statistics, machine learning, censored covariates, statistik, maskininlärning, censurerade kovariater
Nationell ämneskategori
Sannolikhetsteori och statistik
Identifikatorer
urn:nbn:se:liu:diva-187763 (URN)10.3384/9789179293994 (DOI)9789179293987 (ISBN)9789179293994 (ISBN)
Disputation
2022-10-04, Ada Lovelace, B-huset, Campus Valla, Linköping, 13:15
Opponent
Handledare
Tillgänglig från: 2022-08-23 Skapad: 2022-08-23 Senast uppdaterad: 2022-09-08Bibliografiskt granskad

Open Access i DiVA

fulltext(1913 kB)129 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 1913 kBChecksumma SHA-512
8d94d6476e15d16150e7d0f7e0fc1d37e03ccbde8438fb893cda90cd60ba5837a6904f20e11adc4d342ac9f5299389ef629012cc0af0d15d46f67ba3cf19109e
Typ fulltextMimetyp application/pdf

Övriga länkar

Förlagets fulltext

Sök vidare i DiVA

Av författaren/redaktören
Svahn, CarolineSysoev, Oleg
Av organisationen
Statistik och maskininlärningFilosofiska fakulteten
I samma tidskrift
Journal of Computational And Graphical Statistics
Sannolikhetsteori och statistik

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 129 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 180 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf