liu.seSök publikationer i DiVA
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
DOLDA: a regularized supervised topic model for high-dimensional multi-class regression
Linköpings universitet, Institutionen för datavetenskap, Statistik och maskininlärning. Linköpings universitet, Filosofiska fakulteten. Aalto University, Espoo, Finland.
Ericsson AB, Stockholm, Sweden.
Linköpings universitet, Institutionen för datavetenskap, Statistik och maskininlärning. Linköpings universitet, Filosofiska fakulteten. Stockholm University, Stockholm, Sweden.
2020 (Engelska)Ingår i: Computational statistics (Zeitschrift), ISSN 0943-4062, E-ISSN 1613-9658, Vol. 35, nr 1, s. 175-201Artikel i tidskrift (Refereegranskat) Published
Abstract [en]

Generating user interpretable multi-class predictions in data-rich environments with many classes and explanatory covariates is a daunting task. We introduce Diagonal Orthant Latent Dirichlet Allocation (DOLDA), a supervised topic model for multi-class classification that can handle many classes as well as many covariates. To handle many classes we use the recently proposed Diagonal Orthant probit model (Johndrow et al., in: Proceedings of the sixteenth international conference on artificial intelligence and statistics, 2013) together with an efficient Horseshoe prior for variable selection/shrinkage (Carvalho et al. in Biometrika 97:465–480, 2010). We propose a computationally efficient parallel Gibbs sampler for the new model. An important advantage of DOLDA is that learned topics are directly connected to individual classes without the need for a reference class. We evaluate the model’s predictive accuracy and scalability, and demonstrate DOLDA’s advantage in interpreting the generated predictions.

Ort, förlag, år, upplaga, sidor
Springer, 2020. Vol. 35, nr 1, s. 175-201
Nyckelord [en]
Text classification, Latent Dirichlet Allocation, Horseshoe prior, Diagonal Orthant probit model, Interpretable models
Nationell ämneskategori
Sannolikhetsteori och statistik
Identifikatorer
URN: urn:nbn:se:liu:diva-159217DOI: 10.1007/s00180-019-00891-1ISI: 000516561400012Scopus ID: 2-s2.0-85067414496OAI: oai:DiVA.org:liu-159217DiVA, id: diva2:1340533
Anmärkning

Funding agencies: Aalto University

Tillgänglig från: 2019-08-05 Skapad: 2019-08-05 Senast uppdaterad: 2020-03-19Bibliografiskt granskad

Open Access i DiVA

fulltext(1158 kB)265 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 1158 kBChecksumma SHA-512
84eb60b070b1b1cd1c2a263550882d2fae3129affcd5c0e8bac9c1c0e6119f16d74ab725fc8d4077ca49b4ef2314934029e0a20b08311ee301ca939dd56c7734
Typ fulltextMimetyp application/pdf

Övriga länkar

Förlagets fulltextScopus

Person

Magnusson, MånsVillani, Mattias

Sök vidare i DiVA

Av författaren/redaktören
Magnusson, MånsVillani, Mattias
Av organisationen
Statistik och maskininlärningFilosofiska fakulteten
I samma tidskrift
Computational statistics (Zeitschrift)
Sannolikhetsteori och statistik

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 265 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

doi
urn-nbn

Altmetricpoäng

doi
urn-nbn
Totalt: 248 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf