liu.seSök publikationer i DiVA
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Scalable and Efficient Probabilistic Topic Model Inference for Textual Data
Linköpings universitet, Institutionen för datavetenskap, Statistik och maskininlärning. Linköpings universitet, Filosofiska fakulteten.
2018 (Engelska)Doktorsavhandling, sammanläggning (Övrigt vetenskapligt)
Abstract [en]

Probabilistic topic models have proven to be an extremely versatile class of mixed-membership models for discovering the thematic structure of text collections. There are many possible applications, covering a broad range of areas of study: technology, natural science, social science and the humanities.

In this thesis, a new efficient parallel Markov Chain Monte Carlo inference algorithm is proposed for Bayesian inference in large topic models. The proposed methods scale well with the corpus size and can be used for other probabilistic topic models and other natural language processing applications. The proposed methods are fast, efficient, scalable, and will converge to the true posterior distribution.

In addition, in this thesis a supervised topic model for high-dimensional text classification is also proposed, with emphasis on interpretable document prediction using the horseshoe shrinkage prior in supervised topic models.

Finally, we develop a model and inference algorithm that can model agenda and framing of political speeches over time with a priori defined topics. We apply the approach to analyze the evolution of immigration discourse in the Swedish parliament by combining theory from political science and communication science with a probabilistic topic model.

Abstract [sv]

Probabilistiska ämnesmodeller (topic models) är en mångsidig klass av modeller för att estimera ämnessammansättningar i större corpusar. Applikationer finns i ett flertal vetenskapsområden som teknik, naturvetenskap, samhällsvetenskap och humaniora. I denna avhandling föreslås nya effektiva och parallella Markov Chain Monte Carlo algoritmer för Bayesianska ämnesmodeller. De föreslagna metoderna skalar väl med storleken på corpuset och kan användas för flera olika ämnesmodeller och liknande modeller inom språkteknologi. De föreslagna metoderna är snabba, effektiva, skalbara och konvergerar till den sanna posteriorfördelningen.

Dessutom föreslås en ämnesmodell för högdimensionell textklassificering, med tonvikt på tolkningsbar dokumentklassificering genom att använda en kraftigt regulariserande priorifördelningar.

Slutligen utvecklas en ämnesmodell för att analyzera "agenda" och "framing" för ett förutbestämt ämne. Med denna metod analyserar vi invandringsdiskursen i Sveriges Riksdag över tid, genom att kombinera teori från statsvetenskap, kommunikationsvetenskap och probabilistiska ämnesmodeller.

Ort, förlag, år, upplaga, sidor
Linköping: Linköping University Electronic Press, 2018. , s. 53
Serie
Linköping Studies in Arts and Sciences, ISSN 0282-9800 ; 743Linköping Studies in Statistics, ISSN 1651-1700 ; 14
Nyckelord [en]
Text analysis, Bayesian inference, Markov chain Monte Carlo, topic models
Nyckelord [sv]
Textanalys, Bayesiansk inferens, Markov chain Monte Carlo, temamodeller
Nationell ämneskategori
Sannolikhetsteori och statistik Språkbehandling och datorlingvistik Datavetenskap (datalogi)
Identifikatorer
URN: urn:nbn:se:liu:diva-146964 DOI: 10.3384/diss.diva-146964ISBN: 9789176852880 (tryckt)OAI: oai:DiVA.org:liu-146964DiVA, id: diva2:1201965
Disputation
2018-06-05, Ada Lovelace, hus B, Campus Valla, Linköping, 13:15 (Engelska)
Opponent
Handledare
Tillgänglig från: 2018-04-27 Skapad: 2018-04-27 Senast uppdaterad: 2025-02-01Bibliografiskt granskad
Delarbeten
1. Sparse Partially Collapsed MCMC for Parallel Inference in Topic Models
Öppna denna publikation i ny flik eller fönster >>Sparse Partially Collapsed MCMC for Parallel Inference in Topic Models
2018 (Engelska)Ingår i: Journal of Computational And Graphical Statistics, ISSN 1061-8600, E-ISSN 1537-2715, Vol. 27, nr 2, s. 449-463Artikel i tidskrift (Refereegranskat) Published
Abstract [en]

Topic models, and more specifically the class of Latent Dirichlet Allocation (LDA), are widely used for probabilistic modeling of text. MCMC sampling from the posterior distribution is typically performed using a collapsed Gibbs sampler. We propose a parallel sparse partially collapsed Gibbs sampler and compare its speed and efficiency to state-of-the-art samplers for topic models on five well-known text corpora of differing sizes and properties. In particular, we propose and compare two different strategies for sampling the parameter block with latent topic indicators. The experiments show that the increase in statistical inefficiency from only partial collapsing is smaller than commonly assumed, and can be more than compensated by the speedup from parallelization and sparsity on larger corpora. We also prove that the partially collapsed samplers scale well with the size of the corpus. The proposed algorithm is fast, efficient, exact, and can be used in more modeling situations than the ordinary collapsed sampler.

Ort, förlag, år, upplaga, sidor
Taylor & Francis, 2018
Nyckelord
Bayesian inference, Gibbs sampling, Latent Dirichlet Allocation, Massive Data Sets, Parallel Computing, Computational complexity
Nationell ämneskategori
Sannolikhetsteori och statistik
Identifikatorer
urn:nbn:se:liu:diva-140872 (URN)10.1080/10618600.2017.1366913 (DOI)000435688200018 ()
Forskningsfinansiär
Stiftelsen för strategisk forskning (SSF), SSFRIT 15-0097
Tillgänglig från: 2017-09-13 Skapad: 2017-09-13 Senast uppdaterad: 2022-04-11Bibliografiskt granskad
2. Automatic Localization of Bugs to Faulty Components in Large Scale Software Systems using Bayesian Classification
Öppna denna publikation i ny flik eller fönster >>Automatic Localization of Bugs to Faulty Components in Large Scale Software Systems using Bayesian Classification
Visa övriga...
2016 (Engelska)Ingår i: 2016 IEEE INTERNATIONAL CONFERENCE ON SOFTWARE QUALITY, RELIABILITY AND SECURITY (QRS 2016), IEEE , 2016, s. 425-432Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

We suggest a Bayesian approach to the problem of reducing bug turnaround time in large software development organizations. Our approach is to use classification to predict where bugs are located in components. This classification is a form of automatic fault localization (AFL) at the component level. The approach only relies on historical bug reports and does not require detailed analysis of source code or detailed test runs. Our approach addresses two problems identified in user studies of AFL tools. The first problem concerns the trust in which the user can put in the results of the tool. The second problem concerns understanding how the results were computed. The proposed model quantifies the uncertainty in its predictions and all estimated model parameters. Additionally, the output of the model explains why a result was suggested. We evaluate the approach on more than 50000 bugs.

Ort, förlag, år, upplaga, sidor
IEEE, 2016
Nyckelord
Machine Learning; Fault Detection; Fault Location; Software Maintenance; Software Debugging; Software Engineering
Nationell ämneskategori
Datavetenskap (datalogi)
Identifikatorer
urn:nbn:se:liu:diva-132879 (URN)10.1109/QRS.2016.54 (DOI)000386751700044 ()978-1-5090-4127-5 (ISBN)
Konferens
IEEE International Conference on Software Quality, Reliability and Security (QRS)
Tillgänglig från: 2016-12-06 Skapad: 2016-11-30 Senast uppdaterad: 2020-09-16
3. Pulling Out the Stops: Rethinking Stopword Removal for Topic Models
Öppna denna publikation i ny flik eller fönster >>Pulling Out the Stops: Rethinking Stopword Removal for Topic Models
2017 (Engelska)Ingår i: 15th Conference of the European Chapter of the Association for Computational Linguistics: Proceedings of Conference, volume 2: Short Papers, Stroudsburg: Association for Computational Linguistics (ACL) , 2017, Vol. 2, s. 432-436Konferensbidrag, Publicerat paper (Övrigt vetenskapligt)
Abstract [en]

It is often assumed that topic models benefit from the use of a manually curated stopword list. Constructing this list is time-consuming and often subject to user judgments about what kinds of words are important to the model and the application. Although stopword removal clearly affects which word types appear as most probable terms in topics, we argue that this improvement is superficial, and that topic inference benefits little from the practice of removing stopwords beyond very frequent terms. Removing corpus-specific stopwords after model inference is more transparent and produces similar results to removing those words prior to inference.

Ort, förlag, år, upplaga, sidor
Stroudsburg: Association for Computational Linguistics (ACL), 2017
Nationell ämneskategori
Sannolikhetsteori och statistik Jämförande språkvetenskap och allmän lingvistik Studier av enskilda språk
Identifikatorer
urn:nbn:se:liu:diva-147612 (URN)9781945626357 (ISBN)
Konferens
15th Conference of the European Chapter of the Association for Computational Linguistics Proceedings of Conference, volume 2: Short Papers April 3-7, 2017, Valencia, Spain
Tillgänglig från: 2018-04-27 Skapad: 2018-04-27 Senast uppdaterad: 2018-04-27Bibliografiskt granskad

Open Access i DiVA

Scalable and Efficient Probabilistic Topic Model Inference for Textual Data(897 kB)1480 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 897 kBChecksumma SHA-512
5fabba9272a35e44045216eb5714ea35c8b22c896ae76cbc47b06b03bc73da6b2ceb6056f82e2d4b207132e35999a60b14d4fc415fd5f4776c266a2e7108e410
Typ fulltextMimetyp application/pdf
omslag(89 kB)98 nedladdningar
Filinformation
Filnamn COVER01.pdfFilstorlek 89 kBChecksumma SHA-512
5c34767d407eed5f73d12a0d9b5480b9e1e2cc83671b3f9df01fde3b2fc165418fd702bf61dd350ef0ffc26f550d68cf20da622d152d8efd5ea242c39364598f
Typ coverMimetyp application/pdf
Beställ online >>

Övriga länkar

Förlagets fulltext

Person

Magnusson, Måns

Sök vidare i DiVA

Av författaren/redaktören
Magnusson, Måns
Av organisationen
Statistik och maskininlärningFilosofiska fakulteten
Sannolikhetsteori och statistikSpråkbehandling och datorlingvistikDatavetenskap (datalogi)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 1482 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

doi
isbn
urn-nbn

Altmetricpoäng

doi
isbn
urn-nbn
Totalt: 4437 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf