liu.seSök publikationer i DiVA
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Towards a Standard Dataset of Swedish Word Vectors
Linköpings universitet, Institutionen för datavetenskap, Interaktiva och kognitiva system. Linköpings universitet, Tekniska fakulteten. (Natural Language Processing)
Linköpings universitet, Institutionen för datavetenskap, Interaktiva och kognitiva system. Linköpings universitet, Tekniska fakulteten. (Natural Language Processing)
Linköpings universitet, Institutionen för datavetenskap, Interaktiva och kognitiva system. Linköpings universitet, Tekniska fakulteten. (Natural Language Processing)ORCID-id: 0000-0002-2492-9872
2016 (Engelska)Ingår i: Proceedings of the Sixth Swedish Language Technology Conference (SLTC), 2016Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

Word vectors, embeddings of words into a low-dimensional space, have been shown to be useful for a large number of natural language processing tasks. Our goal with this paper is to provide a useful dataset of such vectors for Swedish. To this end, we investigate three standard embedding methods: the continuous bag-of-words and the skip-gram model with negative sampling of Mikolov et al. (2013a), and the global vectors of Pennington et al. (2014). We compare these methods using QVEC-CCA (Tsvetkov et al., 2016), an intrinsic evaluation measure that quantifies the correlation of learned word vectors with external linguistic resources. For this propose we use SALDO, the Swedish Association Lexicon (Borin et al., 2013). Our experiments show that the continuous bag-of-words model produces vectors that are most highly correlated to SALDO, with the skip-gram model very close behind. Our learned vectors will be provided for download at the paper’s website.

Ort, förlag, år, upplaga, sidor
2016.
Nationell ämneskategori
Språkteknologi (språkvetenskaplig databehandling)
Identifikatorer
URN: urn:nbn:se:liu:diva-134901OAI: oai:DiVA.org:liu-134901DiVA, id: diva2:1077779
Konferens
Sixth Swedish Language Technology Conference (SLTC), Umeå 17-18 nov 2016
Tillgänglig från: 2017-03-01 Skapad: 2017-03-01 Senast uppdaterad: 2018-01-13Bibliografiskt granskad

Open Access i DiVA

fulltext(122 kB)283 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 122 kBChecksumma SHA-512
1acce2446056aacc0b267e9f6115eebbca3163ee486faf91a9d2267997ae641f6e35b2c12246916cef0cbf93a193df136594ed0d94430f6d6b26704060818c39
Typ fulltextMimetyp application/pdf

Övriga länkar

PDF

Sök vidare i DiVA

Av författaren/redaktören
Fallgren, PerSegeblad, JesperKuhlmann, Marco
Av organisationen
Interaktiva och kognitiva systemTekniska fakulteten
Språkteknologi (språkvetenskaplig databehandling)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 283 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 201 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf