liu.seSök publikationer i DiVA
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Fördomsfulla associationer i en svenskvektorbaserad semantisk modell
Linköpings universitet, Institutionen för datavetenskap.
2019 (Svenska)Självständigt arbete på grundnivå (kandidatexamen), 12 hpStudentuppsats (Examensarbete)Alternativ titel
Bias in a Swedish Word Embedding (Engelska)
Abstract [sv]

Semantiska vektormodeller är en kraftfull teknik där ords mening kan representeras av vektorervilka består av siffror. Vektorerna tillåter geometriska operationer vilka fångar semantiskt viktigaförhållanden mellan orden de representerar. I denna studie implementeras och appliceras WEAT-metoden för att undersöka om statistiska förhållanden mellan ord som kan uppfattas somfördomsfulla existerar i en svensk semantisk vektormodell av en svensk nyhetstidning. Resultatetpekar på att ordförhållanden i vektormodellen har förmågan att återspegla flera av de sedantidigare IAT-dokumenterade fördomar som undersöktes. I studien implementeras och applicerasockså WEFAT-metoden för att undersöka vektormodellens förmåga att representera två faktiskastatistiska samband i verkligheten, vilket görs framgångsrikt i båda undersökningarna. Resultatenav studien som helhet ger stöd till metoderna som används och belyser samtidigt problematik medatt använda semantiska vektormodeller i språkteknologiska applikationer.

Abstract [en]

Word embeddings are a powerful technique where word meaning can be represented by vectors containing actual numbers. The vectors allow  geometric operations that capture semantically important relationships between the words. In this study WEAT is applied in order to examine whether statistical properties of words pertaining to bias can be found in a swedish word embedding trained on a corpus from a swedish newspaper. The results shows that the word embedding can represent several of the IAT documented biases that where tested. A second method, WEFAT, is applied to the word embedding in order to explore the embeddings ability to represent actual statistical properties, which is also done successfully. The results from this study lends support to the validity of both methods aswell as illuminating the issue of problematic relationships between words in word embeddings.

Ort, förlag, år, upplaga, sidor
2019. , s. 40
Nationell ämneskategori
Språkteknologi (språkvetenskaplig databehandling)
Identifikatorer
URN: urn:nbn:se:liu:diva-159027ISRN: LIU-IDA/KOGVET-G--19/017--SEOAI: oai:DiVA.org:liu-159027DiVA, id: diva2:1338076
Ämne / kurs
Kognitionsvetenskap
Handledare
Examinatorer
Tillgänglig från: 2019-08-13 Skapad: 2019-07-19 Senast uppdaterad: 2019-08-13Bibliografiskt granskad

Open Access i DiVA

micjo469_FördomsfullaAssociationer2019(698 kB)5 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 698 kBChecksumma SHA-512
3e5702d4248af620d7e8b347e6871019cd5b06859986b4e7c99b321cd2b81060f7996fa3090d8f24fbfb78c37f468e2446807c0f2c92cdd97cd5073e3597703b
Typ fulltextMimetyp application/pdf

Sök vidare i DiVA

Av författaren/redaktören
Jonasson, Michael
Av organisationen
Institutionen för datavetenskap
Språkteknologi (språkvetenskaplig databehandling)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 5 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 32 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf