liu.seSök publikationer i DiVA
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Duplicate Detection and Text Classification on Simplified Technical English
Linköpings universitet, Institutionen för datavetenskap.
2019 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)Alternativ titel
Dublettdetektion och textklassificering på Förenklad Teknisk Engelska (Svenska)
Abstract [en]

This thesis investigates the most effective way of performing classification of text labels and clustering of duplicate texts in technical documentation written in Simplified Technical English. Pre-trained language models from transformers (BERT) were tested against traditional methods such as tf-idf with cosine similarity (kNN) and SVMs on the classification task. For detecting duplicate texts, vector representations from pre-trained transformer and LSTM models were tested against tf-idf using the density-based clustering algorithms DBSCAN and HDBSCAN. The results show that traditional methods are comparable to pre-trained models for classification, and that using tf-idf vectors with a low distance threshold in DBSCAN is preferable for duplicate detection.

Ort, förlag, år, upplaga, sidor
2019. , s. 62
Nyckelord [en]
NLP, CNL, transformer models, LSTM, BERT, document embeddings, word embeddings, text classification, text clustering, transfer learning, machine learning
Nationell ämneskategori
Språkteknologi (språkvetenskaplig databehandling) Datavetenskap (datalogi)
Identifikatorer
URN: urn:nbn:se:liu:diva-158714ISRN: LIU-IDA/LITH-EX-A--19/033--SEOAI: oai:DiVA.org:liu-158714DiVA, id: diva2:1337383
Externt samarbete
Etteplan
Ämne / kurs
Datavetenskap
Presentation
2019-06-12, Alan Turing, Linköpings Universitet, Linköping, 10:00 (Engelska)
Handledare
Examinatorer
Tillgänglig från: 2019-08-13 Skapad: 2019-07-14 Senast uppdaterad: 2019-08-13Bibliografiskt granskad

Open Access i DiVA

fulltext(1862 kB)40 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 1862 kBChecksumma SHA-512
d8bc13003822669c5f75c4a06e527957cd2bb907748f6c173256cccb0e7e718ff8a0710c6f4e7c13a6d5de8cad975620682840cfebd2ef2cc657ba788c8299e8
Typ fulltextMimetyp application/pdf

Av organisationen
Institutionen för datavetenskap
Språkteknologi (språkvetenskaplig databehandling)Datavetenskap (datalogi)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 40 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 59 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf