liu.seSearch for publications in DiVA
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Detektion av handskrivna ordobjekt i inskannade dokument
Linköping University, Department of Computer and Information Science, Human-Centered systems. Linköping University, The Institute of Technology.
2012 (Swedish)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [sv]

I denna rapport presenteras ett sätt att detektera handskrivna ordobjekt i inskannade dokument. Rapporten belyser också några av de problem som förekommer vid detektion av handskrivna ordobjekt. Detektionen görs med hjälp av en indelning av bilden i rektangulära regioner. Därefter används enmaskininlärningsalgoritm för att klassificera regionerna som antingen handskriven text eller övrigt.

För att klassificera en region behövs mätvärden för en region, såsom area, som en algoritm kan använda. De flesta som testas och används i denna rapport har använts tidigare för att detektera handskriven text. En del är modifierade från tidigare använda mätvärden.

Resultaten visar att att det går att detektera handskrivna ordobjekt med en föreslagna metoden. Resultaten är dock inte lika goda som flertalet andra inom området, några olika orsaker diskuteras.

Rapporten visar även att klassificeringen av en region får ett statistiskt signifikant högre resultat om algoritmen som använts har tränats på andra regioner i samma dokument. Detta resultat är viktigt när en algoritm ska utvärderas.

Att viktning av träningsdata kan användas för att manipulera precision och recall för de fyra algoritmer som används bekräftas. Detta gör det möjligt att skapa ett precision-recall-diagram för att jämföra olika maskininlärningsalgoritmer. En sådan jämförelse mellan fyra olika typer av algoritmer visar att det är liten skillnad mellan två beslutsträd och ett neuralt nätvärk. Den sista algoritmen, en stödvektormaskin, klarade uppgiften sämst.

Place, publisher, year, edition, pages
2012. , 56 p.
National Category
Language Technology (Computational Linguistics)
Identifiers
URN: urn:nbn:se:liu:diva-87856ISRN: LIU-IDA/LITH-EX-A--12/073--SEOAI: oai:DiVA.org:liu-87856DiVA: diva2:600542
External cooperation
Readsoft AB
Subject / course
Computer Engineering
Uppsok
Technology
Supervisors
Examiners
Available from: 2013-01-25 Created: 2013-01-24 Last updated: 2013-01-25Bibliographically approved

Open Access in DiVA

Detektion av handskrivna ordobjekt i inskannade dokument(1302 kB)188 downloads
File information
File name FULLTEXT01.pdfFile size 1302 kBChecksum SHA-512
82a3a88a5834ccdb898a90ce151a33c6537639a906bc0a9678559d36c33fccb91b84d1582836713e154b1c6a180dabe12c6f1722c833061d038582014bed834e
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Rydberg, Jonatan
By organisation
Human-Centered systemsThe Institute of Technology
Language Technology (Computational Linguistics)

Search outside of DiVA

GoogleGoogle Scholar
Total: 188 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 66 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • harvard1
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf