liu.seSearch for publications in DiVA
4445464748495047 of 92
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Ensuring Schema Compliance in Neo4j: Post-Import Validation with Cypher Queries
Linköping University, Department of Computer and Information Science.
2026 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Schemakompatibilitet i Neo4j : Post-importvalidering med Cypher Queries (Swedish)
Abstract [en]

Schema validation is a critical component of graph data pipelines, ensuring data quality and consistency as graphs evolve and scale. In property graph databases, validation is commonly performed as a pre-validation step prior to data ingestion, which can limit scalability and increase pipeline complexity. This thesis investigates whether in-database, query-driven validation can improve scalability and maintainability while ensuring that production graphs remain schema-compliant.The work first presents a systematic catalog of schema constraints commonly found in property graph schemas, including property-level, structural and contextual constraints. These schema elements are then mapped to reusable Cypher query templates that identify violations directly within Neo4j, demonstrating that Cypher is sufficiently expressive to serve as a general-purpose validation language for property graphs beyond the scope of native database constraints.To evaluate the practical implications of this approach, a prototype query-driven validation tool is implemented and integrated into an industrial Neo4j data pipeline. An empirical evaluation compares query-driven validation with a traditional pre-validation (check-first-then-insert) strategy across multiple dataset scales. The results show that query-driven validation achieves significantly higher throughput and lower end-to-end processing time for large datasets, with performance gains increasing as dataset size grows. While pre-validation prevents invalid data from being ingested, query-driven validation introduces a trade-off by allowing temporary violations, shifting responsibility for remediation to the application layer.Overall, the findings indicate that query-driven validation can substantially improve the scalability of graph data ingestion pipelines while maintaining expressive and flexible schema enforcement. The thesis concludes by discussing limitations related to data model dependency, update handling and invalid data management while outlining directions for future work such as hybrid validation strategies and automated remediation of detected violations.

Abstract [sv]

Schemavalidering är en kritisk komponent i grafdatapipelines och säkerställer datakvalitet och konsekvens i takt med att grafer utvecklas och skalas. I grafdatabaser utförs validering vanligtvis som ett förvalideringssteg före datainläsning, vilket kan begränsa skalbarheten och öka pipeline-komplexiteten. Detta examensarbete undersöker om databasintern, query-driven validering kan förbättra skalbarhet och underhållbarhet samtidigt som produktionsgrafer förblir schemaenliga.Arbetet presenterar först en systematisk katalog över schemabegränsningar som vanligtvis förekommer i scheman för egenskapsgrafer (property graphs), inklusive egenskapsnivå-, strukturella och kontextuella begränsningar. Dessa schemaelement mappas därefter till återanvändbara Cypher-databasfrågemallar (Cypher query templates) som identifierar överträdelser direkt i Neo4j, vilket visar att Cypher är tillräckligt uttrycksfullt för att fungera som ett allmänt valideringsspråk för egenskapsgrafer, bortom omfattningen av databasspecifika inbyggda begränsningar.För att utvärdera de praktiska implikationerna av detta angreppssätt implementeras ett prototypverktyg för databasfrågedrivenvalidering och integreras i en industriell Neo4j-datapipeline. En empirisk utvärdering jämför frågedriven validering med en traditionell förvalideringsstrategi (kontrollera-först-sedan-import) över flera datasetstorlekar. Resultaten visar att frågedriven validering uppnår avsevärt högre genomströmning och kortare total bearbetningstid för stora datamängder, där prestandavinsterna ökar i takt med datasetetsstorlek. Medan förvalidering förhindrar att ogiltig data importeras, innebär frågedriven validering en avvägning genom att tillåta temporära överträdelser, vilket flyttar ansvaret för åtgärder till applikationslagret.Sammanfattningsvis visar resultaten att frågedriven validering kan avsevärt förbättra skalbarheten i grafdatapipelines för datainläsning, samtidigt som en uttrycksfull och flexibel schematillämpning upprätthålls. Examensarbetet avslutas med en diskussion om begränsningar relaterade till beroenden av datamodell, hantering av uppdateringar och hantering av ogiltig data, samt med förslag på framtida arbete såsom hybrida valideringsstrategier och automatiserad åtgärd av identifierade överträdelser.

Place, publisher, year, edition, pages
2026. , p. 51
Keywords [en]
Neo4j, Cypher, datavalidation, query-driven validation, post-validation
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:liu:diva-221155ISRN: LIU-IDA/LITH-EX-A--26/001--SEOAI: oai:DiVA.org:liu-221155DiVA, id: diva2:2036910
External cooperation
Entiros AB
Subject / course
Information Technology
Supervisors
Examiners
Available from: 2026-02-23 Created: 2026-02-09 Last updated: 2026-02-23Bibliographically approved

Open Access in DiVA

fulltext(561 kB)27 downloads
File information
File name FULLTEXT01.pdfFile size 561 kBChecksum SHA-512
8fe966c3848f198a515535026473240f1bdbb80b795ae3acf5116491f9d829379e7aef0d8aad289a424e8b68e709a44f9e4c72467bc0cb4eb227a05ac9e38d14
Type fulltextMimetype application/pdf

By organisation
Department of Computer and Information Science
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 1802 hits
4445464748495047 of 92
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • oxford
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf