Integrasjon (ETL)
Dataflytting
Data lever i mange forskjellige systemer som ofte ikke snakker sammen. Prosessen som trekker data ut fra eksisterende systemer, renser dem og laster dem inn der de hører hjemme er ETL (Extract-Transform-Load).
For å kunne utføre analyser vil man typisk trenge å flytte data fra eksisterende systemer inn i et datavarehus. Dataene er kanskje ikke tilgjengelige i en form det er enkelt å analysere, og de kan være av ukjent kvalitet.
ETL er prosessen som henter data fra eksisterende systemer, utfører endringer og datavask på dem for å sikre kvaliteten og laster dataene i korrekt form dit hvor de skal viderebehandles.
Resultatet er at informasjon fra flere vidt forskjellige systemer, kan analyseres og bidra til en helhetlig forståelse. Integrasjonen vil typisk kjøres med jevne mellomrom for å oppdatere data.
Datavasken/transformasjonene som utføres binder sammen informasjon som finnes på forskjellige steder i kildesystemene, og de kan også utføre kvalitetskontroll på dataene. Utvikling av en ETL -prosess vil ofte åpenbare problemer med datakvalitet, og slik sett tvinge frem en strategi for å håndtere dette.
Fordeler
ETL er en integrert og helt nødvendig del av infrastrukturen rundt et datavarehus. Prosessen legger grunnlaget for informasjonen som bygger datavarehuset, og ETL prosessen defineres typisk parallelt med design av datavarehuset.
Som en del av ETL -utviklingen vil problemer med datakvalitet i og inkonsistens innad i og mellom eksisterende systemer avdekkes. Gjennom en grundig og tett dialog med eiere og kontrollører av kildedata sørger ETL -prosessen for at data i rapporter og analyse er eksakte og reelle.
|
|