Datakvalitet - Er det på tide med en datavask?

24.04.19


8 minutter

Hvor lenge siden er det du sjekket kvaliteten på dataen din? Hvor lenge siden tok du en datavask?

Det er ingen forutsetning at din data er “ren” selv om du hadde en gjennomgang av den for ett år siden. Data er ferskvare, og den kan fort bli ødelagt av små og ukjente faktorer.

Få gratis skreddersydd parameterrapport.

Hva er god datakvalitet

Innen digital analyse (tidl. “webanalyse”), er det viktig med et godt datagrunnlag. Tolkningen av dataen gir informasjon, som igjen er vårt utgangspunkt for beslutninger.

Wikipedia definerer datakvalitet til å være:

“God datakvalitet innebærer at dataene har evne til å støtte de informsjonsformål de brukes til. Dette innebærer at de må tilfredsstille krav til:
- Korrekthet
- Kompletthet
- Tidsriktighet
- Konsistens”

https://no.wikipedia.org/wiki/Datakvalitet

I dag måler de fleste bedrifter atferd tilknyttet nettstedet sitt for å kunne optimalisere både på lønnsomhet, brukervennlighet og service. Det mest benyttede verktøy for dette er Google Analytics.

Uansett hvilket analyseprogram du benytter, er du nødt til å forholde deg til datakvalitet.

Jeg hørt frasen “Big Data” nå i en årrekke, og det er en universell enighet om at “Big Data” er viktig. Derimot, er det få som snakker så mye om korrekt data, smart data, riktig data.

Datavask - Hva er det?

Datavask handler om å ta bort data som forstyrrer eller ødelegger grunnlaget og sørger for at de dataene vi ser er korrekt. Dette er noe vi gjør for våre kunder med jevne mellomrom og vi bruker betydelig med tid på å gå gjennom kunders data og "vasker" feil vi finner mens vi jobber med en kunde.

Når vi får inn nye kunder, gjør vi alltid en datavask for å sørge for at datagrunnlaget vi skal jobbe med er sjekket, fikset og klart. Da vet vi at vi kan ta avgjørelser basert på riktig data.

Dette inngår i vår Google Analytics kontorevisjon, hvor vi gjennomår mer enn 200 punkter for å sikre at du kan stole på tallene.

Prosessen innebærer at vi (re)konfigurerer datainnsamling, databehandling og datarapportering. For selv om innsamlingen er korrekt, så må både behandlingen og rapporteringen også være korrekt.

Da sjekker vi hele ABC (Acquisition, Behaviour, Conversion), som innebærer å se på alt som har med trafikk til nettstedet å gjøre, atferd på selve nettstedet og hvilke verdier som genereres av denne trafikken.  

Dette kan du sjekke selv

Det kan være lurt å ta en titt innimellom for å se etter tegn om din data trenger datavask. Noen typiske steder å finne tegn er på kanaler og URLer

Kanalsjekk

Hvis du går inn på Trafikk >> All trafikk >> Alle kanaler får du en tabellvisning av samtlige kanaler som Google Analytics har allokert trafikken til tilhørende kategorier.

Hvis du i listen oppdager “other”, som betyr “andre”, så er dette trafikk som Google Analytics ikke har klart å identifisere. Denne kanalen ønsker vi egentlig ikke å se i denne tabellen overhodet, da dette dreier seg om at dataen blir feilidentifisert.

Typiske eksempler på dette er sosiale kanaler eller kampanjer som ikke har blitt identifisert. Vi ser ofte “facebook” som et typisk eksempel her.

Det bør også bemerkes at “other” også kan være et symptom på feilmåling.

Avvik

Det kan lønne seg å følge med på trender og diagrammer. Et nettsted har ofte trender som går igjen, hvilket vi kaller puls. Nettsteder med lite trafikk har ikke opparbeidet seg slike gjentakende trender, og kan derfor være vanskelig å identifisere avvik basert på trender.

Sidevisninger og besøk er gjerne trendbasert og følger ofte samme rytme dag for dag, uke for uke og måned for måned. Derimot så kan vi ha normale avvik, som er basert på sesonger. Eksempel på dette kan være ferier og helligdager som kan ha påvirkning på tallene, om de går opp eller ned.

Derimot, har du en helt vanlig uke, med vanlige dager og tall, så skal trenden gjerne følge samme mønster.

Det er også viktig å bemerke at ikke alle nettsteder har klare trender, slik som dette eksempelet.

Volumet er stort, men trendene har ikke et mønster.

På neste eksempel ser vi klare tydelige ukentlige trender, der helgene har lavere andel trafikk, mens ukedagene har økt andel.

På samme bilde, ser vi også at vi har et positivt avvik i slutten av mars måned. Det kan være fristende å trekke litt på smilebåndet, før vi fortsetter med vår søken etter andre avvik, men vi anbefaler å prøve å identifisere hvilke aktiviteter, hendelser, kampanjer eller annet som kan ha forårsaket økt trafikk.

Du ønsker tross alt økt trafikk? En slik lærdom er viktig å ta med seg videre.

Parameter-URL’er

Mange nettsteder har paremtere i URL’ene. Ikke alle parametere er negative og har også en viktig betydning for at nettstedet skal fungere. Derimot kan det være paremetere som er kun ment for internt bruk, og så ikke har noe å si for innholdet på siden å gjøre.

Et typisk eksempel på dette er ID’er i forskjellige varianter. I gamle nettstedssystemer opereres det med sessionID, som er en parameter som tillegges samtlige URLer og er unik ID for hvert eneste besøk på nettstedet.

Når Google Analytics da samler inn denne dataen med slike parametere, så vil det i sessionID tilfellet vise minimum like mange forskjellige URL’er, som antall besøk nettstedet har hatt.

Et kjapt tanke-eksperiment: En nettside har 4 sider, med tilhørende 4 URL’er.

  • domene.no/url1.html
  • domene.no/url2.html
  • domene.no/url3.html
  • domene.no/url4.html

Når sessionID legges til får du:

  • domene.no/url1.html?sessionID=xxxxxx
  • domene.no/url2.html?sessionID=xxxxxx
  • domene.no/url3.html?sessionID=xxxxxx
  • domene.no/url4.html?sessionID=xxxxxx

Verdien xxxxxx vil være unik for hvert eneste besøk nettstedet har. Hvis nettstedet har 4000 besøk, så vil du ha 4000 unike xxxxxx verdier. Hvis samtlige 4000 besøk har sett samtlige sider, så har du 4000  x 4 = 16 000 URL’er.

Dette gjør til at kvaliteten på dataen går kraftig ned. Vi får ikke sett hvordan sidene i sin helhet fungerer samlet for alle besøk. Derfor er det viktig å skille og luke ut enkelte parametere for å sikre bedre datagrunnlag.

I dag er det få systemer som benytter seg av sessionID, men problematikken står fortsatt.

Regelen for om en parameter bør vaskes bort eller ikke, er som følger:

Hvis du kan åpne siden med tilhørende parameter, og endre denne uten at innholdet på siden endrer seg, så kan denne fjernes fra datagrunnlaget.

I bildet, så listes mange URL’er som innehar parametere. Ta en titt på dine parameter-URL’er for å se om du også har URLer som burde vaskes.

Jeg har laget en egen skreddersydd rapport for dette, ettersom Google Analytics ikke har egen rapport for akkurat dette. Det er fullt mulig å søke opp dette via avansert søk i “Alle sider” rapporten, men bruk gjerne denne skreddersydde rapporten for å sjekke dine data.

https://analytics.google.com/analytics/web/template?uid=Kl2a13YdQtiagwZXNebvdw

Google Analytics kontorevisjon

I Digital Opptur så har vi gode rutiner for kontorevisjon i Google Analytics. Det er et arbeid som ikke nødvendigvis tar så lang tid, men er viktig for å sørge for at datagrunnlaget kan stoles på. Vi bruker tross alt dette datagrunnlaget for det meste vi gjør innen digital optimalisering, digital markedsføring, rapportering med mer.

google analytics meme

Hvis du er usikker på ditt eget datagrunnlag eller om du ønsker hjelp til en datavask kan du alltid kontakte oss i Digital Opptur.

Vi tilbyr også jevnlig kurs i Google Analytics slik at du kan bli bedre kjent med både egne data og digital analyse.

På utkikk etter mer lesestoff?

Meld deg på vårt nyhetsbrev
 
Alle rettigheter reservert 2024