Dataguiden, Vetenskapsrådet, startsida
Dataguiden, Vetenskapsrådet, startsida

Datatyper

Inom forskningen kan många olika typer av data komma att hanteras – från detaljerade uppgifter om individer till sammanställd statistik och information om själva datamängderna. Olika datatyper har olika användningsområden och krav på hantering.

Mikrodata och individdata

Mikrodata är detaljerad information om enskilda objekt inom ett dataset. Exempel på enskilda objekt kan vara personer, företag, arbetsställen eller skolor. Inom forskning och statistik används ofta begreppet individdata, vilket avser uppgifter om enskilda personer som är så detaljerad att det går att identifiera en enskild person. Normalt är individdata också personuppgifter.

Individ- och mikrodata finns insamlade hos myndigheter eller hälso- och sjukvården. De kan innehålla information om individers ålder, kön, ekonomi, utbildning, medicinska behandlingar eller andra personliga attribut. Individdata kan också ha samlats in i forskningsprojekt, till exempel genom intervjuer och enkäter. Data från flera olika källor som rör en enskild individ kan länkas via personnummer.

Hälsodata

Innebörden av begreppet hälsodata varierar beroende på sammanhang. I förordning om det europeiska hälsodataområdet, EHDS, definieras elektroniska hälsodata. Generellt sett omfattas uppgifter om hälsa och genetik, till exempel data som produceras i vården (diagnoser, vårdåtgärder, läkemedelsanvändning), data om faktorer som påverkar hälsan, genetiska data, data från medicinska register och biobanker.

Ett perspektiv är att undersöka källan, det vill säga var hälsodata finns dokumenterad eller i anslutning till vilken organisation som informationen genereras. En avgränsning är data som genereras i den svenska hälso- och sjukvården och omsorgen eller forskningsstudier som sker i anslutning till denna verksamhet. Hälsodata genereras även utanför vården men ur ett forskningsperspektiv är denna data sällan tillgänglig att beställa. Det finns också en mängd olika livsstilsdata som generas och lagras helt oberoende av vården, men som för vissa diagnoser kan ha stor betydelse för sjukdomsförloppet och därför registreras i journaler när en patient behandlas av vården.

I Socialstyrelsens rapport Kartläggning av datamängder av nationellt intresse på hälsodataområdet beskrivs olika typer av hälsodata. Där ingår bland annat:

  • socioekonomiska data (yrke, utbildning, inkomst)
  • organisatoriska data kopplat till sjukvårdssystemet (geografi, ekonomi, personalsammansättning)
  • miljödata (boendemiljö, luft- och vattenkvalité).

Metadata

Metadata brukar beskrivas som ”data om data”, eftersom den beskriver egenskaper och information om data snarare än innehållet. Metadata kan ge information om olika aspekter av data och är viktig för att både underlätta arbetet med en viss datamängd och för att spåra och dokumentera data. Till skillnad från mikrodata innehåller metadata inte några enskilda datapunkter (så kallade mätvärden).

Aggregerade data

Aggregerade data är information som har kombinerats och summerats på gruppnivå för att ge en överblick eller sammanfattning av den detaljerade informationen. Detta innebär att enskilda datapunkter (så kallade mätvärden) kombineras till en totalsumma eller en sammanfattning.

Aggregerade data används ofta för att rapportera resultat av forskning eller undersökningar på ett sätt som är lätt att förstå och kommunicera till en bredare publik. Vid forskning med känsliga uppgifter är det också vara nödvändigt att publicera resultat i aggregerad form i tabeller och liknande. Till exempel kan aggregerade data visa mönster eller trender inom den studerade gruppen, vilket gör det möjligt att dra slutsatser och fatta välgrundade beslut utan att data kan kopplas till en enskild individ. Aggregerade data går att beställa eller direkt ladda ner hos flera myndigheter.

Öppna data

Många svenska myndigheter tillhandahåller så kallade öppna data, det vill säga digitaliserad, offentlig information som alla kan ta del av och använda till valfritt ändamål utan restriktioner eller avgifter. Öppna data är vanligtvis publicerade enligt standarder eller i format som gör dem lätt åtkomliga och användbara för en bred publik.

Offentlig mikrodata

Offentlig mikrodata (även kallad public microdata eller public use-files) är filer eller dataset som skapats för att användas som underlag i till exempel undervisning. Offentliga mikrodata är alltid anonymiserade eller pseudonymiserade.

Syntetiska data

Syntetiska data är konstgjorda data som efterliknar den ursprungliga datans struktur och statistiska egenskaper, men som inte innehåller faktiska uppgifter om individer eller objekt. På så sätt kan man arbeta med data som liknar verkliga datamängder, men utan att använda personuppgifter.

Exempel på när syntetiska data kan vara användbara:

  • Skydda integritet: Eftersom syntetiska data inte innehåller riktiga personuppgifter kan de användas för att skapa testmiljöer, utveckla algoritmer och träna AI-modeller utan risk för att röja identiteter.
  • Utveckla och testa: Nya program, analysmetoder och modeller kan först provas på syntetiska data innan de appliceras på verkliga datamängder.

Syntetiska data kan alltså vara ett värdefullt komplement till verkliga data, men de är aldrig en exakt kopia av originalet och bör därför användas med medvetenhet om sina begränsningar.

Publicerat den

Uppdaterat den