Dataguiden, Vetenskapsrådet, startsida
Dataguiden, Vetenskapsrådet, startsida

Typer av data

Det finns flera olika typer av data, här görs en övergripande beskrivning av data som kan användas för forskning och innovation.

Mikrodata och individdata

Mikrodata är detaljerad information om enskilda objekt inom ett dataset. Exempel på enskilda objekt kan vara personer, företag, arbetsställen eller skolor. Inom forskning och statistik används ofta begreppet individdata för att hänvisa till data som är kopplade till enskilda individer och som är så detaljerad att det går att identifiera en enskild individ. Normalt är individdata också personuppgifter.

Individ- och mikrodata finns insamlade i olika register hos myndigheter eller hälso- och sjukvården. De kan innehålla information om individers ålder, kön, ekonomi, utbildning, medicinska behandlingar eller andra personliga attribut. Individdata kan också ha samlats in i forskningsprojekt, till exempel genom intervjuer och enkäter. Data från flera olika källor som rör en enskild individ kan länkas via personnummer.

Mikrodata är ofta sekretessbelagd men behöver inte alltid vara det. Data som samlats in i myndighetsregister och innehåller detaljerad information om specifika personer eller enheter skyddas dock i regel av absolut sekretess för att värna individers integritet. Absolut sekretess innebär att data inte kan lämnas ut. Det finns dock ofta möjlighet att använda mikrodata från vissa datakällor för forskningsändamål. Detta är möjligt på grund av lättnader i sekretessen som syftar till att möjliggöra forskning, men kräver normalt etikprövningstillstånd och genomgången sekretessprövning.

Eftersom individdata måste hanteras på ett etiskt sätt för att skydda privatlivet och integriteten för de personer som datan gäller, kan det ställas krav på att data anonymiseras eller aggregeras så att enskilda individers identitet inte kan fastställas. Vid användning av individdata i forskning och analys måste gällande lagar och regler kring personuppgiftshantering, dataskydd och integritet följas, samt principer för god forskningssed efterlevas.

Metadata

Metadata brukar beskrivas som ”data om data” eftersom den beskriver egenskaper och information om data utan att direkt se på innehållet. Metadata kan ge information om en eller flera aspekter om data och har stor betydelse för att underlätta arbetet med en viss datamängd samt för att spåra och dokumentera data. Till skillnad från mikrodata innehåller metadata inte några enskilda datapunkter (så kallade mätvärden).

Aggregerade data

Aggregerade data är information som har kombinerats och summerats på gruppnivå för att ge en överblick eller sammanfattning av den detaljerade informationen. Detta innebär att enskilda datapunkter (så kallade mätvärden) kombineras till en totalsumma eller en sammanfattning.

Aggregerade data används ofta för att rapportera resultat av forskning eller undersökningar på ett sätt som är lätt att förstå och kommunicera till en bredare publik. Vid forskning med känsliga uppgifter kan det likaså vara nödvändigt att publicera resultat i aggregerad form i tabeller och liknande. Till exempel kan aggregerade data visa mönster eller trender inom den studerade gruppen, vilket gör det möjligt att dra slutsatser och fatta välgrundade beslut utan att data kan kopplas till en enskild individ. Aggregerad data går att beställa eller direkt ladda ner hos flera myndigheter.

Öppna data

I Sverige produceras, bearbetas och tillgängliggörs samhällsviktig information från hela den offentliga förvaltningen. Även organisationer från civilsamhället och näringslivet tillgängliggör data som kan skapa värde för andra. Genom att tillhandahålla data och information i användbara och elektroniska format kan fler hitta nya sätt att använda den.

Många svenska myndigheter tillhandahåller så kallade öppna data, det vill säga digitaliserad, offentlig information som alla kan ta del av och använda till valfritt ändamål utan restriktioner eller avgifter. Öppna data är vanligtvis publicerade enligt standarder eller i format som gör dem lätt åtkomliga och användbara för en bred publik.

Myndigheten Digg arbetar för att främja tillgängliggörande och vidareutnyttjande av data från den offentliga förvaltningen. Digg driver bland annat Sveriges dataportal där datamängder från offentliga och privata organisationer beskrivs med metadata. Även forskningsdata från Svensk nationell datatjänst:s, SND, katalog synliggörs här. Medborgare, organisationer och företag kan söka efter data som kan användas för olika ändamål.

Motsvarande initiativ finns även på europeisk nivå. Den officiella portalen för europeisk data, data.europa.eu, är en del av EU:s strategi för öppna data och en digital inre marknad. Sveriges öppna data återfinns i den europeiska dataportalen tillsammans med andra länders öppna data.

Offentlig mikrodata

Offentlig mikrodata (även kallad public microdata eller public use-files) är filer eller dataset som skapats för att användas som underlag i till exempel undervisning. En fördel med offentlig mikrodata är att de kan användas utan etikgodkännande och ansökan om datautlämnande. Detta är möjligt eftersom den offentliga mikrodatan alltid är anonymiserade eller pseudonymiserade vilket gör det omöjligt att identifiera enskilda individer.

Syntetiska data som kompletterande resurs

Syntetiska data är konstgjorda data som skapas av datorer och liknar verkliga data, men som inte kommer från faktiska observationer eller mätningar. Dessa data används ofta i situationer där det är olämpligt eller riskabelt att använda riktiga data, exempelvis för att skydda människors personliga information. Dessutom kan syntetiska data vara användbara när det är svårt att få tag på tillräckligt med verkliga data eller när man vill testa nya dataprogram innan de används på verkliga data. De kan även fylla i luckor där verkliga data saknas, exempelvis under specifika tidsperioder.

Det finns flera fördelar med att använda syntetiska data, bland annat för att de:

  • skyddar personlig integritet
  • ger tillgång till mer data
  • kan förbättra datakvaliteten
  • är användbara för att utveckla och testa algoritmer och modeller, vilket gör dem till en värdefull resurs i många sammanhang.

Samtidigt finns det utmaningar med syntetiska data som är viktiga att beakta. Skapandet av dessa data kräver teknisk kunskap och kan vara både kostsamt och tidskrävande. Dessutom finns det också en risk att syntetiska data inte alltid speglar verkligheten på korrekt sätt, vilket kan leda till felaktiga analyser och resultat. Algoritmer som används för att generera syntetiska data kan också introducera egna snedvridningar, vilket ytterligare påverkar trovärdigheten när dessa data används inom vetenskapliga sammanhang.

Sammanfattningsvis har syntetiska data stor potential, men det är viktigt att vara medveten om både deras fördelar och de utmaningar som kan uppstå vid användning.

Forskningsdata

Vid svenska lärosäten finns stora mängder digital information som samlas in eller skapas inom ramen för forskningsverksamhet, så kallad forskningsdata. Detta kan inkludera digitala texter, bilder, ljud- och videomaterial, 3D-skanningar, observationer och experimentresultat. Dessa data används för att analysera och besvara forskningsfrågor. Under forskningsprocessen lagras data enligt lärosätets rutiner, antingen lokalt eller i forskningsinfrastrukturer. Efter projektets slut arkiveras och bevaras data långsiktigt, de kan göras tillägngliga via dataportaler, datarepositorier eller forskningsinfrastrukturer.

Publicerat den

Uppdaterat den