Dataset

WeStAc kommer att arbete med tre massiva dataset: “politik” – 3 100 SOUer och allt riksdagsmaterial mellan 1945 och 1989; “media” – två dagstidningar, Aftonbladet och Dagens Nyheter från samma period, och “kultur” – kulturtidskriften Bonniers Litterära Magasin (BLM) samt alla svenska romaner som publicerades under perioden. Texterna från Sveriges riksdag (protokoll, motioner, propositioner och offentliga utredningar) samt dagtidningsmaterialet är redan digitaliserat. Det förra består av uppskattningsvis 700 miljoner ord, det senare av omkring två miljarder ord. För att öka värdet av dessa digitala samlingar kommer de att kureras och förses med metadata på KB, bland annat för att göra det möjligt att särskilja aktörer i riksdagens debatter och märka upp enskilda delar i dagstidningarna, exempelvis kultursidorna. Detta arbete utförs parallellt med, och utifrån feedback från projektets forskningsdel. Därtill kommer WeStAc att digitalisera BLM, på omkring 28 000 sidor, samt alla på svenska publicerade romaner 1945–89, omkring 22 000 stycken vilka innehåller uppskattningsvis tre miljoner sidor. Tidskriften och romanerna utgör nya dataset, som tillsammans med riksdagsmaterialet och dagstidningarna gör det möjligt att spåra språkliga förändringar och ämnesmässiga förskjutningar över genregränserna.

För mer information se https://github.com/welfare-state-analytics