Inom Westac ägnar vi oss för närvarande åt att digitalisera svensk skönlitteratur från 1950-talet. Arbetet har påbörjats av KB – men det kommer att ta tid innan ett mer omfattande korpus är färdigt. För att påbörja forskningsarbetet med att analysera skönlitteratur som data har vi därför iordningställt ett jämförande dataset av svensk skönlitteratur från 1890-talet. Årtiondet är godtyckligt valt. Tanken är främst att framgent testa modeller och algoritmer. Storskalig textanalys av skönlitteratur från ett helt årtionde kan potentiellt ge insikter om större mönster, teman och diskurser som analys av enskilda böcker inte kan uppenbara. Sådan textanalys baserar sig emellertid på ett dataset som forskaren själv konstruerar – vilket enbart maskiner förmår att “läsa”. Så kallad distansläsning ersätter inte närläsning, men den kan utgöra ett värdefullt komplement. Som flera litteraturvetare framhållit så innebär storskalig textanalys också att ett snävt urval av skönlitteratur (kanon) ersätts av i princip allt som publicerades under en viss tidsperiod (förutsatt att alla böcker digitaliserats).
Den här bloggposten handlar dock inte om analys av det dataset av svensk skönlitteratur från 1890-talet som vi satt samman; det måste bland annat först köras igenom Språkbankens annoteringsverktyg Sparv för att skapa ett textkorpus av exempelvis lemmatiserade substantiv (det finns en specifik modell för 1800-tals-svenska). Poängen med detta inlägg är istället att redovisa hur vårt dataset konstruerats. Det är nämligen inte helt enkelt att bygga dataset av skönlitteratur; det är alltid en aktivitet som bygger på ett antal val och mer eller mindre subjektiva kriterier. Inom digital humaniora framhålls ofta att iordnigställandet av dataset är en tidskrävande aktivitet; att förbereda detta dataset är inte något undantag. Vårt dataset innehåller knappt 300 titlar publicerade mellan 1890 till 1899. Det handlar om romaner skrivna av svenska författare, liksom novellsamlingar och i enstaka fall varianter av prosalyrik. I vårt dataset ingår kanonsierade klassiker av Strindberg, Lagerlöf och Heidenstam, men främst innehåller det böcker som helt fallit i glömska – även om de publicerats av renommerade förlag som Bonniers, Norstedts eller Wahlström & Widstrand. Några få böcker är publicerade anonymt, i de fall där författare använt pseudonym har det egentliga författarnamnet använts. Barnböcker är inte medtagna, och inte heller nyupplagor av äldre böcker. Finlandssvenska författare som skriver på svenska har också sorterats ut, liksom korta skönlitterära titlar på ett fåtal sidor.
Utgångspunkten för urvalet av böcker till vårt dataset har varit sökningar i Libris på “år:(1890) språk:swe”, samt flikarna “Skönlitteratur” och “e-resurs”. Det säger sig självt att vårt urval är baserat på de böcker som digitaliserats – inte sällan på beställning av andra forskare. Man kan exempelvis notera att bland 1890-talets digitaliserade romaner så är det osedvanligt många som har ett äldre historiskt tema. Med utgångspunkt i kriterierna ovan resulterade det likväl i ett dataset om 291 titlar. Enligt Johan Svedjedals studie Bokens samhälle (1993) så publicerades drygt 800 titlar inom kategorin “fiktionsprosa för vuxna” i Sverige under 1890-talet. Vårt dataset innehåller med andra ord mindre än hälften av det som faktiskt publicerades.
Somliga böcker som ingår i vårt dataset kommer från Projekt Runeberg, andra från KB. Men merparten härstammar från det samarbete mellan Litteraturbanken och universitetsbiblioteken i Göteborg, Lund, Umeå och Uppsala som pågått under ett antal år där alla tryckta texter OCR-tolkats till maskinläsbar text. Storskalig textanalys kan inte utföras på PDF:er av böcker utan förutsätter att skönlitteratur omvandlas till txt-filer (eller motsvarande). På Litteraturbanken finns en del böcker tillgängliga i epub-format; de är att föredra eftersom de konvertrar bättre till txt-filer än PDF. Texten flödar då i regel utan radbrytningar och sidnummer försvinner. Laddar man ned epub-filer så finns det många öppna konverteringsprogram på webben som är snabba och enkla att använda, som exempelvis zamsar.com. Via Litteraturbanken och Projekt Runeberg kan vissa titlar laddas ned som txt-filer – men i huvudsak har vi använt oss av Wget, en öppen mjukvara som normalt körs via en kommandotolk (ett textbaserat användargränssnitt under Linux). Wget är ett program för filöverföring; det processar inga filer – men kombinerat med kommandot “pdftotext” (ett annat terminalprogram) kan man enkelt ladda ned böcker både som PDF och som OCR-tolkade txt-filer. Wget automatiserar alltså arbetet att öppna PDF, markera och kopiera text och spara till fil. Kvaliteten på de inskannade böckerna i PDF-format är i regel mycket god, likväl varierar OCR-tolkningen efter hur böcker är satta, vilket typsnitt som använts och boksidans allmänna utseende. Noterbart är att de fåtal romaner som under 1890-talet (delvis) sattes i frakturstil genererar en teckentolkning som knappt är läsbar alls.
Med hjälp av Wget har 291 txt-filer laddats hem – och därefter städats. I regel har texter tvättas i början – där information om vem som digitaliserat boken ofta är nämnt, därtill mot slutet av texten där det inte sällan förekommer recensioner eller reklam för författarens tidigare böcker eller andra publikationer från förlaget. OCR-motorn har därtill ofta problem med titlar och metadata om boken (tryckår, förlag etcetera) vilket inte sällan resulterar i ett omfattande textbrus som måste avlägsnas. Det säger sig självt att OCR-motorn har det speciellt besvärligt med textornament som anfanger – som enbart återges som textbrus. Illustrerade romaner blir förstås också osedvanligt smutsiga. Innehållsförteckningar har tagits bort liksom i vissa fall boktitlar som återkommande figurerar i sidhuvudet. Generellt har txt-filerna ett rudimentärt utseende: i början listas författarnamn, titel och årtal (ibland förlag) – samma metadata har använts för att benämna böckerna (StrindbergA_Inferno_1897.txt).