Basecrowd bygger på en kombination af traditionel webbaseret crowdsourcing Machine Learning og forsøg på at nedbryde indtastningsarbejdet i de mindst mulige opgaver.  

Forskellen mellem traditionel crowdsourcing, som blandt andre steder anvendes på patientjournaler.dk, og den teknologi vi sammen med et hold af økonomer fra SDU, har udviklet, ses bedst ved en sammenligning. I den mest almindelige arbejdsproces præsenteres den frivillige indtaster for en digital gengivelse af f.eks. en dødsattest, som den frivillige taster ind i en prædefineret formular. I næste led læses der korrektur på hver enkelt indtastning. Hertil er er der fra arkivets side udvalgte frivillige, der anses for at være særlig gode til at læse håndskrift. I dagligt tale kaldes disse for superbrugere.

Erfaringer viser at denne form for crowdsourcing virker for større institutioner, men ikke gør sig for mindre forskningsbaserede Crowdsourcingsprojekter som det nærværende der er afhængig af at kunne indsamle data hurtigt og i den bedst mulige kvalitet. Vores mål med platformen har derfor været at gøre indtastningen lettere, mere spændende ved dels at skabe et behageligt og inkluderende digitalt rum, hvori der løses opgaver, der ikke kræver nogen videre introduktion. Alle kan være med!

Hertil er der udviklet en korrekturlæsningsmetode, der både ”sparer” superbrugeren væk og skaber højere datakvalitet.

Workflow
En dødsattest er et standardiseret dokument der alle består af en række felter (segmenter) For eksempel et navnefelt, et adressefelt osv. Og da der da oftest er tale om tusindvis af sider med samme struktur, kan det enkelte segment klassificeres i henhold hertil. Og mere vigtig gøres til en task.

 

Efter af have opdelt den enkelte dødsattest i segmenter sendes det enkelte segment til selve crowsourcingsplatformen, hvor det præsenteres for de frivillige indtastere. Er segmentet, som i dette tilfælde, hentet fra en dødsattest, præsenteres segmentet visuelt på den tilhørende dødsattest. Hvormed den frivillige dels kan sammenligne håndskriften og stadigvæk får den kontekstuelle historiske indsigt.

Et enkelt segment sendes ud til indtastningen mindst to gange. Er der overensstemmelse mellem de to indtastninger, lukkes feltet. Hvis ikke, sendes segmentet ud en tredje gang. Man vil derfor støde på dokumenter, hvor en indtaster blot skal transskribere et segment ud af femten.

Dertil skal nævnes at det ikke kan lade sig gøre at lave fejl. Det vil læse forkert. At læse er et spørgsmål om kvalificeret gæt som over tid bliver bedre og bedre. Ved at gøre selv opgaven så simpel rettes fokus derfor på indholdet af opgaven frem for den tekniske udførelse. Hvilket igen giver en læringsoplevelse og bedre data. For det andet betyder fejl heller ikke at et dokument, den frivillige har brugt på at indtaste et dokument, er spildt. Kun de felter der i sammenligningen afviger sorteres nemlig fra.

Testperioden har vist, at ”dobbeltarbejdet”, der er forbundet med at sende et segment ud to gange, ikke nedsætter hastigheden. Tværtimod synes tiden, der er vundet ved simplificeringen af selve opgaven, som de frivillige løser, mere end at opveje den ekstra tid.

På baggrund af 1000 indtastede dokumenter (svarende til ca. 30.000 indtastede felter) kan det blandt andet konkluderes, at en frivillig i gennemsnit bruger mindre end et halvt minut på at indtaste et enkelt felt. Hvilket altså også vil sige, at det tager mellem fem og seks minutter at indtaste en enkelt dødsattest. Uden at det, sammenlignet med de to traditionelle crowdsourcing, påvirker kvaliteten transskriptionerne negativt – faktisk tværtimod.

Har du spørgsmål til platformen eller vores teknologi er du meget velkommen til at kontakte os på skp@basecrowd.dk