by Kristoffer Brinch Kjeldby | April 25th, 2010
I går var jeg til Dansk Selskab for Musikforsknings 7. symposium. Det overordnede emne var Musik, lyd og digitalisering, så der var mange af oplæggene var relevante i forhold til mit nye arbejde på det Kongelige Bibliotek.
Jeg så sammenlagt 7 oplæg, og selvom de selvfølgelig var meget forskellige, synes jeg alligevel er der var en fin tråd igennem oplæggene. Overordnet handlede de fleste af oplæggene om de spørgsmål der opstår når man digitaliserer noder og lydoptagelser, og om hvordan man formidler sådanne digitale samlinger.
E-Science
Anders Conrad fra Det Kongelige Bibliotek holdt et oplæg om E-Science indenfor musikvidenskab. E-Science kender jeg mest fra naturvidenskab, hvor man indenfor nogle felter arbejder med enorme mængder (ofte offentlig tilgængelig) data – noget som Wired har beskrevet som The Petabyte Age.
F.eks. findes projektet Sloan Digital Sky Survey, hvor et teleskop systematisk fotograferer himlen og læg-ger resultatet på nettet. Når en astronom undersøge noget, kan han/hun slå op i databasen. Derfor kan man lave statistiske undersøgelser, som før umulige, fordi man selv skulle ud og tage billederne først.
Ser man på musikvidenskab er vi i gang med at digitalisere en masse kilder – det som man kalder retrodigitalisering. Derfor er det er naturligt af diskutere mulighederne for at bedrive en for for musikvidenskabelige E-Science med sådanne digitale samlinger.
For rigtigt at man kan bruge sådanne samlinger til E-Science, skal man kunne søge i dem, altså i selve teksten, noderne eller lyden. Derfor har man brug for en form for automatisk genkendelse af bogstaver, noder og lyd (se OCR). Med sådan en maskinel genkendelse på plads kan man lave alle mulige og umulige undersøgelser på det kæmpe materiale.
Et eksempel på en sådan søgbar musikdatabase er Musipedia. For at sådan noget kan blive en succes, bliver man også nødt til at stille data til rådighed for forskerne på en måde som tillader den faktisk forskning. Her talte Anders om vigtigheden af både generelle værktøj, f.eks. til søgning, såvel som mere fagspecifikke værktøj. De sidste skal naturligvis udvikles, og for at gøre dette skal man have en ide om hvilke undersøgelser værktøjet skal kunne håndtere.
Et eksempel: Danskehitlister.dk
Et godt og ligefremt eksempel på sådanne søgbare databasers forskningspotentiale er siden danskehitlister.dk, og specielt den database der ligger bagved websiden. Databasen er blevet til som del at projektet Dansk Rockkultur. I databasen ligger mange af Danmarks Radios historiske top 10 lister, og websiden tilgængeliggøre dem i fuld søgbare form. Henrik Smith-Sivertsen fra Dansk Folkemindesamling holdt midt på dagen et indlæg om tilblivelsen af siden, og om hvad hjemmesiden i øvrigt kan. I forbindelse med E-Science synes jeg at siden er et godt eksempel på de muligheder der opstår når kilder gøres søgbare.
Man kan selvfølgelig ‘bare’ kigge på en enkelt hitliste. Men med sådan en database kan man også foretage avancerede udregninger: F.eks. kunne man undersøge hvor lang tid en Beatles gennemsnitlig lå på hitlisten. Eller om sange lå længere eller kortere tid på hitlisten i 60’erne sammenlignet med 70’erne. Eller tegne en graf der viser udviklingen i populariteten af danske kontra engelske sange. Eller undersøge hvorlang tid der går fra en sang udkommer til den kommer på hitlisten over tid. Og så videre.
Det elegante ved sådan en database er at de samme data kan bruges af mange forskellige forskere og til mange forskellige ting. Før i tiden skulle hver enkel selv samle relevant data, hvilket for statistiske undersøgelser kan tage lang tid. Og når undersøgelsen var færdige røg det rå data i værste fald i skraldespanden.
Her kan man, med igen med Anders Conrads fordrag i mente, benytte generelle værktøjer ved siden af de fagspecifikke. F.eks. kan man forestille sig at en sådan database også blev gjort tilgængelig gennem SQL. Det er selvfølgelig langt mindre brugervenligt end den specialiserede søgning. Men med SQL kan man foretage langt mere komplekse søgninger, og det betyder at databasen kan anvende i flere forskningsscenarier. Og potentialet er der.
Først og fremmest vil jeg gerne rose din blog for at have rigtig meget kvalitet. Især dette indlæg om E-science og hvordan man kan benytte internettet til at ligge databaser ud til interesserede bruger.