Samtaler i korpusformat: Repræsentation af talesprog i LANCHARTs korpus-infrastruktur
Research output: Contribution to journal › Journal article › Research › peer-review
Standard
Samtaler i korpusformat : Repræsentation af talesprog i LANCHARTs korpus-infrastruktur. / Diderichsen, Philip; Jensen, Torben Juel.
In: Nordlyd, Vol. 47, No. 2, 2023.Research output: Contribution to journal › Journal article › Research › peer-review
Harvard
APA
Vancouver
Author
Bibtex
}
RIS
TY - JOUR
T1 - Samtaler i korpusformat
T2 - Nordisk Dialektologkonference
AU - Diderichsen, Philip
AU - Jensen, Torben Juel
N1 - Conference code: 12
PY - 2023
Y1 - 2023
N2 - LANCHART-korpusset udgøres dels af optagelser indsamlet i forbindelse med dialektologiske og sociolingvistiske projekter i 1960’erne, 1970'erne og 1980'erne, dels af optagelser af samtaler indsamlet af Sprogforandringscentret på Københavns Universitet mellem 2005 og 2015. Geografisk dækker korpusset en række lokaliteter bredt fordelt i Danmark samt danske udvandrersamfund i Argentina, Canada og USA. Korpusset er i TextGrid-format, hvilket muliggør en direkte kobling mellem transskriptionerne og lydoptagelserne samt fleksibel notation af ord, længere tekstpassager og annotationer af disse. Korpusset er for nylig blevet relanceret i en ny søgeinfrastruktur baseret på Corpus Workbench (CWB) og den brugervenlige søgegrænseflade Korp, som udover hurtige og fleksible søgninger udmærker sig ved at være open source software der frit kan udvides med ny funktionalitet. Indlæsning af korpusdata i konkordansværktøjer som Korp kræver data i lineært format, hvilket medfører særlige problemstillinger i forhold til samtaledata, hvor der ofte forekommer overlap mellem talerne. I artiklen diskuterer vi disse problemstillinger og præsenterer vores løsning i form af en ny partiturvisning, der viser taledataene med lydsporet synkroniseret til transskriptionen.
AB - LANCHART-korpusset udgøres dels af optagelser indsamlet i forbindelse med dialektologiske og sociolingvistiske projekter i 1960’erne, 1970'erne og 1980'erne, dels af optagelser af samtaler indsamlet af Sprogforandringscentret på Københavns Universitet mellem 2005 og 2015. Geografisk dækker korpusset en række lokaliteter bredt fordelt i Danmark samt danske udvandrersamfund i Argentina, Canada og USA. Korpusset er i TextGrid-format, hvilket muliggør en direkte kobling mellem transskriptionerne og lydoptagelserne samt fleksibel notation af ord, længere tekstpassager og annotationer af disse. Korpusset er for nylig blevet relanceret i en ny søgeinfrastruktur baseret på Corpus Workbench (CWB) og den brugervenlige søgegrænseflade Korp, som udover hurtige og fleksible søgninger udmærker sig ved at være open source software der frit kan udvides med ny funktionalitet. Indlæsning af korpusdata i konkordansværktøjer som Korp kræver data i lineært format, hvilket medfører særlige problemstillinger i forhold til samtaledata, hvor der ofte forekommer overlap mellem talerne. I artiklen diskuterer vi disse problemstillinger og præsenterer vores løsning i form af en ny partiturvisning, der viser taledataene med lydsporet synkroniseret til transskriptionen.
KW - Det Humanistiske Fakultet
KW - Korpuslingvistik
KW - talesprogskorpus
KW - samtaledata
KW - LANCHART
KW - annotation
M3 - Tidsskriftartikel
VL - 47
JO - Nordlyd
JF - Nordlyd
SN - 0332-7531
IS - 2
Y2 - 15 August 2022 through 17 August 2022
ER -
ID: 346244263