Flerordsuttrykk i Norsk aviskorpus - kollokasjoner og n-gram
Gunn Inger Lyse
(Universitetet i Bergen) og Gisle Andersen (Norges Handelshøyskole)
HF-217, 14.15-16.00, 13. april 2012
Sammendrag:
Flerordsuttrykk er ord som forekommer så ofte sammen at de oppfattes som
en enhet i språket. For eksempel er der intuitivt en sterkere forbindelse
mellom ordene i paret "med tanke på" enn ordene i paret "med pålegg på".
Flerordsuttrykk antas å være like frekvente som ettordsuttrykk i vårt
mentale leksikon (Baldwin, 2004). Å identifisere flerordsuttrykk er derfor
av stor betydning for en rekke formål innen leksikografi, terminologi og
språkteknologi. Det kan bidra til korrekt segmentering av fraseologiske
enheter (tilslørte bondepiker, guri malla), ekstraksjon av fagterminologi
(ulcerøs kolitt, notarius publicus), segmentering av anglisismer (easy
listening) og automatisk prosessering av språk. Det er f.eks. et behov i
systemer for syntaktisk analyse og maskinoversettelse å unngå at uttrykk
som med tanke på analyseres som enpreposisjonsfrase. Lingvistisk er det
imidlertid ikke entydig gitt hvilke kriterier som skal legges til grunn
for å definere flerordsuttrykk.
Vi vil vise hvordan statistiske metoder anvendt på Norsk aviskorpus
(http://avis.uib.no/) gir oss en måte for å kvantifisere en intuisjon om
hvilke ord som "hører sammen". I statistisk terminologi brukes begrepet
kollokasjoner, samforekomst, hvor en kollokasjon er en ordsekvens med
sterktendens til å samforekomme. På basis av statistiske mål på
assosiasjonsstyrke kan man produsere rangerte lister av kollokasjoner. Til
dette trengs store mengder data for pålitelige utregninger. I prosjektet
Norsk aviskorpus bygges et selvekspanderende korpus, hvor elektronisk
publiserte avistekster legges til daglig. Aviskorpuset inneholder tekster
på bokmål og nynorsk, og omfatter per i dag over 700 millioner ord.
Databasen er således velegnet for å analysere statistiske
språkregelmessigheter, deriblant ord som ofte forekommer sammen.
I innlegget beskriver vi arbeidet med å produsere n-gram-statistikk for
hele korpuset, dvs. opptellinger av hvor ofte ord forekommer sammen, og
fokuserer særlig på arbeidet med to- og treordssekvenser (bigram og
trigram). Vi vil beskrive prosedyrer for filtrering og statistisk
rangering, samt evaluere ulike statistiske mål som brukes for å finne og
rangere flerordsuttrykk (Pearson's chi-square (X2), Pointwise mutual
information, Log-likelihood ratio (G 2), Dice coefficient, Jaccard,
Z-score, (Student's) t-score, Poisson Stirling Measure). Basert kun på
uanalyserte ord har vi funnet lovende resultater; en evaluering av de
ulike statistiske testene viser at mens enkelte statistiske mål henter ut
relativt frekvente flerordsuttrykk (blant annet, i motsetning til),
favoriserer andre statistikkmål uttrykk med relativt lav frekvens, og her
finner vi typisk lånord og anglisismer (jumper's knee, practical jokes).
Resultatene oppmuntrer til videre arbeid hvor også lingvistisk informasjon
(morfologi og syntaks) vil inngå i det statistiske beregningsgrunnlaget.
Referanser:
Baldwin, Timothy (2004) Multiword Expressions, Advanced course at the
Australasian Language Technology Summer School (ALTSS 2004), Sydney,
Australia. URL: http://www.csse.unimelb.edu.au/~tim/pubs/altss2004.pdf