català español english
 
Inici Qui som? Línies de recerca Tesis Publicacions Projectes Recursos Descàrregues Intranet Mapa
 
   
<<--primer <-anterior Fitxa 5 de 9 següent-> últim -->>
Tornar al llistat
   
Autor/a: Antoni Oliver Gonzalez Direcció: Irene Castellón and Lluís Màrquez
 
Títol: Adquisició d'informació lèxica i morfosintàctica a partir de corpus sense anotar: aplicació al rus i al croat (2004)
 
En aquesta tesi es presenten diverses metodologies d'adquisició automàtica d'informació lèxica i morfosintàctica i d'aprenentatge no supervisat de la morfologia a partir de corpus sense anotar. Les metodologies que presentem s'han provat per a dues llengües eslaves: el rus i el croat; llengües que es caracteritzen per tenir una morfologia molt rica i predominantment concatenativa. Aquesta característica s'ha aprofitat en el disseny dels algorismes, que es poden adaptar fàcilment per funcionar per altres llengües, sempre i quan presentin una morfologia relativament rica i amb els principals processos morfològics, ja siguin sufixals o prefixals, que es puguin descriure d'una manera concatenativa. S'ha fet una avaluació exhaustiva de les metodologies presentades i s'ha demostrat que funcionen molt satisfactòriament per aquestes llengües. El fet que els algorismes funcionin a partir de corpus sense anotar fa que siguin molt interessants per a la creació de nous recursos lèxics o bé per a l'ampliació de recursos existents. Els algorismes presentats en aquest treball poden fer ús d'internet per cercar informació no present al corpus. Això fa que es puguin aplicar els processos sense la necessitat de recopilar corpus de gran mida.
 
  Descarregar document
   
 
Darrera actualització: 26/01/2017