català español english
 
Inici Qui som? Línies de recerca Tesis Publicacions Projectes Recursos Descàrregues Intranet Mapa
 
   
Projectes
Fitxa 1 de 20 següent-> últim->>
Tornar al llistat
SenSem: Banc de dades sintÓctic i semÓntic de l'espanyol


En el marc del projecte SenSem (Sentence Semantics: Creación de una Base de Datos de Semántica Oracional) s'ha creat un corpus de frases anotades als nivells sintàctic i semàntic.

El corpus font està format per 13 milions de paraules extretes de les versions online d’un diari escrit en espanyol (El Periódico). D’aquest corpus s'han seleccionat aleatòriament 25.000 frases, 100 per cadascun dels 250 verbs més freqüents de l’espanyol actual. Cada oració s’ha etiquetat pel que fa al sentit verbal que exemplifica, al tipus de complements, així com la categoria i la funció sintàctica i semàntica d'aquests. També s'hi ha inclòs el tipus de semàntica oracional que expressa l'oració tant pel que fa a la informació aspectual com a la construcció.

A partir d’aquest corpus s'ha creat una base de dades lèxica verbal on es recull tota la informació incorporada a les oracions. La unitat de descripció dels verbs és el sentit. En la descripció dels verbs s'inclou l'estructura argumental, incloent els patrons de subcategorització, la freqüència d'aquests, els rols semàntics i la informació relativa a la semàntica oracional.

El lèxic i el corpus anotat estan associates a nivell de sentit i juntament configuren el que anomenem banc de dades de la semàntica oracional dels verbs en espanyol. Ambdós recursos estan disponibles via web i constitueixen una font molt important d’informació lingüística que resulta de gran utilitat en diverses àrees del processament del llenguatge natural, així com per a la investigació lingüística en general.

Aquest projecte s'ha continuat amb posterior finançament.


Finançament:
2004-2006 - Ministerio de Ciencia y TecnologÝa (BFF2003-06456)

 

Més informació
   
 
Darrera actualització: 23/06/2017