Aquest corpus pertany a l'àmbit de la
informàtica i és un corpus paral·lel per a l'anglès, espanyol i català.
Compèn un total de 2.257.498 mots (1.031.911, anglès; 891.903,
espanyol; 393.684, català) i està anotat automàticament a nivell
morfosintàctic. + informació
SenSem - Corpus de l'espanyol anotat sintàcticament i semànticament
Aquest corpus inclou textos de
l'àmbit periodistic i, més concretament, d'El Periódico de Catalunya.
És un corpus format per un milió de paraules, de les quals 300.00 mil (25.000 oracions) estan anotades manualment a nivell sintàctico-semàntic (rols semàntics, funcions sintàctiques, categories sintagmàtiques i construccions). Actualment estem desenvolupant la 2a fase del projecte, que finalitzarà al 2012. En aquesta segona fase s'afegeixen 5.000 oracions del registre literari i s'inclou l'anotació de l'aspectualitat i la modalitat. + informació
Lèxics
Diccionari de sentits verbals
En aquesta base de dades s'ha
codificat informació sintàctico-semàntica de 250 verbs. Cada lema
verbal està organitzat en sentits i per a cada sentit s'indica l'Aktionsart, els rols semàntics i el synset corresponent de EuroWordNet.
Descripció de la interfície sintàctico-semàntica verbal
En aquests lèxics es descriuen les diverses construccions en què pot aparèixer un mateix verb.
Volem MultilingüeAquest diccionari és un recurs verbal multilingüe (espanyol-català-francès-basc). Per a cada verb s’especifiquen els esquemes de subcategorització i la semàntica associada a aquests esquemes, a més dels rols semàntics i exemples d’ús.
Volem Espanyol
Per a la construcció d’aquest recurs
s’ha partit del diccionari espanyol inclòs en el diccionari multilingüe
VOLEM. Aquest nou lèxic inclou més entrades, així com més nombre de construccions.
SenSem
Aquest banc de dades conté una base
de dades lèxica on es descriuen els 250 verbs més freqüents de
l'espanyol des del punt de vista sintàctic i semàntic a partir de la
informació extreta d'un corpus periodístic de més de 700.000 mots. Per
a cada entrada es poden consultar, a més, tots els exemples del corpus
corresponents a cada estructura sintàctico-semàntica definida. +informació
MIDDIM - Diccionari Interactiu Multilingüe
Aquest diccionari és un recurs lèxic multilingüe, encara en construcció, creat pel Dr. Jaume Tió, on es poden fer consultes en tres llengües: català, anglès i alemany. Incorpora també el recurs interactiu per tal que l'usuari faci tots els comentaris o aportacions (inclusions de sinònims, equivalències...) que desitgi. Els tipus de consulta van des de mots i locucions fins a paradigmes de flexió, anàlisis sintàctiques i fragments finals i inicials de locucions o entrades canòniques.
Diccionari de Marcadors del discurs prototípicsAquest és un lèxic de marcadors del discurs utilitzat en la tesi de Laura Alonso: Representing discourse
for automatic text summarization via shallow NLP
techniques. Els marcadors discursius inclosos aquí són la font principal per a dibuixar mapes semàntics amb la finalitat d'obtenir un inventari de significats discursius bàsics. Aquest lèxic és també la base per a la implementació d'un segmantardor discursiu i per a l'anàlisi del discurs explotats pel resumidor d'e-mails Carpanta. El lèxic és paral·lel en tres idiomes: català, espanyol i Anglès. Per tant, en aquesta versió només hem inclòs els marcadors discursius que tenen un quasisinònim en una de les altres llengües. Els marcadors que no tenen un sinònim s'han inclòs en la versió ampliada del lèxic creat per tècniques de bootstrapping aplicades a partir d'aquest lèxic. El lèxic està format per 84 marcadors discursius, en representació dels diferents significats discursius. Alguns marcadors discursius s'han assignat a més d'un significat per dimensió, perquè són ambigus o no especificats.
WordNet 3.0 per a l'espanyol
Es tracta d’un nou recurs lèxic per a l’espanyol a partir de l’adaptació
del recurs ja existent per a l’anglès conegut com a WordNet 3.0. S’ha dut a
terme la traducció d’aproximadament unes 10.000 glosses, la qual cosa vol dir
que estan disponibles unes 30.000 entrades lèxiques per a l’espanyol. La
novetat que presenta aquesta versió és que el corpus de les defincions i els
mots dels exemples estan etiquetats a nivell morfosintàctic i semàntic.
Representació semàntica de preguntes (ReSim)
ReSim és un motor que, donada una
oració interrogativa, proposa una representació semàntica d’aquesta .
La representació es basa en les estructures lèxico-conceptuals de
Jackendoff 1990. Aquest sistema s’ha desenvolupat per a un domini
restringit.
Aquest sistema és un recurs dissenyat
per desambiguar formalment frases pronominals ambigües i proposa la
interpretació semàntica més plausible (passiva, anticausativa,
reflexiva, etc.)
Gramàtiques
Gramàtiques de dependències del català , espanyol i anglès
Gramàtica HPSG de l'espanyol La Spanish Resource Grammar (SRG) és una gramàtica de codi obert de gran cobertura per a l'espanyol.Està basada en el marc teòrio de HPSG i utilitza Minimal Recursion Semantics (MRS) per a la representació semàntica. La SRG està implementada en el sistema Linguistic Knowledge Builder (LKB), a partir dels components bàsics de la gramàtica Matrix del projecte LinGO.