Inici Qui som? Línies de recerca Tesis Publicacions Projectes Recursos Enllaços Intranet Mapa
 
   

Recursos

  • Corpus

    • Corpus Trilingüe Paral·lel GRIAL  
      Aquest corpus pertany a l'àmbit de la informàtica i és un corpus paral·lel per a l'anglès, espanyol i català. Compèn un total de 2.257.498 mots (1.031.911, anglès; 891.903, espanyol; 393.684, català) i està anotat automàticament a nivell morfosintàctic.
      + informació

      • SenSem - Corpus de l'espanyol anotat sintàcticament i semànticament  
        Aquest corpus inclou textos de l'àmbit periodistic i, més concretament, d'El Periódico de Catalunya. És un corpus format per un milió de paraules, de les quals 300.00 mil (25.000 oracions) estan anotades manualment a nivell sintàctico-semàntic (rols semàntics, funcions sintàctiques, categories sintagmàtiques i construccions). Actualment estem desenvolupant la 2a fase del projecte, que finalitzarà al 2012. En aquesta segona fase s'afegeixen 5.000 oracions del registre literari i s'inclou l'anotació de l'aspectualitat i la modalitat.
        + informació

      • Lèxics

        • Descripció de la interfície sintàctico-semàntica verbal
          En aquests lèxics es descriuen les diverses construccions en què pot aparèixer un mateix verb.

          • Volem Multilingüe  Aquest diccionari és un recurs verbal multilingüe (espanyol-català-francès-basc). Per a cada verb s’especifiquen els esquemes de subcategorització i la semàntica associada a aquests esquemes, a més dels rols semàntics i exemples d’ús.

          • Volem Espanyol  
            Per a la construcció d’aquest recurs s’ha partit del diccionari espanyol inclòs en el diccionari multilingüe VOLEM. Aquest nou lèxic inclou més entrades, així com més nombre de construccions.

          • SenSem  
            Aquest banc de dades conté una base de dades lèxica on es descriuen els 250 verbs més freqüents de l'espanyol des del punt de vista sintàctic i semàntic a partir de la informació extreta d'un corpus periodístic de més de 700.000 mots i d'un de literari de menors dimensions complementari. Cada lema està organitzat en sentits i per a cada sentit s'indiquen les propietats semàntiques bàsiques, com l'Aktionsart, els rols semàntics i el synset corresponent d'EuroWordNet. A més, es presenten els diferents patrons sintàctics en què participa cada sentit, patrons que s'han extret del corpus anotat SenSem i que inclouen la freqüència i tots els exemples del corpus corresponents a cada estructura sintàctico-semàntica definida (+informació).
            A més, s'estan incorporant les entrades corresponents del català (+informació). 

        • Diccionari Català-Alemany  
          Aquest diccionari ha estat creat pel Dr. Jaume Tió. Els tipus de consulta van des de mots i locucions fins a paradigmes de flexió, anàlisis sintàctiques i fragments finals i inicials de locucions o entrades canòniques.

          • Diccionari de Marcadors del discurs prototípics  Aquest és un lèxic de marcadors del discurs utilitzat en la tesi de Laura Alonso: Representing discourse for automatic text summarization via shallow NLP techniques. Els marcadors discursius inclosos aquí són la font principal per a dibuixar mapes semàntics amb la finalitat d'obtenir un inventari de significats discursius bàsics. Aquest lèxic és també la base per a la implementació d'un segmantardor discursiu i per a l'anàlisi del discurs explotats pel resumidor d'e-mails Carpanta. El lèxic és paral·lel en tres idiomes: català, espanyol i Anglès. Per tant, en aquesta versió només hem inclòs els marcadors discursius que tenen un quasisinònim en una de les altres llengües. Els marcadors que no tenen un sinònim s'han inclòs en la versió ampliada del lèxic creat per tècniques de bootstrapping aplicades a partir d'aquest lèxic. El lèxic està format per 84 marcadors discursius, en representació dels diferents significats discursius. Alguns marcadors discursius s'han assignat a més d'un significat per dimensió, perquè són ambigus o no especificats.

            • WordNet 3.0 per a l'espanyol  

              Es tracta d’un nou recurs lèxic per a l’espanyol a partir de l’adaptació del recurs ja existent per a l’anglès conegut com a WordNet 3.0. S’ha dut a terme la traducció d’aproximadament unes 10.000 glosses, la qual cosa vol dir que estan disponibles unes 30.000 entrades lèxiques per a l’espanyol. La novetat que presenta aquesta versió és que el corpus de les defincions i els mots dels exemples estan etiquetats a nivell morfosintàctic i semàntic.

            • Representació semàntica de preguntes (ReSim)  
              ReSim és un motor que, donada una oració interrogativa, proposa una representació semàntica d’aquesta . La representació es basa en les estructures lèxico-conceptuals de Jackendoff 1990. Aquest sistema s’ha desenvolupat per a un domini restringit.

            • Desambiguació automàtica de construccions  
              Aquest sistema és un recurs dissenyat per desambiguar formalment frases pronominals ambigües i proposa la interpretació semàntica més plausible (passiva, anticausativa, reflexiva, etc.)

            • Gramàtiques

              • Gramàtiques de dependències del català , espanyol i anglès  

                • Gramàtica HPSG de l'espanyol
                  La Spanish Resource Grammar (SRG) és una gramàtica de codi obert de gran cobertura per a l'espanyol.Està basada en el marc teòrio de HPSG i utilitza Minimal Recursion Semantics (MRS) per a la representació semàntica. La SRG està implementada en el sistema Linguistic Knowledge Builder (LKB), a partir dels components bàsics de la gramàtica Matrix del projecte LinGO.

                   
                 
                Darrera actualització: 19/01/2012