Inici Qui som? Línies de recerca Tesis Publicacions Projectes Recursos Enllaços Intranet Mapa
 
   

Recursos

  • Corpus

    • Corpus Trilingüe Paral·lel GRIAL  
      Aquest corpus pertany a l'àmbit de la informàtica i és un corpus paral·lel per a l'anglès, espanyol i català. Compèn un total de 2.257.498 mots (1.031.911, anglès; 891.903, espanyol; 393.684, català) i està anotat automàticament a nivell morfosintàctic.
      + informació

      • SenSem - Corpus de l'espanyol anotat sintàcticament i semànticament  
        Aquest corpus inclou textos de l'àmbit periodistic i, més concretament, d'El Periódico de Catalunya. És un corpus format per un milió de paraules, de les quals 300.00 mil (25.000 oracions) estan anotades manualment a nivell sintàctico-semàntic (rols semàntics, funcions sintàctiques, categories sintagmàtiques i construccions). Actualment estem desenvolupant la 2a fase del projecte, que finalitzarà al 2012. En aquesta segona fase s'afegeixen 5.000 oracions del registre literari i s'inclou l'anotació de l'aspectualitat i la modalitat.
        + informació

      • Lèxics

        • Diccionari de sentits verbals  
          En aquesta base de dades s'ha codificat informació sintàctico-semàntica de 250 verbs. Cada lema verbal està organitzat en sentits i per a cada sentit s'indica l'Aktionsart, els rols semàntics i el synset corresponent de EuroWordNet.

          • Descripció de la interfície sintàctico-semàntica verbal
            En aquests lèxics es descriuen les diverses construccions en què pot aparèixer un mateix verb.

            • Volem Multilingüe  Aquest diccionari és un recurs verbal multilingüe (espanyol-català-francès-basc). Per a cada verb s’especifiquen els esquemes de subcategorització i la semàntica associada a aquests esquemes, a més dels rols semàntics i exemples d’ús.

            • Volem Espanyol  
              Per a la construcció d’aquest recurs s’ha partit del diccionari espanyol inclòs en el diccionari multilingüe VOLEM. Aquest nou lèxic inclou més entrades, així com més nombre de construccions.

            • SenSem  
              Aquest banc de dades conté una base de dades lèxica on es descriuen els 250 verbs més freqüents de l'espanyol des del punt de vista sintàctic i semàntic a partir de la informació extreta d'un corpus periodístic de més de 700.000 mots. Per a cada entrada es poden consultar, a més, tots els exemples del corpus corresponents a cada estructura sintàctico-semàntica definida.
              +informació

          • MIDDIM - Diccionari Interactiu Multilingüe  
            Aquest diccionari és un recurs lèxic multilingüe, encara en construcció, creat pel Dr. Jaume Tió, on es poden fer consultes en tres llengües: català, anglès i alemany. Incorpora també el recurs interactiu per tal que l'usuari faci tots els comentaris o aportacions (inclusions de sinònims, equivalències...) que desitgi. Els tipus de consulta van des de mots i locucions fins a paradigmes de flexió, anàlisis sintàctiques i fragments finals i inicials de locucions o entrades canòniques.

            • Diccionari de Marcadors del discurs prototípics  Aquest és un lèxic de marcadors del discurs utilitzat en la tesi de Laura Alonso: Representing discourse for automatic text summarization via shallow NLP techniques. Els marcadors discursius inclosos aquí són la font principal per a dibuixar mapes semàntics amb la finalitat d'obtenir un inventari de significats discursius bàsics. Aquest lèxic és també la base per a la implementació d'un segmantardor discursiu i per a l'anàlisi del discurs explotats pel resumidor d'e-mails Carpanta. El lèxic és paral·lel en tres idiomes: català, espanyol i Anglès. Per tant, en aquesta versió només hem inclòs els marcadors discursius que tenen un quasisinònim en una de les altres llengües. Els marcadors que no tenen un sinònim s'han inclòs en la versió ampliada del lèxic creat per tècniques de bootstrapping aplicades a partir d'aquest lèxic. El lèxic està format per 84 marcadors discursius, en representació dels diferents significats discursius. Alguns marcadors discursius s'han assignat a més d'un significat per dimensió, perquè són ambigus o no especificats.


              • WordNet 3.0 per a l'espanyol  

                Es tracta d’un nou recurs lèxic per a l’espanyol a partir de l’adaptació del recurs ja existent per a l’anglès conegut com a WordNet 3.0. S’ha dut a terme la traducció d’aproximadament unes 10.000 glosses, la qual cosa vol dir que estan disponibles unes 30.000 entrades lèxiques per a l’espanyol. La novetat que presenta aquesta versió és que el corpus de les defincions i els mots dels exemples estan etiquetats a nivell morfosintàctic i semàntic.

              • Representació semàntica de preguntes (ReSim)  
                ReSim és un motor que, donada una oració interrogativa, proposa una representació semàntica d’aquesta . La representació es basa en les estructures lèxico-conceptuals de Jackendoff 1990. Aquest sistema s’ha desenvolupat per a un domini restringit.

              • Desambiguació automàtica de construccions  
                Aquest sistema és un recurs dissenyat per desambiguar formalment frases pronominals ambigües i proposa la interpretació semàntica més plausible (passiva, anticausativa, reflexiva, etc.)

              • Gramàtiques

                • Gramàtiques de dependències del català , espanyol i anglès  

                  • Gramàtica HPSG de l'espanyol
                    La Spanish Resource Grammar (SRG) és una gramàtica de codi obert de gran cobertura per a l'espanyol.Està basada en el marc teòrio de HPSG i utilitza Minimal Recursion Semantics (MRS) per a la representació semàntica. La SRG està implementada en el sistema Linguistic Knowledge Builder (LKB), a partir dels components bàsics de la gramàtica Matrix del projecte LinGO.

                     
                   
                  Darrera actualització: 24/02/2010