Pesquisa

Início :: Projectos
LE-PAROLE
(1996-1998 - Programa da Comissão Europeia - DGXIII, Telematics Application of Common Interest - Contrato LE2 - 4017)

Parcerias:
Consorzio Pisa Richerche (coordenador) - Itália
Centro de Linguística da Universidade de Lisboa - Portugal
Det Danske Sprog - OG Litterature Iskab - Dinamarca
Fundación Bosh Gimpera Universitat de Barcelona - Espanha
Goeteborgs Universitet, Dpt. of Swedisch, Sprakdata - Suécia
GSI-ERLI - França, Institiuid Teangeolaiochta Eireann - Irlanda
Institut d'Estudis Catalans - Espanha
Institut fur Deutshe Sprache - Alemanha
Institute for Language and Speech Processing - Grécia
Instituut voor Nederlands Lexicologie - Holanda
University of Birminghan - Inglaterra
University of Helsinki - Finlândia
University of Liège -Bélgica.

Parceiro Português Associado :
Instituto de Engenharia de Sistemas e Computadores (INESC)

Equipa de Investigação do CLUL:
João Malaca Casteleiro (investigador responsável)
Maria Fernanda Bacelar do Nascimento (coordenadora)
  Corpus:
Maria Lúcia Garcia Marques 
Luísa Alice Santos Pereira
José Bettencourt Gonçalves 
José Manuel Feio
   Léxico:
Palmira Marrafa 
Amália Mendes
José Bettencourt Gonçalves 
Florbela Barreto;
Rita Veloso 
Maria João Ferro 
Clara Rowland 
José Manuel Feio

Estado do Projecto:
concluído

Resumo:

Projecto de reutilização de recursos linguísticos e informáticos disponíveis nos países europeus para a construção de corpora e léxicos segundo modelos integrados de constituição e descrição de materiais, em que se usam ferramentas comuns, o que permite facilitar as ligações multilingues e dar resposta a um grande número de aplicações. Foram constituídos corpora de 20 milhões de palavras, para cada língua, harmonizados no que respeita ao seu desenho, composição e codificação, incluindo 250 000 palavras anotadas morfossintacticamente. O léxico de cada língua contém 20 000 entradas acompanhadas de informação morfossintáctica e sintáctica.

Destes materiais estão disponíveis, para venda, no catálogo ELDA:
  • um corpus de 3 milhões de palavras composto por jornais (65%), livros (20%), revistas (5%) e miscelânea (10%); este corpus inclui um subcorpus de 250 mil palavras (aproximadamente com a mesma distribuição do corpus de 3 milhões de palavras) anotadas morfossintacticamente segundo os critérios standard do projecto PAROLE - http://www.elda.org/catalogue/en/text/W0024.htmll.
  • Um léxico de 20 mil entradas morfossintáctica e sintacticamente anotadas - http://www.elda.org/catalogue/en/text/L0035.html.
    Publicações:

    Bacelar do Nascimento, F., L. A. Pereira, J. Saramago, (2000), "Portuguese Corpora at CLUL" in Second International Conference on Language Resources and Evaluation - Proceedings, Volume III, Athens, pp. 1603-1607.

    Bacelar do Nascimento, M. F. (coord.) (1999), Portuguese lexicon of multilingual LE PAROLE Lexicon, http://www.elda.org/catalogue/en/text/L0035.html.

    Bacelar do Nascimento, M. F. (coord.), (1999) Portuguese sub-corpus of multilingual LE PAROLE corpus, http://www.elda.org/catalogue/en/text/W0024.html.

    Marrafa, P., J. Gonçalves, A. Mendes e R. Veloso (1999), "A Sintaxe do LE-PAROLE", in MARRAFA, P. e MOTA, M. ª (org.) Linguística Computacional. Investigação Fundamental e Aplicações, Lisboa, Associação Portuguesa de Linguística / Edições Colibri, pp. 191-205.

    Bacelar do Nascimento, M. F.,  P. Marrafa, L. A. S. Pereira, R. Ribeiro, R. Veloso e L. Wittmann, (1998), "LE-PAROLE - Do corpus à modelização da informação lexical num sistema-multifunção", Actas do XIII Encontro da Associação Portuguesa de Linguística, APL, Lisboa, Setembro de 1998, pp. 115-134.



    [topo]



    Imprimir

      2012  •  CLUL - Centro de Linguística da Universidade de Lisboa  •   Copyright   •  Webmaster  •   Contactos   •  Design: Plasma