CRPC - Corpus de Referência do Português Contemporâneo

E-mail Imprimir PDF
 
Financiamento:
Fundação Calouste Gulbenkian, União Latina, Instituto Camões,
FCT (Fundos Programáticos)
Equipa do CLUL:
Maria Fernanda Bacelar do Nascimento (investigadora responsável)
João Malaca Casteleiro
Maria Lúcia Garcia Marques
Luísa Alice Santos Pereira
José Bettencourt Gonçalves
Amália Mendes
Rita Veloso
Raquel Amaro
Florbela Barreto
João Miguel Casteleiro (consultor informático)
Tiago Sá (técnico informático)

Início do Projecto:1988
Estado do Projecto:Em curso.
Resumo:
O Corpus de Referência do Português Contemporâneo (CRPC) do Centro de Linguística da Universidade de Lisboa¹, iniciado em 1988, é um corpus línguístico, electrónico, que contém actualmente 334 milhões de palavras (V. Mapa-Síntese) sendo constituído por amostragens de diversos tipos de texto de discurso escrito (literário, jornalístico, técnico, científico, didáctico, económico, jurídico, parlamentar, etc.) e de discurso oral (elocuções informais e formais).
Estas amostragens dizem respeito a variedades nacionais e regionais do português: estão incluídas, no corpus, amostragens do português europeu, português do Brasil, português dos cinco países africanos de língua oficial portuguesa (Angola, Cabo Verde, Guiné-Bissau, Moçambique, São Tomé e Príncipe), português de Macau, português de Timor-Leste e do português falado em Goa. Do ponto de vista cronológico, o corpus contém textos que vão desde a 2ª. metade do séc. XIX até 2006, sendo, na sua maior parte, posteriores a 1970.
Este projecto, em curso de execução, consiste, pois, numa base de dados e de conhecimentos, constituída por documentos linguísticos autênticos, organizados e informatizados, acessíveis aos investigadores, professores, tradutores e a todos aqueles que em Portugal e no estrangeiro desejem aceder a dados linguísticos atestados para realizarem trabalhos de carácter teórico e prático sobre o português ou trabalhos interdisciplinares em que, de algum modo, intervenha a língua portuguesa (Ver Disponibilização de Corpora).
Observa-se, actualmente, em todo o mundo, um interesse crescente pela criação de recursos linguísticos, nomeadamente corpora e léxicos de grandes dimensões o que tem sido possível graças ao extraordinário desenvolvimento da informática e do poder dos computadores. Estes recursos linguísticos específicos de cada língua e intimamente ligados à cultura dos povos, em associação com tecnologias adequadas à extracção de dados e de conhecimentos, constituem pré-requisitos indispensáveis a um grande conjunto de trabalhos de investigação e a vários tipos de desenvolvimento e aplicações de que, no caso do CRPC, se podem citar:
  • novas descrições do português baseadas em dados reais,
  • estudos contrastivos entre variedades do português, visando estabelecer factores de unidade e de diversidade,
  • estudos contrastivos entre línguas que sejam detentoras de recursos linguísticos congéneres,
  • gramáticas,
  • léxicos e dicionários monolingues, bilingues e plurilingues gerais e especializados, convencionais e electrónicos,
  • terminologias,
  • materiais para tradução assistida,
  • materiais para o ensino da língua,
  • desenvolvimentos e aplicações no âmbito da engenharia linguística, nomeadamente no que respeita aos sistemas de processamento, tratamento e reconhecimento da língua natural, às tecnologias linguísticas e às telecomunicações.

O CRPC tem já vindo a ser utilizado em numerosos trabalhos académicos (essencialmente dissertações de doutoramento e de mestrado) realizados em Portugal e no estrangeiro e em projectos de investigação. Destes, salientam-se o Dicionário da Língua Portuguesa Contemporânea da Academia de Ciências de Lisboa que o tomou como fonte de abonações e os seguintes projectos do Centro de Linguística da Universidade de Lisboa:

Disponibilização de corpora

Materiais disponibilizados pelo CLUL ou em parceria
Nome e Descrição
do Projecto
Autoria
Disponível em
Subcorpus do CRPC constituído por 106 488 palavras.
CLUL corpus_oral_pf_publicado.zip
LMCPC
Léxico constituído por 26 980 lemas e 140 976 formas lexicais com informação morfológica e quantitativa.
CLUL, INESC
e Editorial Verbo
linguistica_de_corpus/lmcpc
Português Falado - Variedades Geográficas e Sociais
86 textos orais autênticos com alinhamento texto/som.
CLUL, Univ. de Toulouse-le-Mirail e Univ. de Provence Aix-Marseille 4 Cd-Rom
editados por CLUL e Instituto Camões
Subcorpus PAROLE
Subcorpus extraído do corpus PAROLE com 3 milhões de palavras. Contém 250 000 palavras anotadas morfossintacticamente.
CLUL e INESC Catálogo ELRA
http://www.elda.org/catalogue/
en/text/W0024.html
LÉXICO PAROLE
Léxico constituído por

20 000 unidades lexicais etiquetadas morfossintacticamente e com descrição sintáctica.

CLUL, INESC
e Editorial Verbo
Catálogo ELRA
http://www.elda.org/catalogue/
en/text/L0035.html
SIMPLE Subléxico do PAROLE com 300 unidades com descrição semântica.
CLUL e parceria portuguesa e europeia http://www.ub.es/gilcub/
SIMPLE/simple.html
Corpus ELAN
Subcorpus do PAROLE com 3 milhões de palavras.
CLUL e parceria europeia projecto_rld1.php

¹-
Instituições que têm financiado o CRPC: Fundação Calouste Gulbenkian, Junta Nacional de Investigação Científica e Tecnológica (JNICT) – Programa Estímulo em Ciências Sociais e Humanas, Fundação para a Ciência e Tecnologia (FCT) – Fundos Programáticos, Instituto Camões, União Latina, Caixa Geral de Depósitos, Comissão das Comunidades Europeias – Projecto LE-PAROLE.
Instituições públicas e privadas que constituem a rede de fornecedores de dados (em geral, já em formato electrónico) para o CRPC: Academia das Ciências de Lisboa; Agência Lusa; Assembleia da República; Caixa Geral de Depósitos; Centro de Informática do Ministério da Justiça; Coimbra Editora; DECO; Editora Colibri; Editora Nova Fronteira – Brasil; Editorial Verbo; Estação de Rádio TSF; Fundação Calouste Gulbenkian – Serviço de Bibliotecas e Apoio à Leitura; Instituto do Consumidor, Sociedade Bíblica Portugal; Jornais portugueses: A Bola, A Capital, Diário de Notícias, Diário Económico, Expresso, Jornal de Notícias, Diário do Minho, O Independente, Público; Jornais de Cabo Verde: A Semana, Correio Quinze, Novo Jornal; Procuradoria-Geral da República; Corpus do Português Contemporâneo (Universidade Estadual Paulista – UNESP); Projecto NURC-BR (São Paulo e Rio de Janeiro); Projecto PEUL (Rio de Janeiro); Revistas: Grande Reportagem, Ingenium, Máxima, ProTeste, Visão; Selecções do Reader's Digest.

QUADRO-SÍNTESE
CORPUS DE REFERÊNCIA
DO PORTUGUÊS CONTEMPORÂNEO (CRPC)
334 711 788 palavras (Outubro, 2005)
Mapa Mundo
Cronologia:
Fontes do escrito:
ANTES DE 1900
1 092 087
LIVROS
24 006 164
Técnico e Científico - 11 945 301
Literário - 10 092 720
Didáctico - 1 968 143
1901-1970
2 772 576
JORNAIS
223 144 733
DEPOIS DE 1970
330 847 125
REVISTAS
8 715 723
Técnicas – 2 725 708
Informação Geral – 5 990 015
DOCUMENTOS
64 184 251
Parlamentares – 60 890 283
Jurídicos – 3 293 968
Modalidades:
FOLHETOS
343 483
ESCRITO
332 194 548
CORRESPONDÊNCIA
163 192
ORAL
2 517 240
VARIA
14 002 055
Publicações:
Bacelar do Nascimento, M. F. (2003), "O lugar do corpus na investigação linguística" in MENDES, A. et alii (orgs.) Actas do XVIII Encontro da Associação Portuguesa de Linguística, Lisboa, Associação Portuguesa de Linguística e Edições Colibri.

Bacelar do Nascimento, M. F. (2003), "O papel dos corpora especializados na criação de bases terminológicas" in CASTRO, I. et alii (org.) Razões e Emoção, Miscelânea de Estudo em Homenagem a Maria Helena Mira Mateus, vol. 2, Imprensa Nacional-Casa da Moeda, Lisboa, pp. 167-179.

Bacelar do Nascimento, M. F. (2001), "Les études portugaises sur la langue parlée" in CARREIRA, M. H. A. (org.) Travaux et Documents, Les langues romanes en dialogue(s), 11-2001, Université Paris 8, Vincennes Saint-Denis, pp. 209-221.

Bacelar do Nascimento, M. F. e M. A. Mota (2001), "Le Portugais dans ses variétés" in Revue Belge de Philologie et d'Histoire, 79, Fasc.3: Langues et Littératures Modernes, Société pour le Progrés des études philologiques et historiques, Bruxelles, pp. 931-952.

Bacelar do Nascimento, M. F. et alii (2001), Poster "Corpus de Referência do Português Contemporâneo" in Feira de Projectos, promovida pela Comissão Nacional do Ano Europeu das Línguas, Lisboa, Centro Cultural Casapiano, 27-30 de Setembro de 2001.

Bacelar do Nascimento, M. F., L. A. S. Pereira e J. Saramago (2000), "Portuguese Corpora at CLUL", in Second International Conference on Language Resources and Evaluation – Proceedings, Volume II, Athens, pp. 1603-1607.

Bacelar do Nascimento, M. F. (2000), "Corpus de Référence du Portugais Contemporain" in BILGER, M. (ed.) Corpus, Méthodologie et Applications Linguistiques, Paris, H. Champion et Presses Universitaires de Perpignan (2000), pp. 25-30.

Bacelar do Nascimento, M. F. (2000), "O corpus de referência do português contemporâneo e os projectos de investigação do Centro de Linguística da Universidade de Lisboa sobre variedades do português falado e escrito" in GÄRTNER, E. et alii (eds.) Estudos de Gramática Portuguesa (I), Biblioteca Luso-Brasileira, Centro do Livro e do Disco de Língua Portuguesa, Frankfurt am Main, pp. 185-200.

Bacelar do nascimento, M. F. (2000), "O Corpus Compartilhado VARPORT" in BRANDÃO, S. F. et alii (orgs.) Análise Contrastiva de Variedades do Português: Projecto de Pesquisa Luso-Brasileiro em Curso, Rio de Janeiro, UFRJ, Faculdade de Letras, Diretoria Adjunta de Cultura e Extensão / Setor Cultural, pp. 19-24.

Bacelar do Nascimento, M. F. (1999), "O Português Fundamental faz 30 anos" in FARIA, I. H. (org.) Lindley Cintra, Homenagem ao Homem, ao Mestre e ao Cidadão, Faculdade de Letras da Universidade de Lisboa, Lisboa, Cosmos, pp. 585-596.

Bacelar do Nascimento, M. F., T. Biderman (1999), "Unidade e Diversidade: o vocabulário da língua oral em Portugal e no Brasil" in MACÁRIO LOPES, A. C. et alii (orgs.) Actas do XIV Encontro da Associação Portuguesa de Linguística, Braga, APL, pp. 165-193.

Bacelar do Nascimento, M. F. (1999), Intervenção, como representante do Centro de Linguística da Universidade de Lisboa, no Debate Público "Apresentação do Perfil de Investigação Científica do Processamento Computacional da Língua Portuguesa", organizado pelo Ministério da Ciência e da Tecnologia - Observatório das Ciências e das Tecnologias, Lisboa, 17/04/1999, http://www.linguateca.pt/transcricao/Bacelar_1.html.

Bacelar do Nascimento, M. F. (1998), "Quelques resources linguistiques de base pour l'étude des variétés du portugais contemporain", Revue Française de Linguistique Appliquée, Vol. III - 1, Aspects de la diversité linguistique, Juin 1998, pp. 81-86.

Bacelar do Nascimento, M. F. (1997), "Contribuição da análise de corpora para a descrição lexicográfica", Sentido que a vida faz, estudos para Óscar Lopes, Porto, Ed. Campo das Letras, pp.734-744.

Bacelar do Nascimento, M. F. (1997), "A exploração de corpora linguísticos no ensino/aprendizagem do português", Actas do Seminário Internacional de Português como Língua Estrangeira, Macau, Maio de 1997, pp. 391-407.

Bacelar do Nascimento, M. F. (1996), "Aspectos da sintaxe do português falado (repetições lexicais e de estruturas sintácticas em produções orais: fenómenos de deslocação), Actas do Congresso Internacional sobre o Português, volume I, DUARTE, I. e I. LEIRIA (orgs.), APL, Lisboa, Junho de 1996, pp. 203-223.

Bacelar do Nascimento, M. F. (1996), "Apresentação da mesa-redonda sobre corpora linguísticos", Actas do XI Encontro Nacional da Associação Portuguesa de Linguística, volume I – Corpora, BACELAR DO NASCIMENTO, M. F., M. C. RODRIGUES e J. BETTENCOURT GONÇALVES (orgs.), APL, Lisboa, Setembro de 1996, pp. 19-20.

Bacelar do Nascimento, M. F. (1996), "Reiterações lexicais no discurso oral de Luís F. Lindley Cintra", Actas do Encontro Regional de Lisboa da Associação Portuguesa de Linguística, Homenagem ao Professor Lindley Cintra, 1988, Boletim de Filologia, tomo XXXIII-IV, 1993-96, Lisboa, CLUL-JNICT (no prelo).

Bacelar do Nascimento, M. F. (1996), "A observação e análise de dados reais na investigação e ensino de línguas", Actas do II Encontro da Associação Portuguesa dos Centros de Línguas do Ensino Superior, Universidade de Évora, Évora, Janeiro de 1996, pp.11-23.

Bacelar do Nascimento, M. F. e J. Bettencourt Gonçalves (1996), "Corpus de Referência do Português Contemporâneo (CRPC), desenvolvimento e aplicações", Actas do XI Encontro Nacional da Associação Portuguesa de Linguística, volume I – Corpora, BACELAR DO NASCIMENTO, M. F., M. C. RODRIGUES e J. BETTENCOURT GONÇALVES (orgs.), APL, Lisboa, Setembro de 1996, pp. 143-149.

Bacelar do Nascimento, M. F. (1995), "Corpus de Referência do Português Contemporâneo, a portuguese electronic corpus", Computers and the Humanities, Dordrecht, Boston, Klewer Academia Publishers, 1995 (no prelo).

Bacelar do Nascimento, M. F. (1994), "Aplicação de resultados de análises linguísticas, sobre corpora ao ensino do português, LE", Memórias do 3.º Congresso Internacional do Ensino de Português como Língua Estrangeira, Centro de Estudos Brasileiros e Universidade Nacional Autónoma de México, México, 1994, pp. 104-120.

Bacelar do Nascimento, M. F. e J. Bettencort Gonçalves (1994), "Variação lexical no tempo e no espaço: três momentos de um Inquérito de Disponibilidade", in Variação linguística no espaço, no tempo e na sociedade, APL, Lisboa, Edições Colibri, 1994, pp. 119-145.

Bacelar do Nascimento, M. F. (1993), "Bases de referência orais e escritas do português contemporâneo", NOESIS, n.º 26, Instituto de Inovação Educacional, Lisboa, 1993, pp. 28-29.

Bacelar do Nascimento, M. F. e A. M. Martins (1993), "Construções verbais portuguesas em -se médio observadas em textos medievais e em textos contemporâneos", Actas do XIX Congresso Internacional de Linguística e Filologia Românica, A Coruña, 1993, pp. 547-562.

Bacelar do Nascimento, M. F., J. Bettencourt Gonçalves, L. Chacoto, P. Neto e L. A. S. Pereira (1993), "Ambiguidade morfológica no Português Fundamental", Actas do 1.º Encontro de Processamento de Língua Portuguesa Escrita e Falada - EPLP'93, Lisboa, INESC, UNINOVA, CLUL, 1993, pp. 101-106.

Bacelar do Nascimento, A. Mendes e D. Santos (1993), "O corpus e a classificação sintáctica dos verbos", Actas do 1.º Encontro de Processamento de Língua Portuguesa Escrita e Falada -EPLP'93, Lisboa, INESC, UNINOVA, CLUL, 1993, pp. 125-129.

Bacelar do Nascimento, M. F. e M. A. Mota (1990), "L'intérêt des données orales dans l'élaboration des dictionnaires de langue", Travaux de Linguistique, 21, DUCULOT, Paris-Louvain-la-Neuve, 1990, pp. 71-79.

Bacelar do Nascimento, M. F., L. Chacoto e P. Neto (1989), "Como escrever o oral?", Revista Internacional de Língua Portuguesa, Lisboa, Associação das Universidades de Língua Portuguesa, n.º 2, Dezembro, 1989, pp. 36-40.

Pereira, L. A. S. e M. F. Bacelar do Nascimento (2003), "Contribuição para uma tipologia dos verbos portugueses frequentes em contexto: concordâncias do verbo contar", in Como pôr os alunos a trabalhar? Experiências formativas na aula de  Português, 5º Encontro Nacional da APP, Lisboa, pp. 241-251.

Pereira, L. A. S e M. F. Bacelar do Nascimento (CLUL), Callou, D. e C. Serra (UFRJ), (2003), "Sobre a posição do adjectivo no sintagma nominal no corpus VARPORT: séculos XIX e XX", XIX Encontro Nacional da APL, Lisboa (no prelo).

Pereira, L. A. S. e M. F. Bacelar do nascimento (2002), "A posição do adjectivo no sintagma nominal: duas perspectivas de análise", in Análise contrastiva de variedades do português: primeiros estudos, Rio de Janeiro, UFRJ, Faculdade Letras (no prelo)

Pereira, L. A. S. (2001), "The use of concordancing in Portuguese teaching", in How to Use Corpora in Language Teaching,  TWC, Pescia (with support from the European Commission's programme for Improving Human Potential) (no prelo).

Pereira, L. A. S. (1999), "O recurso a corpora linguísticos e o contributo da abonação nos dicionários", in Actas do 2º Encontro Nacional da Associação de Professores de Português (APP), Lisboa, 16-18 de Abril de 1997, pp. 277-290.

Pereira, L. A. S. e  M. F. Bacelar do Nascimento (1997), "Corpus de Referência do Português Contemporâneo", poster apresentado a Rencontres de Linguistique Appliquée, Construction et Utilisation de grands Corpus, Paris, 24-27 de Setembro de 1997.

Pereira, L. A. S. e Garcia M. (1994), "Inter de Milão-Sporting: o oral e o escrito na reportagem desportiva", in Variação linguística no espaço, no tempo e na sociedade, APL, Lisboa, Edições Colibri, 1994, pp. 43-53.

Última atualização em Ter, 19 de Abril de 2011 12:38  


Formulário de Login