| Financiamento: Fundação Calouste Gulbenkian, União Latina, Instituto Camões, FCT (Fundos Programáticos) |
|
|
| Início do Projecto:1988 |
| Estado do Projecto:Em curso. |
O Corpus de Referência do Português Contemporâneo (CRPC) do Centro de Linguística da Universidade de Lisboa¹, iniciado em 1988, é um corpus línguístico, electrónico, que contém actualmente 334 milhões de palavras (V. Mapa-Síntese) sendo constituído por amostragens de diversos tipos de texto de discurso escrito (literário, jornalístico, técnico, científico, didáctico, económico, jurídico, parlamentar, etc.) e de discurso oral (elocuções informais e formais).
Estas amostragens dizem respeito a variedades nacionais e regionais do português: estão incluídas, no corpus, amostragens do português europeu, português do Brasil, português dos cinco países africanos de língua oficial portuguesa (Angola, Cabo Verde, Guiné-Bissau, Moçambique, São Tomé e Príncipe), português de Macau, português de Timor-Leste e do português falado em Goa. Do ponto de vista cronológico, o corpus contém textos que vão desde a 2ª. metade do séc. XIX até 2006, sendo, na sua maior parte, posteriores a 1970.
Este projecto, em curso de execução, consiste, pois, numa base de dados e de conhecimentos, constituída por documentos linguísticos autênticos, organizados e informatizados, acessíveis aos investigadores, professores, tradutores e a todos aqueles que em Portugal e no estrangeiro desejem aceder a dados linguísticos atestados para realizarem trabalhos de carácter teórico e prático sobre o português ou trabalhos interdisciplinares em que, de algum modo, intervenha a língua portuguesa (Ver Disponibilização de Corpora).
Observa-se, actualmente, em todo o mundo, um interesse crescente pela criação de recursos linguísticos, nomeadamente corpora e léxicos de grandes dimensões o que tem sido possível graças ao extraordinário desenvolvimento da informática e do poder dos computadores. Estes recursos linguísticos específicos de cada língua e intimamente ligados à cultura dos povos, em associação com tecnologias adequadas à extracção de dados e de conhecimentos, constituem pré-requisitos indispensáveis a um grande conjunto de trabalhos de investigação e a vários tipos de desenvolvimento e aplicações de que, no caso do CRPC, se podem citar:
- novas descrições do português baseadas em dados reais,
- estudos contrastivos entre variedades do português, visando estabelecer factores de unidade e de diversidade,
- estudos contrastivos entre línguas que sejam detentoras de recursos linguísticos congéneres,
- gramáticas,
- léxicos e dicionários monolingues, bilingues e plurilingues gerais e especializados, convencionais e electrónicos,
- terminologias,
- materiais para tradução assistida,
- materiais para o ensino da língua,
- desenvolvimentos e aplicações no âmbito da engenharia linguística, nomeadamente no que respeita aos sistemas de processamento, tratamento e reconhecimento da língua natural, às tecnologias linguísticas e às telecomunicações.
O CRPC tem já vindo a ser utilizado em numerosos trabalhos académicos (essencialmente dissertações de doutoramento e de mestrado) realizados em Portugal e no estrangeiro e em projectos de investigação. Destes, salientam-se o Dicionário da Língua Portuguesa Contemporânea da Academia de Ciências de Lisboa que o tomou como fonte de abonações e os seguintes projectos do Centro de Linguística da Universidade de Lisboa:
-
Projectos concluídos:
- Recursos Linguísticos para o Português: um corpus e instrumentos para a sua consulta e análise
- REDIP - Rede de Difusão Internacional do Português: rádio, televisão e imprensa (em parceria)
- Léxico Multifuncional Computorizado do Português Contemporâneo (em parceria)
- Português Falado - Variedades Geográficas e Sociais
- SIMPLE – Semantic Information for Multifunctional Plurilingual Lexicon (em parceria)
- LE-PAROLE (em parceria)
- ELAN – European Language Activity Network (em parceria)
- Propriedades Sintácticas e Semânticas de Predicados Verbais Polissémicos: o caso dos verbos psicológicos
- DCP – Dicionário de Combinatórias do Português
- AUDIOLING-LP Língua Portuguesa: som e pronúncia
- Estudo do uso e do Significado da Preposição DE em Contextos Nominais SN DE SN
- Língua Portuguesa: Ensino Assistido por Computador (em parceria)
-
Projectos em curso:
- Gramática do Português
- C-ORAL-ROM – Integrated Reference Corpora for Spoken Romance Languages
(em parceria) - ENABLER - European National Activities for Basic Language Resources (em parceria)
- Aspectos da Sintaxe do Sintagma Nominal em Português numa perspectiva comparada
- VARPORT - Análise Contrastiva de Variedades do Português (em parceria)
| Materiais disponibilizados pelo CLUL ou em parceria | ||
| Nome e Descrição do Projecto |
Autoria |
Disponível em |
| Subcorpus do CRPC constituído por 106 488 palavras. |
CLUL | corpus_oral_pf_publicado.zip |
| LMCPC Léxico constituído por 26 980 lemas e 140 976 formas lexicais com informação morfológica e quantitativa. |
CLUL, INESC e Editorial Verbo |
linguistica_de_corpus/lmcpc |
| Português Falado - Variedades Geográficas e Sociais 86 textos orais autênticos com alinhamento texto/som. |
CLUL, Univ. de Toulouse-le-Mirail e Univ. de Provence Aix-Marseille | 4 Cd-Rom editados por CLUL e Instituto Camões |
| Subcorpus PAROLE Subcorpus extraído do corpus PAROLE com 3 milhões de palavras. Contém 250 000 palavras anotadas morfossintacticamente. |
CLUL e INESC | Catálogo ELRA http://www.elda.org/catalogue/ en/text/W0024.html |
| LÉXICO PAROLE Léxico constituído por 20 000 unidades lexicais etiquetadas morfossintacticamente e com descrição sintáctica. |
CLUL, INESC e Editorial Verbo |
Catálogo ELRA http://www.elda.org/catalogue/ en/text/L0035.html |
| SIMPLE Subléxico do PAROLE com 300 unidades com descrição semântica. |
CLUL e parceria portuguesa e europeia | http://www.ub.es/gilcub/ SIMPLE/simple.html |
| Corpus ELAN Subcorpus do PAROLE com 3 milhões de palavras. |
CLUL e parceria europeia | projecto_rld1.php |
- ¹-
- Instituições que têm financiado o CRPC: Fundação Calouste Gulbenkian, Junta Nacional de Investigação Científica e Tecnológica (JNICT) – Programa Estímulo em Ciências Sociais e Humanas, Fundação para a Ciência e Tecnologia (FCT) – Fundos Programáticos, Instituto Camões, União Latina, Caixa Geral de Depósitos, Comissão das Comunidades Europeias – Projecto LE-PAROLE.
Instituições públicas e privadas que constituem a rede de fornecedores de dados (em geral, já em formato electrónico) para o CRPC: Academia das Ciências de Lisboa; Agência Lusa; Assembleia da República; Caixa Geral de Depósitos; Centro de Informática do Ministério da Justiça; Coimbra Editora; DECO; Editora Colibri; Editora Nova Fronteira – Brasil; Editorial Verbo; Estação de Rádio TSF; Fundação Calouste Gulbenkian – Serviço de Bibliotecas e Apoio à Leitura; Instituto do Consumidor, Sociedade Bíblica Portugal; Jornais portugueses: A Bola, A Capital, Diário de Notícias, Diário Económico, Expresso, Jornal de Notícias, Diário do Minho, O Independente, Público; Jornais de Cabo Verde: A Semana, Correio Quinze, Novo Jornal; Procuradoria-Geral da República; Corpus do Português Contemporâneo (Universidade Estadual Paulista – UNESP); Projecto NURC-BR (São Paulo e Rio de Janeiro); Projecto PEUL (Rio de Janeiro); Revistas: Grande Reportagem, Ingenium, Máxima, ProTeste, Visão; Selecções do Reader's Digest.
| QUADRO-SÍNTESE CORPUS DE REFERÊNCIA DO PORTUGUÊS CONTEMPORÂNEO (CRPC) 334 711 788 palavras (Outubro, 2005) |
||
![]() |
||
| Cronologia: |
Fontes do escrito: |
|
| ANTES DE 1900 1 092 087 |
LIVROS 24 006 164 Técnico e Científico - 11 945 301 Literário - 10 092 720 Didáctico - 1 968 143 |
|
| 1901-1970 2 772 576 |
JORNAIS 223 144 733 |
|
| DEPOIS DE 1970 330 847 125 |
REVISTAS 8 715 723 Técnicas – 2 725 708 Informação Geral – 5 990 015 |
|
| DOCUMENTOS 64 184 251 Parlamentares – 60 890 283 Jurídicos – 3 293 968 |
||
| Modalidades: |
FOLHETOS 343 483 |
|
| ESCRITO 332 194 548 |
CORRESPONDÊNCIA 163 192 |
|
| ORAL 2 517 240 |
VARIA 14 002 055 |
|
| Publicações: Bacelar do Nascimento, M. F. (2003), "O lugar do corpus na investigação linguística" in MENDES, A. et alii (orgs.) Actas do XVIII Encontro da Associação Portuguesa de Linguística, Lisboa, Associação Portuguesa de Linguística e Edições Colibri. Bacelar do Nascimento, M. F. (2003), "O papel dos corpora especializados na criação de bases terminológicas" in CASTRO, I. et alii (org.) Razões e Emoção, Miscelânea de Estudo em Homenagem a Maria Helena Mira Mateus, vol. 2, Imprensa Nacional-Casa da Moeda, Lisboa, pp. 167-179. Bacelar do Nascimento, M. F. (2001), "Les études portugaises sur la langue parlée" in CARREIRA, M. H. A. (org.) Travaux et Documents, Les langues romanes en dialogue(s), 11-2001, Université Paris 8, Vincennes Saint-Denis, pp. 209-221. Bacelar do Nascimento, M. F. e M. A. Mota (2001), "Le Portugais dans ses variétés" in Revue Belge de Philologie et d'Histoire, 79, Fasc.3: Langues et Littératures Modernes, Société pour le Progrés des études philologiques et historiques, Bruxelles, pp. 931-952. Bacelar do Nascimento, M. F. et alii (2001), Poster "Corpus de Referência do Português Contemporâneo" in Feira de Projectos, promovida pela Comissão Nacional do Ano Europeu das Línguas, Lisboa, Centro Cultural Casapiano, 27-30 de Setembro de 2001. Bacelar do Nascimento, M. F., L. A. S. Pereira e J. Saramago (2000), "Portuguese Corpora at CLUL", in Second International Conference on Language Resources and Evaluation – Proceedings, Volume II, Athens, pp. 1603-1607. Bacelar do Nascimento, M. F. (2000), "Corpus de Référence du Portugais Contemporain" in BILGER, M. (ed.) Corpus, Méthodologie et Applications Linguistiques, Paris, H. Champion et Presses Universitaires de Perpignan (2000), pp. 25-30. Bacelar do Nascimento, M. F. (2000), "O corpus de referência do português contemporâneo e os projectos de investigação do Centro de Linguística da Universidade de Lisboa sobre variedades do português falado e escrito" in GÄRTNER, E. et alii (eds.) Estudos de Gramática Portuguesa (I), Biblioteca Luso-Brasileira, Centro do Livro e do Disco de Língua Portuguesa, Frankfurt am Main, pp. 185-200. Bacelar do nascimento, M. F. (2000), "O Corpus Compartilhado VARPORT" in BRANDÃO, S. F. et alii (orgs.) Análise Contrastiva de Variedades do Português: Projecto de Pesquisa Luso-Brasileiro em Curso, Rio de Janeiro, UFRJ, Faculdade de Letras, Diretoria Adjunta de Cultura e Extensão / Setor Cultural, pp. 19-24. Bacelar do Nascimento, M. F. (1999), "O Português Fundamental faz 30 anos" in FARIA, I. H. (org.) Lindley Cintra, Homenagem ao Homem, ao Mestre e ao Cidadão, Faculdade de Letras da Universidade de Lisboa, Lisboa, Cosmos, pp. 585-596. Bacelar do Nascimento, M. F., T. Biderman (1999), "Unidade e Diversidade: o vocabulário da língua oral em Portugal e no Brasil" in MACÁRIO LOPES, A. C. et alii (orgs.) Actas do XIV Encontro da Associação Portuguesa de Linguística, Braga, APL, pp. 165-193. Bacelar do Nascimento, M. F. (1999), Intervenção, como representante do Centro de Linguística da Universidade de Lisboa, no Debate Público "Apresentação do Perfil de Investigação Científica do Processamento Computacional da Língua Portuguesa", organizado pelo Ministério da Ciência e da Tecnologia - Observatório das Ciências e das Tecnologias, Lisboa, 17/04/1999, http://www.linguateca.pt/transcricao/Bacelar_1.html. Bacelar do Nascimento, M. F. (1998), "Quelques resources linguistiques de base pour l'étude des variétés du portugais contemporain", Revue Française de Linguistique Appliquée, Vol. III - 1, Aspects de la diversité linguistique, Juin 1998, pp. 81-86. Bacelar do Nascimento, M. F. (1997), "Contribuição da análise de corpora para a descrição lexicográfica", Sentido que a vida faz, estudos para Óscar Lopes, Porto, Ed. Campo das Letras, pp.734-744. Bacelar do Nascimento, M. F. (1997), "A exploração de corpora linguísticos no ensino/aprendizagem do português", Actas do Seminário Internacional de Português como Língua Estrangeira, Macau, Maio de 1997, pp. 391-407. Bacelar do Nascimento, M. F. (1996), "Aspectos da sintaxe do português falado (repetições lexicais e de estruturas sintácticas em produções orais: fenómenos de deslocação), Actas do Congresso Internacional sobre o Português, volume I, DUARTE, I. e I. LEIRIA (orgs.), APL, Lisboa, Junho de 1996, pp. 203-223. Bacelar do Nascimento, M. F. (1996), "Apresentação da mesa-redonda sobre corpora linguísticos", Actas do XI Encontro Nacional da Associação Portuguesa de Linguística, volume I – Corpora, BACELAR DO NASCIMENTO, M. F., M. C. RODRIGUES e J. BETTENCOURT GONÇALVES (orgs.), APL, Lisboa, Setembro de 1996, pp. 19-20. Bacelar do Nascimento, M. F. (1996), "Reiterações lexicais no discurso oral de Luís F. Lindley Cintra", Actas do Encontro Regional de Lisboa da Associação Portuguesa de Linguística, Homenagem ao Professor Lindley Cintra, 1988, Boletim de Filologia, tomo XXXIII-IV, 1993-96, Lisboa, CLUL-JNICT (no prelo). Bacelar do Nascimento, M. F. (1996), "A observação e análise de dados reais na investigação e ensino de línguas", Actas do II Encontro da Associação Portuguesa dos Centros de Línguas do Ensino Superior, Universidade de Évora, Évora, Janeiro de 1996, pp.11-23. Bacelar do Nascimento, M. F. e J. Bettencourt Gonçalves (1996), "Corpus de Referência do Português Contemporâneo (CRPC), desenvolvimento e aplicações", Actas do XI Encontro Nacional da Associação Portuguesa de Linguística, volume I – Corpora, BACELAR DO NASCIMENTO, M. F., M. C. RODRIGUES e J. BETTENCOURT GONÇALVES (orgs.), APL, Lisboa, Setembro de 1996, pp. 143-149. Bacelar do Nascimento, M. F. (1995), "Corpus de Referência do Português Contemporâneo, a portuguese electronic corpus", Computers and the Humanities, Dordrecht, Boston, Klewer Academia Publishers, 1995 (no prelo). Bacelar do Nascimento, M. F. (1994), "Aplicação de resultados de análises linguísticas, sobre corpora ao ensino do português, LE", Memórias do 3.º Congresso Internacional do Ensino de Português como Língua Estrangeira, Centro de Estudos Brasileiros e Universidade Nacional Autónoma de México, México, 1994, pp. 104-120. Bacelar do Nascimento, M. F. e J. Bettencort Gonçalves (1994), "Variação lexical no tempo e no espaço: três momentos de um Inquérito de Disponibilidade", in Variação linguística no espaço, no tempo e na sociedade, APL, Lisboa, Edições Colibri, 1994, pp. 119-145. Bacelar do Nascimento, M. F. (1993), "Bases de referência orais e escritas do português contemporâneo", NOESIS, n.º 26, Instituto de Inovação Educacional, Lisboa, 1993, pp. 28-29. Bacelar do Nascimento, M. F. e A. M. Martins (1993), "Construções verbais portuguesas em -se médio observadas em textos medievais e em textos contemporâneos", Actas do XIX Congresso Internacional de Linguística e Filologia Românica, A Coruña, 1993, pp. 547-562. Bacelar do Nascimento, M. F., J. Bettencourt Gonçalves, L. Chacoto, P. Neto e L. A. S. Pereira (1993), "Ambiguidade morfológica no Português Fundamental", Actas do 1.º Encontro de Processamento de Língua Portuguesa Escrita e Falada - EPLP'93, Lisboa, INESC, UNINOVA, CLUL, 1993, pp. 101-106. Bacelar do Nascimento, A. Mendes e D. Santos (1993), "O corpus e a classificação sintáctica dos verbos", Actas do 1.º Encontro de Processamento de Língua Portuguesa Escrita e Falada -EPLP'93, Lisboa, INESC, UNINOVA, CLUL, 1993, pp. 125-129. Bacelar do Nascimento, M. F. e M. A. Mota (1990), "L'intérêt des données orales dans l'élaboration des dictionnaires de langue", Travaux de Linguistique, 21, DUCULOT, Paris-Louvain-la-Neuve, 1990, pp. 71-79. Bacelar do Nascimento, M. F., L. Chacoto e P. Neto (1989), "Como escrever o oral?", Revista Internacional de Língua Portuguesa, Lisboa, Associação das Universidades de Língua Portuguesa, n.º 2, Dezembro, 1989, pp. 36-40. Pereira, L. A. S. e M. F. Bacelar do Nascimento (2003), "Contribuição para uma tipologia dos verbos portugueses frequentes em contexto: concordâncias do verbo contar", in Como pôr os alunos a trabalhar? Experiências formativas na aula de Português, 5º Encontro Nacional da APP, Lisboa, pp. 241-251. Pereira, L. A. S e M. F. Bacelar do Nascimento (CLUL), Callou, D. e C. Serra (UFRJ), (2003), "Sobre a posição do adjectivo no sintagma nominal no corpus VARPORT: séculos XIX e XX", XIX Encontro Nacional da APL, Lisboa (no prelo). Pereira, L. A. S. e M. F. Bacelar do nascimento (2002), "A posição do adjectivo no sintagma nominal: duas perspectivas de análise", in Análise contrastiva de variedades do português: primeiros estudos, Rio de Janeiro, UFRJ, Faculdade Letras (no prelo) Pereira, L. A. S. (2001), "The use of concordancing in Portuguese teaching", in How to Use Corpora in Language Teaching, TWC, Pescia (with support from the European Commission's programme for Improving Human Potential) (no prelo).Pereira, L. A. S. (1999), "O recurso a corpora linguísticos e o contributo da abonação nos dicionários", in Actas do 2º Encontro Nacional da Associação de Professores de Português (APP), Lisboa, 16-18 de Abril de 1997, pp. 277-290. Pereira, L. A. S. e M. F. Bacelar do Nascimento (1997), "Corpus de Referência do Português Contemporâneo", poster apresentado a Rencontres de Linguistique Appliquée, Construction et Utilisation de grands Corpus, Paris, 24-27 de Setembro de 1997. Pereira, L. A. S. e Garcia M. (1994), "Inter de Milão-Sporting: o oral e o escrito na reportagem desportiva", in Variação linguística no espaço, no tempo e na sociedade, APL, Lisboa, Edições Colibri, 1994, pp. 43-53. |
|





