CRPC - Corpus de Referência do Português Contemporâneo

E-mail Imprimir PDF

version 2.0 2010

O CRPC é um vasto corpus electrónico da variedade europeia do Português e de outras variedades (Brasil, Angola, Cabo Verde, Guiné-Bissau, Moçambique, São Tomé e Príncipe, Goa, Macau, Timor-Leste). Contendo 311,4 milhões de palavras, este corpus abrange diferentes tipos de textos escritos (literário, jornalístico, técnico, etc.) e de registos orais (formal e informal).
O subcorpus escrito do CRPC (309 milhões de palavras) pode ser pesquisado online e subpartes do corpus encontram-se disponíveis para download ou para compra no catálogo ELDA.
A este recurso foi atribuído o ISLRN (International Standard Language Resource Number) 151-982-545-991-0. Para mais informação, pode consultar a página www.islrn.org.

Composição Equipa Pesquisas online Investigação
Anotação História Disponibilidade Publicações
Agradecimentos Contacto



Composição

O CRPC é composto por 309,8 milhões de palavras provenientes de textos escritos e 1,6 milhões de palavras provenientes de transcrições de gravações de registos orais.

É considerado um corpus de referência na medida em que os textos escritos foram sujeitos a um processo de amostragem previamente à sua inclusão no corpus.

Tipos de texto
O CRPC abrange diversos tipos de textos escritos: literário, jornalístico, técnico, científico, didáctico, folhetos, decisões do Supremo Tribunal de Justiça, sessões parlamentares, etc.
O CRPC é também constituído por um subcorpus oral que inclui discurso formal e informal. Este subcorpus cobre diferentes tipos de interacção: monólogos, diálogos, conversas, telefonemas, leituras, homilias, etc.

Datação
O CRPC contém textos da segunda metade do século XIX até 2006, embora a maioria dos textos seja posterior ao ano de 1970.

Variedades do Português
Os textos incluídos no CRPC pertencem maioritariamente à variedade europeia do Português, mas encontram-se também representadas no corpus outras variedades nacionais, como o Português do Brasil, de África (Angola, Cabo Verde, Guiné-Bissau, Moçambique e São Tomé e Príncipe) e da Ásia (Macau, Goa e Timor-Leste).

O mapa que abaixo se apresenta assinala todas as variedades abrangidas pelo CRPC. Nele pode encontrar-se informação acerca do número de palavras existente para cada uma das variedades.
Para obter informações sobre a distribuição de textos escritos e orais por variedade, consulte-se esta tabela.


mapa_crpc_FINAL

Anotação

Preparação do corpus

O CRPC foi limpo com a ferramenta Ncleaner (Evert, 2008), adaptada com recurso a 200 documentos anotados, seleccionados aleatoriamente do CRPC. Foi assim possível limpar os textos de informação repetida ou não relevante (publicidade, spam).

Anotação

Os textos foram automaticamente tokenizados com o tokenizador LX (Branco & Silva, 2004), que retira sinais de pontuação e detecta fronteiras de frase.

Para a etiquetagem morfossintáctica, foi treinado o etiquetador desenvolvido por Daelemans et al. (1996) com uma versão ligeiramente adaptada da parte escrita do corpus CINTIL. O sistema de anotação usado contém um conjunto de 80 etiquetas.

Para a lematização automática, foi criada uma versão portuguesa do lematizador MBLEM (van den Bosch & Daelemans, 1999). O MBLEM atribui lemas a cada forma do corpus, aliando a pesquisa em dicionários com a aprendizagem automática. Como dicionário, foi usada a lista de lemas construída no âmbito do projecto DEP – Dicionário Electrónico do Português, coordenado no CLUL por Maria Elisa Macedo (tendo a aplicação informática sido desenvolvida por João Miguel Casteleiro).


Alinhamento das transcrições do subcorpus oral
O alinhamento de transcrições ortográficas com o sinal acústico foi realizado com o programa EXMARaLDA (Schmidt, 2004). No âmbito do projecto C-ORAL-ROM, foi ainda utilizado o programa WinPitch.

Referências bibliográficas:
van den Bosch, Antal and Walter Daelemans (1999) Memory-based morphological analysis. In Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics (ACL '99). Association for Computational Linguistics, Stroudsburg, PA, USA, 285-292.

Branco, António e João Silva (2004) Evaluating Solutions for the Rapid Development of State-of-the-Art POS Taggers for Portuguese. In Maria Teresa Lino, Maria Francisca Xavier, Fátima Ferreira, Rute Costa and Raquel Silva (orgs.), Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC2004), Paris, ELRA, ISBN 2-9517408-1-6, pp.507-510.

Evert, Stefan (2008) A lightweight and efficient tool for cleaning web pages. In 6th International Conference on Language Resources and Evaluation (LREC 2008), Marrakech, Morocco.

MBT: A Memory-Based Part of Speech Tagger-Generator. Walter Daelemans, Jakub Zavrel, Peter Berck and Steven Gillis. in: E. Ejerhed and I. Dagan (eds.) Proceedings of the Fourth Workshop on Very Large Corpora, Copenhagen, Denmark, 14-27, 1996.

Schmidt, Thomas (2004) Transcribing and annotating spoken language with EXMARaLDA. In: Proceedings of the LREC-Workshop on XML based richly annotated corpora, Lisbon 2004, Paris: ELRA.




Equipa

Amália Mendes
Maria Fernanda Bacelar do Nascimento
Luísa Alice Santos Pereira
Rita Veloso
Sandra Antunes
Michel Généreux
Iris Hendrickx


Ex-membros da equipa:
João Malaca Casteleiro
Maria Lúcia Garcia Marques
José Bettencourt Gonçalves
Raquel Amaro
Florbela Barreto
João Miguel Casteleiro
Tiago Sá


História

O projecto CRPC teve início em 1988, no CLUL. A equipa responsável por este projecto havia estado também envolvida na compilação do corpus oral Português Fundamental. Assim, o novo projecto surgiu no seguimento daquele com o objectivo de abranger textos escritos e orais. O corpus foi inicialmente pensado para ser um corpus equilibrado, mas acabou por se tornar um corpus "monitor”. Um subcorpus de 11 milhões de palavras foi inicialmente disponibilizado online para pesquisa de concordâncias e frequências através da ferramenta Concor. A totalidade do CRPC escrito está agora disponível na plataforma CQPWeb, que permite um vasto leque de opções de pesquisa (ver informação abaixo).


Agradecimentos

Financiamento
  • Fundação Calouste Gulbenkian
  • Junta Nacional de Investigação Científica e Tecnológica (JNICT) - Programa Estímulo em Ciências sociais e Humanas
  • Fundação para a Ciência e Tecnologia (FCT) - Fundos Programáticos
  • Instituto Camões
  • União Latina
  • Caixa Geral de Depósitos
  • Comissão Europeia: projectos LE-PAROLE e C-ORAL-ROM.

Entidades que disponibilizaram textos
  • Academia das Ciências de Lisboa
  • Agência Lusa
  • Assembleia da República
  • Caixa Geral de Depósitos
  • Centro de Informática do Ministério da Justiça
  • Coimbra Editora
  • DECO
  • Editora Colibri
  • Editora Nova Fronteira - Brasil
  • Editorial Verbo
  • Estação de Rádio TSF
  • Fundação Calouste Gulbenkian - Serviço de Bibliotecas e Apoio à Leitura
  • Instituto do Consumidor
  • Sociedade Bíblica Portugal
  • Jornais portugueses: A Bola, A Capital, Diário de Notícias, Diário Económico, Expresso, Jornal de Notícias, Diário do Minho, O Independente, Público
  • Jornais cabo-verdianos: A Semana, Correio Quinze, Novo Jornal
  • Procuradoria-Geral da República
  • Corpus do Português Contemporâneo (Universidade Estadual Paulista - UNESP
  • Projecto NURC-BR (São Paulo e Rio de Janeiro)
  • Projecto PEUL (Rio de Janeiro)
  • Periódicos: Grande Reportagem, Ingenium, Máxima, ProTeste, Visão; Selecções do Reader's Digest

A interface CQPweb foi projectada e desenvolvida por Andrew Hardie. Gostaríamos de lhe agradecer por nos ajudar a adaptar a interface para o Português. Agradecemos igualmente ao Grupo NLX (Natural Language and Speech) da Faculdade de Ciências da Universidade de Lisboa, coordenado por António Branco, por nos dar acesso ao programa tokenizador LX.

Agradecemos também a Thomas Schmidt por adaptar o software EXMARaLDA a formatos anteriormente usados no CLUL.



Contacto

Para qualquer questão ou sugestão relativamente ao CRPC, por favor contacte-nos através do endereço electrónico Este endereço de e-mail está protegido contra spambots. Você deve habilitar o JavaScript para visualizá-lo. .



Pesquisas online

O subcorpus escrito do CRPC, composto por 309 milhões de tokens, encontra-se disponível para pesquisas online através da interface CQPWeb.

Existem dois tipos de acesso: não registado e registado.
Apenas um pequeno conjunto de características, como criar subcorpora, requer um acesso registado.
O registo é gratuito e, para o obter, é necessário preencher um formulário de registo.

Ao usar dados do CRPC em trabalhos de investigação, por favor cite o corpus nas suas publicações. Apresenta-se, abaixo, um exemplo de citação:
"dados extraídos do Corpus de Referência do Português Contemporâneo (CRPC) do Centro de Linguística da Universidade de Lisboa – CLUL (versão 2.0 2010, através da plataforma CQPWeb no período [mês/ano])”




Disponibilidade

Subcorpora disponíveis ou recursos deles derivados
Nome do Projecto
e Descrição

Autoria
Disponível em/ in
PF - amostra publicada.
Subcorpus oral do CRPC com 106 488 palavras.
CLUL aqui
LMCPC
léxico composto por 26 980 lemas e 140 976 formas com informação morfológica e quantitativa.
CLUL, INESC
e Editorial Verbo
aqui
Português Falado - Variedades Geográficas e Sociais
86 transcrições de discursos autênticos com alinhamento com o sinal acústico.
CLUL, Univ. de Toulouse-le-Mirail e Univ. de Provence Aix-Marseille 4 Cd-Rom
editados por CLUL/Instituto Camões
Também disponíveis aqui
Subcorpus PAROLE
subcorpus composto por 3 milhões de palavras e extraído do corpus PAROLE; contém 250 000 palavras etiquetadas com informação morfossintáctica.
CLUL e INESC Catálogo ELRA
http://www.elda.fr/cata/text/W0024.html
PAROLE LEXICON
léxico composto por 20 000 unidades etiquetadas morfossintacticamente com descrição sintáctica.
CLUL, INESC
e Editorial Verbo
Catálogo ELRA
http://www.elda.fr/cata/text/L0035.html
SIMPLE
subléxico do PAROLE com 300 unidades acompanhadas de descrição semântica.
CLUL, parceria Portuguesa e Europeia http://www.ub.es/gilcub/SIMPLE/simple.html

Investigação

O CRPC foi já usado em vários trabalhos de mestrado e doutoramento conduzidos em Portugal e no estrangeiro, bem como em trabalhos de investigação como o Dicionário da Língua Portuguesa Contemporânea da Academia das Ciências de Lisboa, em que se recorreu ao CRPC como fonte de abonações. O CRPC foi ainda usado nos seguintes projectos do CLUL:
Publicações

Généreux, Michel, Amália Mendes, Maria Fernanda Bacelar do Nascimento, Luísa Pereira (2010) Lexical analysis of pre and post revolution discourse in Portugal. In Proceedings of the Third Workshop on Building Comparable Corpora, 7th International Conference on Language Resources and Evaluation (LREC 2010), Malta.

Bacelar do Nascimento, M. F. (2003), "O lugar do corpus na investigação linguística" in MENDES, A. et alii (orgs.) Actas do XVIII Encontro da Associação Portuguesa de Linguística, Lisboa, Associação Portuguesa de Linguística e Edições Colibri.

Bacelar do Nascimento, M. F. (2003), "O papel dos corpora especializados na criação de bases terminológicas" in CASTRO, I. et alii (org.) Razões e Emoção, Miscelânea de Estudo em Homenagem a Maria Helena Mira Mateus, vol. 2, Imprensa Nacional-Casa da Moeda, Lisboa, pp. 167-179.

Bacelar do Nascimento, M. F. (2001), "Les études portugaises sur la langue parlée" in CARREIRA, M. H. A. (org.) Travaux et Documents, Les langues romanes en dialogue(s), 11-2001, Université Paris 8, Vincennes Saint-Denis, pp. 209-221.

Bacelar do Nascimento, M. F. e M. A. Mota (2001), "Le Portugais dans ses variétés" in Revue Belge de Philologie et d'Histoire, 79, Fasc.3: Langues et Littératures Modernes, Société pour le Progrés des études philologiques et historiques, Bruxelles, pp. 931-952.

Bacelar do Nascimento, M. F. et alii (2001), Poster "Corpus de Referência do Português Contemporâneo" in Feira de Projectos, promovida pela Comissão Nacional do Ano Europeu das Línguas, Lisboa, Centro Cultural Casapiano, 27-30 de Setembro de 2001.

Bacelar do Nascimento, M. F., L. A. S. Pereira e J. Saramago (2000), "Portuguese Corpora at CLUL", in Second International Conference on Language Resources and Evaluation – Proceedings, Volume II, Athens, pp. 1603-1607.

Bacelar do Nascimento, M. F. (2000), "Corpus de Référence du Portugais Contemporain" in BILGER, M. (ed.) Corpus, Méthodologie et Applications Linguistiques, Paris, H. Champion et Presses Universitaires de Perpignan (2000), pp. 25-30.

Bacelar do Nascimento, M. F. (2000), "O corpus de referência do português contemporâneo e os projectos de investigação do Centro de Linguística da Universidade de Lisboa sobre variedades do português falado e escrito" in GÄRTNER, E. et alii (eds.) Estudos de Gramática Portuguesa (I), Biblioteca Luso-Brasileira, Centro do Livro e do Disco de Língua Portuguesa, Frankfurt am Main, pp. 185-200.

Bacelar do nascimento, M. F. (2000), "O Corpus Compartilhado VARPORT" in BRANDÃO, S. F. et alii (orgs.) Análise Contrastiva de Variedades do Português: Projecto de Pesquisa Luso-Brasileiro em Curso, Rio de Janeiro, UFRJ, Faculdade de Letras, Diretoria Adjunta de Cultura e Extensão / Setor Cultural, pp. 19-24.

Bacelar do Nascimento, M. F. (1999), "O Português Fundamental faz 30 anos" in FARIA, I. H. (org.) Lindley Cintra, Homenagem ao Homem, ao Mestre e ao Cidadão, Faculdade de Letras da Universidade de Lisboa, Lisboa, Cosmos, pp. 585-596.

Bacelar do Nascimento, M. F., T. Biderman (1999), "Unidade e Diversidade: o vocabulário da língua oral em Portugal e no Brasil" in MACÁRIO LOPES, A. C. et alii (orgs.) Actas do XIV Encontro da Associação Portuguesa de Linguística, Braga, APL, pp. 165-193.

Bacelar do Nascimento, M. F. (1999), Intervenção, como representante do Centro de Linguística da Universidade de Lisboa, no Debate Público "Apresentação do Perfil de Investigação Científica do Processamento Computacional da Língua Portuguesa", organizado pelo Ministério da Ciência e da Tecnologia - Observatório das Ciências e das Tecnologias, Lisboa, 17/04/1999, http://www.linguateca.pt/transcricao/Bacelar_1.html.

Bacelar do Nascimento, M. F. (1998), "Quelques resources linguistiques de base pour l'étude des variétés du portugais contemporain", Revue Française de Linguistique Appliquée, Vol. III - 1, Aspects de la diversité linguistique, Juin 1998, pp. 81-86.

Bacelar do Nascimento, M. F. (1997), "Contribuição da análise de corpora para a descrição lexicográfica", Sentido que a vida faz, estudos para Óscar Lopes, Porto, Ed. Campo das Letras, pp.734-744.

Bacelar do Nascimento, M. F. (1997), "A exploração de corpora linguísticos no ensino/aprendizagem do português", Actas do Seminário Internacional de Português como Língua Estrangeira, Macau, Maio de 1997, pp. 391-407.

Bacelar do Nascimento, M. F. (1996), "Aspectos da sintaxe do português falado (repetições lexicais e de estruturas sintácticas em produções orais: fenómenos de deslocação), Actas do Congresso Internacional sobre o Português, volume I, DUARTE, I. e I. LEIRIA (orgs.), APL, Lisboa, Junho de 1996, pp. 203-223.

Bacelar do Nascimento, M. F. (1996), "Apresentação da mesa-redonda sobre corpora linguísticos", Actas do XI Encontro Nacional da Associação Portuguesa de Linguística, volume I – Corpora, BACELAR DO NASCIMENTO, M. F., M. C. RODRIGUES e J. BETTENCOURT GONÇALVES (orgs.), APL, Lisboa, Setembro de 1996, pp. 19-20.

Bacelar do Nascimento, M. F. (1996), "Reiterações lexicais no discurso oral de Luís F. Lindley Cintra", Actas do Encontro Regional de Lisboa da Associação Portuguesa de Linguística, Homenagem ao Professor Lindley Cintra, 1988, Boletim de Filologia, tomo XXXIII-IV, 1993-96, Lisboa, CLUL-JNICT (no prelo).

Bacelar do Nascimento, M. F. (1996), "A observação e análise de dados reais na investigação e ensino de línguas", Actas do II Encontro da Associação Portuguesa dos Centros de Línguas do Ensino Superior, Universidade de Évora, Évora, Janeiro de 1996, pp.11-23.

Bacelar do Nascimento, M. F. e J. Bettencourt Gonçalves (1996), "Corpus de Referência do Português Contemporâneo (CRPC), desenvolvimento e aplicações", Actas do XI Encontro Nacional da Associação Portuguesa de Linguística, volume I – Corpora, BACELAR DO NASCIMENTO, M. F., M. C. RODRIGUES e J. BETTENCOURT GONÇALVES (orgs.), APL, Lisboa, Setembro de 1996, pp. 143-149.

Bacelar do Nascimento, M. F. (1995), "Corpus de Referência do Português Contemporâneo, a portuguese electronic corpus", Computers and the Humanities, Dordrecht, Boston, Klewer Academia Publishers, 1995 (no prelo).

Bacelar do Nascimento, M. F. (1994), "Aplicação de resultados de análises linguísticas, sobre corpora ao ensino do português, LE", Memórias do 3.º Congresso Internacional do Ensino de Português como Língua Estrangeira, Centro de Estudos Brasileiros e Universidade Nacional Autónoma de México, México, 1994, pp. 104-120.

Bacelar do Nascimento, M. F. e J. Bettencourt Gonçalves (1994), "Variação lexical no tempo e no espaço: três momentos de um Inquérito de Disponibilidade", in Variação linguística no espaço, no tempo e na sociedade, APL, Lisboa, Edições Colibri, 1994, pp. 119-145.

Bacelar do Nascimento, M. F. (1993), "Bases de referência orais e escritas do português contemporâneo", NOESIS, n.º 26, Instituto de Inovação Educacional, Lisboa, 1993, pp. 28-29.

Bacelar do Nascimento, M. F. e A. M. Martins (1993), "Construções verbais portuguesas em -se médio observadas em textos medievais e em textos contemporâneos", Actas do XIX Congresso Internacional de Linguística e Filologia Românica, A Coruña, 1993, pp. 547-562.

Bacelar do Nascimento, M. F., J. Bettencourt Gonçalves, L. Chacoto, P. Neto e L. A. S. Pereira (1993), "Ambiguidade morfológica no Português Fundamental", Actas do 1.º Encontro de Processamento de Língua Portuguesa Escrita e Falada - EPLP'93, Lisboa, INESC, UNINOVA, CLUL, 1993, pp. 101-106.

Bacelar do Nascimento, A. Mendes e D. Santos (1993), "O corpus e a classificação sintáctica dos verbos", Actas do 1.º Encontro de Processamento de Língua Portuguesa Escrita e Falada -EPLP'93, Lisboa, INESC, UNINOVA, CLUL, 1993, pp. 125-129.

Bacelar do Nascimento, M. F. e M. A. Mota (1990), "L'intérêt des données orales dans l'élaboration des dictionnaires de langue", Travaux de Linguistique, 21, DUCULOT, Paris-Louvain-la-Neuve, 1990, pp. 71-79.

Bacelar do Nascimento, M. F., L. Chacoto e P. Neto (1989), "Como escrever o oral?", Revista Internacional de Língua Portuguesa, Lisboa, Associação das Universidades de Língua Portuguesa, n.º 2, Dezembro, 1989, pp. 36-40.

Pereira, L. A. S. e M. F. Bacelar do Nascimento (2003), "Contribuição para uma tipologia dos verbos portugueses frequentes em contexto: concordâncias do verbo contar", in Como pôr os alunos a trabalhar? Experiências formativas na aula de Português, 5º Encontro Nacional da APP, Lisboa, pp. 241-251.

Pereira, L. A. S e M. F. Bacelar do Nascimento (CLUL), Callou, D. e C. Serra (UFRJ), (2003), "Sobre a posição do adjectivo no sintagma nominal no corpus VARPORT: séculos XIX e XX", XIX Encontro Nacional da APL, Lisboa (no prelo).

Pereira, L. A. S. e M. F. Bacelar do nascimento (2002), "A posição do adjectivo no sintagma nominal: duas perspectivas de análise", in Análise contrastiva de variedades do português: primeiros estudos, Rio de Janeiro, UFRJ, Faculdade Letras (no prelo)

Pereira, L. A. S. (2001), "The use of concordancing in Portuguese teaching", in How to Use Corpora in Language Teaching, TWC, Pescia (with support from the European Commission's programme for Improving Human Potential) (no prelo).

Pereira, L. A. S. (1999), "O recurso a corpora linguísticos e o contributo da abonação nos dicionários", in Actas do 2º Encontro Nacional da Associação de Professores de Português (APP), Lisboa, 16-18 de Abril de 1997, pp. 277-290.

Pereira, L. A. S. e M. F. Bacelar do Nascimento (1997), "Corpus de Referência do Português Contemporâneo", poster apresentado a Rencontres de Linguistique Appliquée, Construction et Utilisation de grands Corpus, Paris, 24-27 de Setembro de 1997.

Pereira, L. A. S. e Garcia M. (1994), "Inter de Milão-Sporting: o oral e o escrito na reportagem desportiva", in Variação linguística no espaço, no tempo e na sociedade, APL, Lisboa, Edições Colibri, 1994, pp. 43-53.




Última atualização em Qua, 07 de Maio de 2014 16:47  


Formulário de Login