Reference Corpus of Contemporary Portuguese (CRPC)

E-mail Print PDF

version 2.0 2010

The CRPC is a large electronic corpus of European Portuguese and other varieties (Brazil, Angola, Cape Verde, Guinea-Bissau, Mozambique, S. Tome and Principe, Goa, Macao and East-Timor). It contains 311,4 million words and covers several types of written texts (literary, newspaper, technical, etc.) and spoken texts (formal and informal).
The written subpart of the CRPC (309 M) can be searched online, and subparts of the corpus are available for download or for purchase on the ELDA catalogue.

Constitution Team Online queries Research
Annotation History Availability Publications
Acknowledgements Contact



Constitution

The CRPC contains 309,8M words of written texts and 1,6M words of spoken recordings and transcriptions.

It is called a ‘reference’ corpus in the sense that written texts are sampled before inclusion in the corpus.

Text types
The CRPC covers several types of written texts: literary, newspaper, technical, scientific, didactic, leaflets, decisions of the supreme court of justice, parliament sessions, etc.
The CRPC includes a spoken subpart of both formal and informal speech. It covers different types of spoken interaction: monologues, dialogues, conversations, phone conversations, lectures, homilies, etc.

Time
The CRPC contains texts from the second half of the 19th century up until 2006, but most of the texts have been produced after 1970.

Portuguese varieties
The texts included in the CRPC are mainly of European Portuguese, but also from other national varieties of Portuguese in the world: Brazilian, African (Angola, Cape Verde, Guinea-Bissau, Mozambique and Sao Tome and Principe) and Asiatic Portuguese (Macao, Goa and East-Timor).

The map below signals all the varieties covered by the CRPC and gives information on the number of tokens for each one.
For information on the distribution of spoken and written texts per variety, see this table.


mapa_crpc_FINAL

Annotation

Cleaning the corpus

The CRPC was cleaned using Ncleaner (Evert, 2008). With this approach, the texts are first cleared of all boilerplate material using simple rules. A language model is then used to free the text from irrelevant segments (adverts, spams). Our language model was built using 200 annotated documents picked randomly from the CRPC.

Annotation

The texts are automatically tokenized using the LX tokenizer (Branco and Silva, 2004) which removes punctuation marks from words and detects sentence boundaries.

For part-of-speech tagging we trained a memory-based tagger (Daelemans et al, 1996) on a slightly adapted version of the written part of the CINTIL corpus. We use a tag set of 80 different tags.

For automatic lemmatization, we created a Portuguese version of the MBLEM lemmatizer (van den Bosch and Daelemans, 1999). MBLEM combines a dictionary lookup with machine learning to assign root forms to words. As dictionary we used the lemma list produced in the project DEP - Electronic Dictionary of Portuguese, coordinated at CLUL by Maria Elisa Macedo (the computational application was developed by João Miguel Casteleiro).


Text-to-sound alignment of the spoken subcorpus
The spoken subcorpus has been text-to-sound aligned with the software EXMARaLDA (Schmidt, 2004). A previous subset (project C-ORAL-ROM) used the alignment software WinPitch.

References:
van den Bosch, Antal and Walter Daelemans (1999) Memory-based morphological analysis. In Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics (ACL '99). Association for Computational Linguistics, Stroudsburg, PA, USA, 285-292.

Branco, António e João Silva (2004) Evaluating Solutions for the Rapid Development of State-of-the-Art POS Taggers for Portuguese. In Maria Teresa Lino, Maria Francisca Xavier, Fátima Ferreira, Rute Costa and Raquel Silva (orgs.), Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC2004), Paris, ELRA, ISBN 2-9517408-1-6, pp.507-510.

Evert, Stefan (2008) A lightweight and efficient tool for cleaning web pages. In 6th International Conference on Language Resources and Evaluation (LREC 2008), Marrakech, Morocco.

MBT: A Memory-Based Part of Speech Tagger-Generator. Walter Daelemans, Jakub Zavrel, Peter Berck and Steven Gillis. in: E. Ejerhed and I. Dagan (eds.) Proceedings of the Fourth Workshop on Very Large Corpora, Copenhagen, Denmark, 14-27, 1996.

Schmidt, Thomas (2004) Transcribing and annotating spoken language with EXMARaLDA. In: Proceedings of the LREC-Workshop on XML based richly annotated corpora, Lisbon 2004, Paris: ELRA.




Team

Amália Mendes
Maria Fernanda Bacelar do Nascimento
Luísa Alice Santos Pereira
Rita Veloso
Sandra Antunes
Michel Généreux
Iris Hendrickx


Former team members:
João Malaca Casteleiro
Maria Lúcia Garcia Marques
José Bettencourt Gonçalves
Raquel Amaro
Florbela Barreto
João Miguel Casteleiro
Tiago Sá


History

The CRPC project started in 1988, at CLUL. The team had previously been involved in the compilation of the spoken corpus Português Fundamental and the new project was a natural follow-up to cover both spoken and written texts.
The corpus was initially planned to be balanced but later evolved into a monitor corpus. A subcorpus of 11 million words was made available for the search of concordances and frequencies and has been replaced by the CQPWeb platform, which enables a large set of search options.


Acknowledgements

Funding
  • Fundação Calouste Gulbenkian
  • Junta Nacional de Investigação Científica e Tecnológica (JNICT) - Programme Estímulo em Ciências sociais e Humanas
  • Fundação para a Ciência e Tecnologia (FCT) - Fundos Programáticos
  • Instituto Camões
  • União Latina
  • Caixa Geral de Depósitos
  • European Commission: LE-PAROLE and C-ORAL-ROM projects.

Data suppliers
  • Academia das Ciências de Lisboa
  • Agência Lusa
  • Assembleia da República
  • Caixa Geral de Depósitos
  • Centro de Informática do Ministério da Justiça
  • Coimbra Editora
  • DECO
  • Editora Colibri
  • Editora Nova Fronteira - Brasil
  • Editorial Verbo
  • Estação de Rádio TSF
  • Fundação Calouste Gulbenkian - Serviço de Bibliotecas e Apoio à Leitura
  • Instituto do Consumidor
  • Sociedade Bíblica Portugal
  • Portuguese newspapers: A Bola, A Capital, Diário de Notícias, Diário Económico, Expresso, Jornal de Notícias, Diário do Minho, O Independente, Público
  • Cape Verdean newspapers: A Semana, Correio Quinze, Novo Jornal
  • Procuradoria-Geral da República
  • Corpus do Português Contemporâneo (Universidade Estadual Paulista - UNESP
  • NURC-BR project (São Paulo e Rio de Janeiro)
  • PEUL project (Rio de Janeiro)
  • Periodical: Grande Reportagem, Ingenium, Máxima, ProTeste, Visão; Selecções do Reader's Digest

The CQPweb interface was designed and developed by Andrew Hardie. We would like to thank Andrew for helping us adapting the interface for Portuguese. We thank the NLX Group (Natural Language and Speech) at the Faculty of Sciences of the University of Lisbon, coordinated by António Branco, for granting us access to their LX-Tokenizer.

We would also like to thank Thomas Schmidt for adapting the EXMARaLDA software to previous formats used at CLUL.



Contact

If you have any question or suggestion concerning CRPC, please contact us at This e-mail address is being protected from spambots. You need JavaScript enabled to view it .



Online queries

The written subpart of CRPC, composed of 309M tokens, is available to be searched online through CQPWeb.

There are two different types of access: non registered and registered.
Only a small set of features, like creating subcorpora, require a registered access.
Registering is free and requires filling in a registration form.

When using data from the CRPC for your research, please mention the corpus in your publications. Here is a possible citation:
"data retrieved from the Reference Corpus of Contemporary Portuguese (CRPC) of the Centre of Linguistics of the University of Lisbon - CLUL (version 2.0, 2010, using CQPWeb in the period [month/year])"




Availability

Available subcorpora or derived resources
Project Name
and Description

Authorship
Available at/ in
PF - published sample.
A spoken CRPC subcorpus of 106 488 words.
CLUL here
LMCPC
A 26 980 lemma and 140 976 form lexicon with morphological and quantitative information.
CLUL, INESC
and Editorial Verbo
here
Português Falado - Variedades Geográficas e Sociais
86 authentic speech texts with sound/text alignment
CLUL, Univ. de Toulouse-le-Mirail and Univ. de Provence Aix-Marseille 4 Cd-Rom
edited by CLUL/Instituto Camões
Also available here
PAROLE Subcorpus
A 3 million word subcorpus extracted from the PAROLE corpus, containing 250 000 morphosyntactic tagged words.
CLUL and INESC ELRA catalog
http://www.elda.fr/cata/text/W0024.html
PAROLE LEXICON
A 20 000 morphosyntactic tagged unit lexicon with syntactic description.
CLUL, INESC
and Editorial Verbo
ELRA catalog
http://www.elda.fr/cata/text/L0035.html
SIMPLE
A 300 unit PAROLE sub-lexicon with semantic description.
CLUL, Portuguese and European partnership http://www.ub.es/gilcub/SIMPLE/simple.html

Research

The CRPC has been used in many MA and Ph.D studies carried out in Portugal and abroad, and in research projects such as the Dicionário da Língua Portuguesa Contemporânea of the Academia das Ciências de Lisboa, which used the CRPC as a source of quotations. It was also used in the following projects at CLUL:
Publications

Généreux, Michel, Amália Mendes, Maria Fernanda Bacelar do Nascimento, Luísa Pereira (2010) Lexical analysis of pre and post revolution discourse in Portugal. In Proceedings of the Third Workshop on Building Comparable Corpora, 7th International Conference on Language Resources and Evaluation (LREC 2010), Malta.

Bacelar do Nascimento, M. F. (2003), "O lugar do corpus na investigação linguística" in MENDES, A. et alii (orgs.) Actas do XVIII Encontro da Associação Portuguesa de Linguística, Lisboa, Associação Portuguesa de Linguística e Edições Colibri.

Bacelar do Nascimento, M. F. (2003), "O papel dos corpora especializados na criação de bases terminológicas" in CASTRO, I. et alii (org.) Razões e Emoção, Miscelânea de Estudo em Homenagem a Maria Helena Mira Mateus, vol. 2, Imprensa Nacional-Casa da Moeda, Lisboa, pp. 167-179.

Bacelar do Nascimento, M. F. (2001), "Les études portugaises sur la langue parlée" in CARREIRA, M. H. A. (org.) Travaux et Documents, Les langues romanes en dialogue(s), 11-2001, Université Paris 8, Vincennes Saint-Denis, pp. 209-221.

Bacelar do Nascimento, M. F. e M. A. Mota (2001), "Le Portugais dans ses variétés" in Revue Belge de Philologie et d'Histoire, 79, Fasc.3: Langues et Littératures Modernes, Société pour le Progrés des études philologiques et historiques, Bruxelles, pp. 931-952.

Bacelar do Nascimento, M. F. et alii (2001), Poster "Corpus de Referência do Português Contemporâneo" in Feira de Projectos, promovida pela Comissão Nacional do Ano Europeu das Línguas, Lisboa, Centro Cultural Casapiano, 27-30 de Setembro de 2001.

Bacelar do Nascimento, M. F., L. A. S. Pereira e J. Saramago (2000), "Portuguese Corpora at CLUL", in Second International Conference on Language Resources and Evaluation – Proceedings, Volume II, Athens, pp. 1603-1607.

Bacelar do Nascimento, M. F. (2000), "Corpus de Référence du Portugais Contemporain" in BILGER, M. (ed.) Corpus, Méthodologie et Applications Linguistiques, Paris, H. Champion et Presses Universitaires de Perpignan (2000), pp. 25-30.

Bacelar do Nascimento, M. F. (2000), "O corpus de referência do português contemporâneo e os projectos de investigação do Centro de Linguística da Universidade de Lisboa sobre variedades do português falado e escrito" in GÄRTNER, E. et alii (eds.) Estudos de Gramática Portuguesa (I), Biblioteca Luso-Brasileira, Centro do Livro e do Disco de Língua Portuguesa, Frankfurt am Main, pp. 185-200.

Bacelar do nascimento, M. F. (2000), "O Corpus Compartilhado VARPORT" in BRANDÃO, S. F. et alii (orgs.) Análise Contrastiva de Variedades do Português: Projecto de Pesquisa Luso-Brasileiro em Curso, Rio de Janeiro, UFRJ, Faculdade de Letras, Diretoria Adjunta de Cultura e Extensão / Setor Cultural, pp. 19-24.

Bacelar do Nascimento, M. F. (1999), "O Português Fundamental faz 30 anos" in FARIA, I. H. (org.) Lindley Cintra, Homenagem ao Homem, ao Mestre e ao Cidadão, Faculdade de Letras da Universidade de Lisboa, Lisboa, Cosmos, pp. 585-596.

Bacelar do Nascimento, M. F., T. Biderman (1999), "Unidade e Diversidade: o vocabulário da língua oral em Portugal e no Brasil" in MACÁRIO LOPES, A. C. et alii (orgs.) Actas do XIV Encontro da Associação Portuguesa de Linguística, Braga, APL, pp. 165-193.

Bacelar do Nascimento, M. F. (1999), Intervenção, como representante do Centro de Linguística da Universidade de Lisboa, no Debate Público "Apresentação do Perfil de Investigação Científica do Processamento Computacional da Língua Portuguesa", organizado pelo Ministério da Ciência e da Tecnologia - Observatório das Ciências e das Tecnologias, Lisboa, 17/04/1999, http://www.linguateca.pt/transcricao/Bacelar_1.html.

Bacelar do Nascimento, M. F. (1998), "Quelques resources linguistiques de base pour l'étude des variétés du portugais contemporain", Revue Française de Linguistique Appliquée, Vol. III - 1, Aspects de la diversité linguistique, Juin 1998, pp. 81-86.

Bacelar do Nascimento, M. F. (1997), "Contribuição da análise de corpora para a descrição lexicográfica", Sentido que a vida faz, estudos para Óscar Lopes, Porto, Ed. Campo das Letras, pp.734-744.

Bacelar do Nascimento, M. F. (1997), "A exploração de corpora linguísticos no ensino/aprendizagem do português", Actas do Seminário Internacional de Português como Língua Estrangeira, Macau, Maio de 1997, pp. 391-407.

Bacelar do Nascimento, M. F. (1996), "Aspectos da sintaxe do português falado (repetições lexicais e de estruturas sintácticas em produções orais: fenómenos de deslocação), Actas do Congresso Internacional sobre o Português, volume I, DUARTE, I. e I. LEIRIA (orgs.), APL, Lisboa, Junho de 1996, pp. 203-223.

Bacelar do Nascimento, M. F. (1996), "Apresentação da mesa-redonda sobre corpora linguísticos", Actas do XI Encontro Nacional da Associação Portuguesa de Linguística, volume I – Corpora, BACELAR DO NASCIMENTO, M. F., M. C. RODRIGUES e J. BETTENCOURT GONÇALVES (orgs.), APL, Lisboa, Setembro de 1996, pp. 19-20.

Bacelar do Nascimento, M. F. (1996), "Reiterações lexicais no discurso oral de Luís F. Lindley Cintra", Actas do Encontro Regional de Lisboa da Associação Portuguesa de Linguística, Homenagem ao Professor Lindley Cintra, 1988, Boletim de Filologia, tomo XXXIII-IV, 1993-96, Lisboa, CLUL-JNICT (no prelo).

Bacelar do Nascimento, M. F. (1996), "A observação e análise de dados reais na investigação e ensino de línguas", Actas do II Encontro da Associação Portuguesa dos Centros de Línguas do Ensino Superior, Universidade de Évora, Évora, Janeiro de 1996, pp.11-23.

Bacelar do Nascimento, M. F. e J. Bettencourt Gonçalves (1996), "Corpus de Referência do Português Contemporâneo (CRPC), desenvolvimento e aplicações", Actas do XI Encontro Nacional da Associação Portuguesa de Linguística, volume I – Corpora, BACELAR DO NASCIMENTO, M. F., M. C. RODRIGUES e J. BETTENCOURT GONÇALVES (orgs.), APL, Lisboa, Setembro de 1996, pp. 143-149.

Bacelar do Nascimento, M. F. (1995), "Corpus de Referência do Português Contemporâneo, a portuguese electronic corpus", Computers and the Humanities, Dordrecht, Boston, Klewer Academia Publishers, 1995 (no prelo).

Bacelar do Nascimento, M. F. (1994), "Aplicação de resultados de análises linguísticas, sobre corpora ao ensino do português, LE", Memórias do 3.º Congresso Internacional do Ensino de Português como Língua Estrangeira, Centro de Estudos Brasileiros e Universidade Nacional Autónoma de México, México, 1994, pp. 104-120.

Bacelar do Nascimento, M. F. e J. Bettencourt Gonçalves (1994), "Variação lexical no tempo e no espaço: três momentos de um Inquérito de Disponibilidade", in Variação linguística no espaço, no tempo e na sociedade, APL, Lisboa, Edições Colibri, 1994, pp. 119-145.

Bacelar do Nascimento, M. F. (1993), "Bases de referência orais e escritas do português contemporâneo", NOESIS, n.º 26, Instituto de Inovação Educacional, Lisboa, 1993, pp. 28-29.

Bacelar do Nascimento, M. F. e A. M. Martins (1993), "Construções verbais portuguesas em -se médio observadas em textos medievais e em textos contemporâneos", Actas do XIX Congresso Internacional de Linguística e Filologia Românica, A Coruña, 1993, pp. 547-562.

Bacelar do Nascimento, M. F., J. Bettencourt Gonçalves, L. Chacoto, P. Neto e L. A. S. Pereira (1993), "Ambiguidade morfológica no Português Fundamental", Actas do 1.º Encontro de Processamento de Língua Portuguesa Escrita e Falada - EPLP'93, Lisboa, INESC, UNINOVA, CLUL, 1993, pp. 101-106.

Bacelar do Nascimento, A. Mendes e D. Santos (1993), "O corpus e a classificação sintáctica dos verbos", Actas do 1.º Encontro de Processamento de Língua Portuguesa Escrita e Falada -EPLP'93, Lisboa, INESC, UNINOVA, CLUL, 1993, pp. 125-129.

Bacelar do Nascimento, M. F. e M. A. Mota (1990), "L'intérêt des données orales dans l'élaboration des dictionnaires de langue", Travaux de Linguistique, 21, DUCULOT, Paris-Louvain-la-Neuve, 1990, pp. 71-79.

Bacelar do Nascimento, M. F., L. Chacoto e P. Neto (1989), "Como escrever o oral?", Revista Internacional de Língua Portuguesa, Lisboa, Associação das Universidades de Língua Portuguesa, n.º 2, Dezembro, 1989, pp. 36-40.

Pereira, L. A. S. e M. F. Bacelar do Nascimento (2003), "Contribuição para uma tipologia dos verbos portugueses frequentes em contexto: concordâncias do verbo contar", in Como pôr os alunos a trabalhar? Experiências formativas na aula de Português, 5º Encontro Nacional da APP, Lisboa, pp. 241-251.

Pereira, L. A. S e M. F. Bacelar do Nascimento (CLUL), Callou, D. e C. Serra (UFRJ), (2003), "Sobre a posição do adjectivo no sintagma nominal no corpus VARPORT: séculos XIX e XX", XIX Encontro Nacional da APL, Lisboa (no prelo).

Pereira, L. A. S. e M. F. Bacelar do nascimento (2002), "A posição do adjectivo no sintagma nominal: duas perspectivas de análise", in Análise contrastiva de variedades do português: primeiros estudos, Rio de Janeiro, UFRJ, Faculdade Letras (no prelo)

Pereira, L. A. S. (2001), "The use of concordancing in Portuguese teaching", in How to Use Corpora in Language Teaching, TWC, Pescia (with support from the European Commission's programme for Improving Human Potential) (no prelo).

Pereira, L. A. S. (1999), "O recurso a corpora linguísticos e o contributo da abonação nos dicionários", in Actas do 2º Encontro Nacional da Associação de Professores de Português (APP), Lisboa, 16-18 de Abril de 1997, pp. 277-290.

Pereira, L. A. S. e M. F. Bacelar do Nascimento (1997), "Corpus de Referência do Português Contemporâneo", poster apresentado a Rencontres de Linguistique Appliquée, Construction et Utilisation de grands Corpus, Paris, 24-27 de Setembro de 1997.

Pereira, L. A. S. e Garcia M. (1994), "Inter de Milão-Sporting: o oral e o escrito na reportagem desportiva", in Variação linguística no espaço, no tempo e na sociedade, APL, Lisboa, Edições Colibri, 1994, pp. 43-53.




Last Updated on Wednesday, 12 March 2014 16:56  


Login Form