|
![]() |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Pesquisa |
Início ::
Projectos
Recursos Linguísticos para o Português: um corpus e instrumentos para a sua consulta e análise
Resumo: Descrição do Projecto: Este projecto resultou na disponibilização de um corpus equilibrado de português europeu, falado e escrito, para consultas on-line na página do CLUL. O projecto também inclui a anotação morfossintáctica de um subcorpus de 500 000 palavras, financiada pela Fundação Calouste Gulbenkian.O projecto tinha como objectivo responder aos crescentes pedidos de recursos linguísticos para o português para trabalhos teóricos e práticos, no âmbito da linguística computacional, do ensino da língua e da lexicografia, entre outras áreas. O corpus é composto por 9 milhões de palavras, seleccionadas do Corpus de Referência do Português Contemporâneo (CRPC), corpus desenvolvido no CLUL com mais de 200 milhões de palavras. Os textos escritos foram extraídos de livros, jornais e revistas, e ainda de panfletos, brochuras, documentos oficiais, etc., cobrindo vários géneros (literário, informativo, científico, técnico e didáctico) numa grande diversidade temática. Constituição do corpus: O corpus final é constituído por 9 171 480 palavras, distribuídas da seguinte forma:
Fontes do corpus: As amostragens que constituem o corpus são provenientes das seguintes fontes: - Corpus oral: - Corpus escrito: Livro literário - 70 títulos de 53 Autores da Literatura Portuguesa dos séculos XIX e XX; Direitos de autor: Foram desenvolvidas negociações com os autores portugueses de obras literárias representadas no corpus, em associação com a Sociedade Portuguesa de Autores (SPA), para obter as autorizações necessárias para utilização dos respectivos textos para pesquisas de concordâncias. Anotação morfossintáctica: Um subcorpus de 500 000 palavras foi anotado morfossintacticamente e revisto manualmente. Os textos foram automaticamente anotados utilizando uma versão adaptada do etiquetador de Eric Brill, sendo que uma parte do corpus foi revista manualmente para resolução de ambiguidade e de erros. Esta parte, revista manualmente, foi usada como corpus de treino para a anotação da totalidade do conjunto das 500 000 palavras. O corpus anotado também estará disponível para consultas on-line na página do CLUL.
[topo] |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 2012 • CLUL - Centro de Linguística da Universidade de Lisboa •
Copyright
• Webmaster •
Contactos
• Design: Plasma |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||