|
![]() |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Pesquisa |
Início ::
Projectos
Léxico Multifuncional Computorizado do Português Contemporâneo
Resumo: Na sequência deste projecto, o português europeu conta agora com um Léxico de Frequências de 26.443 vocábulos, e das 140.315 formas lematizadas desses vocábulos, extraído de um corpus muito significativo (16.210.438 palavras1) do português contemporâneo; as entradas lexicais que o constituem atingiram, no corpus, frequências iguais ou superiores a 6. Cada entrada lexical (vocábulo) é seguida de informação gramatical (categoria morfossintáctica) e de informação quantitativa (nível de ocorrência no corpus). As mesmas informações são dadas para todas as formas lexicais (formas flexionadas e alguns compostos) de cada vocábulo. As indexações do léxico são feitas por ordem alfabética e por ordem de frequências decrescentes. DESCRIÇÃO DO PROJECTOO corpus
(Romances, Novelas, Contos, Poesia, Memórias e Teatro de autores portugueses)
Constituição do corpus oral (856.195 palavras) O corpus oral é constituído pela transcrição ortográfica do registo magnético de conversas informais e de produções mais formais (conferências, entrevistas na rádio e na televisão, etc.).
A extracção do léxico (1ª fase) A primeira operação de extracção do léxico consistiu na indexação de todas as formas lexicais diferentes que ocorreram no CORLEX. Observou-se, então, que em 16.210.438 ocorrências se registaram 283.530 formas diferentes. A forma que atinge maior Frequência é a forma "de" e 128.383 formas têm Frequência 1. Todas estas formas foram automaticamente etiquetadas (etiquetagem morfossintáctica) e lematizadas, utilizando-se para tal o analisador automático PALAVROSO, ferramenta pertencente ao INESC (esta ferramenta é usada também no CLUL, tendo sido cedida a esta instituição por permuta com um corpus de treino, ao abrigo de um protocolo de intercâmbio estabelecido em 6 de Janeiro de 1992 entre as duas instituições). As etiquetas atribuídas a cada forma dizem respeito às categorias morfossintácticas teoricamente atribuíveis a essas formas. Tendo em conta todas essas possibilidades de categorização, a lematização feita automaticamente originou 39.696 lemas (vocábulos). Seguidamente, procedeu-se, no CLUL, a uma verificação manual das etiquetas atribuídas a todas as formas que integravam lemas com uma frequência de ocorrência teórica superior a 6. Nesta verificação seguiram-se os critérios de classificação e de lematização utilizados no Projecto Português Fundamental (Cfr. Português Fundamental, Métodos e Documentos, Vol. I, Inquérito de Frequência, INIC-CLUL, Lisboa, 1987, pp. 358-391). Feitas estas verificações, procedeu-se a nova lematização teórica que veio a dar os seguintes resultados:
A desambiguação das formas homógrafas foi realizada segundo procedimentos vários. O INESC construiu o seguinte software específico para a execução do projecto: o Sistema Interactivo de Desambiguação de Corpora denominado DESAMBIG e as ferramentas integradas no ENCONTRA&ESTATIC. Como base para cálculos estatísticos, cálculos de probabilidades e extracção automática de regras foi utilizado o Subcorpus Anotado PAROLE (anotado pelo INESC com o analisador morfológico PALAVROSO e desambiguado por uma equipa CLUL/INESC, que utilizou o DESAMBIG como ferramenta auxiliar da análise manual das formas em contexto). O INESC correu sobre o CORLEX o programa Eric Brill's Tagger para desambiguação automática. Paralelamente à desambiguação automática, procedeu-se, no CLUL, à desambiguação manual de formas ambíguas inexistentes no corpus anotado PAROLE - 335.637 contextos analisados - e a um grande número de análises e verificações manuais de formas cuja frequência e/ou categoria gramatical suscitou dúvidas - mais de 2.000.000 de formas em contexto. Reunidos todos os dados atrás mencionados resultantes da desambiguação automática (INESC) e da desambiguação e verificações manuais (CLUL), procedeu-se à indexação final do léxico. Classificação morfossintáctica do léxico Os itens lexicais (lemas e formas) constituintes do léxico são seguidos dos códigos de classificação que a seguir se apresentam.
Informação quantitativa O INESC realizou cálculos probabilísticos para determinação das frequências de ocorrência no CORLEX, tomando como base os dados obtidos para o subcorpus PAROLE desambiguado. A partir destes cálculos e das desambiguações manuais efectuadas no CLUL, obtiveram-se os dados quantitativos relativos aos lemas considerados no Léxico, ou seja, aqueles cuja Frequência é igual ou ultrapassa o limiar estabelecido (F6). Assim, junto de cada entrada e de cada forma dessa entrada é apresentada uma aproximação do seu número de ocorrências. Uma vez que o intervalo de variação de ocorrência é muito grande, quer para as entradas, quer para as formas, utilizou-se uma escala logarítmica, a partir do logaritmo de base 10 (log10/2), para se obter uma distribuição mais uniforme dos dados quantitativos. Estes dados são representados por sequências de caracteres gráficos que indicam os seguintes valores: Patamares de Frequência (log10/2):
[topo] |
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 2012 • CLUL - Centro de Linguística da Universidade de Lisboa •
Copyright
• Webmaster •
Contactos
• Design: Plasma |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||