Pesquisa

Início :: Projectos
Léxico Multifuncional Computorizado do Português Contemporâneo

Parcerias:
Centro de Linguística da Universidade de Lisboa (instituição proponente)
INESC - Instituto de Engenharia de Sistemas e Computadores (participante)
Editorial Verbo (participante)
Istituto di Linguistica Computazionale del CNR – ILC – Pisa (consultor)

Equipa do CLUL:
Maria Fernanda Bacelar do Nascimento (coordenadora científica)
João Malaca Casteleiro (investigador responsável)
Maria Lúcia Garcia Marques  
Florbela Barreto (bolseira)
Raquel Amaro (bolseira)
Rita Veloso  (bolseira)

Financiamento:
JNICT / FCT – Programa PRAXIS XXI (Contrato 2/2.1/CSH/759/95)

Estado do Projecto:
Concluído

Resumo:

Na sequência deste projecto, o português europeu conta agora com um Léxico de Frequências de 26.443 vocábulos, e das 140.315 formas lematizadas desses vocábulos, extraído de um corpus muito significativo (16.210.438 palavras1) do português contemporâneo; as entradas lexicais que o constituem atingiram, no corpus, frequências iguais ou superiores a 6. Cada entrada lexical (vocábulo) é seguida de informação gramatical (categoria morfossintáctica) e de informação quantitativa (nível de ocorrência no corpus). As mesmas informações são dadas para todas as formas lexicais (formas flexionadas e alguns compostos) de cada vocábulo. As indexações do léxico são feitas por ordem alfabética e por ordem de frequências decrescentes.

DESCRIÇÃO DO PROJECTO

O corpus
Para a realização do projecto, o CLUL desenhou e extraiu do seu corpus monitor Corpus de Referência do Português Contemporâneo (CRPC)2 um corpus de 16.210.438 palavras - o CORLEX, que contém um subcorpus de língua escrita (15.354.243 palavras) e um subcorpus de língua falada (856.195 palavras).
Do CORLEX fazem parte textos orais e escritos que cobrem uma grande variedade de tipos de linguagem, sendo a diversidade de géneros e de matérias uma dominante deste corpus. A maior proporção do corpus jornalístico (56% do corpus escrito e 53% do corpus total) teve em vista o predomínio, no corpus, de uma linguagem comum e a cobertura de uma enorme diversidade de temas.
Constituição do corpus escrito (15.354.243 palavras)
Uma parte deste corpus é constituída por materiais cedidos ao CLUL pela editorial VERBO, membro da parceria deste Projecto.

Gráfico Distribuição por Género

As recolhas foram feitas em diversas Fontes, sendo o corpus constituído por amostragens dos títulos seleccionados.

Fontes do subcorpus jornalístico

Jornais
Nº de títulos de jornais
Datas
Nº de exemplares
Nº de artigos
3 1997 e 1998 105
13.085
Revistas
Nº de títulos de jornais
Datas
Nº de exemplares
Nº de artigos
3 1992 a 1997 105
13.085

Fontes do subcorpus literário
(Romances, Novelas, Contos, Poesia, Memórias e Teatro de autores portugueses)

Nº de Autores
Nº de Títulos
Datas
135 186 séc. XIX (2ª metade): 11 autores; 14 títulos
séc. XX: 124 autores; 172 títulos

Fontes do subcorpus Científico, Técnico e Didáctico3

Nº de Autores4
Nº de Títulos
Datas
91
livro científico e técnico - 68
livro didáctico - 23
93
livro científico e técnico - 68
livro didáctico - 25
1980 - 1993

Fontes do subcorpus "Miscelânea"

Tipo de documento
Nº de textos/artigos
Datas
Jornais e revistas especializados 347 1900 - 1997
Outros documentos 30

Constituição do corpus oral (856.195 palavras)

O corpus oral é constituído pela transcrição ortográfica do registo magnético de conversas informais e de produções mais formais (conferências, entrevistas na rádio e na televisão, etc.).

Tipo de discurso
Nº de palavras
Nº de textos
Datas
espontâneo 752.394 1409
Décadas de 1970 e 1990
formal 103.801 150
Década de 1980

O Léxico

 

A extracção do léxico (1ª fase)
A primeira operação de extracção do léxico consistiu na indexação de todas as formas lexicais diferentes que ocorreram no CORLEX. Observou-se, então, que em 16.210.438 ocorrências se registaram 283.530 formas diferentes. A forma que atinge maior Frequência é a forma "de" e 128.383 formas têm Frequência 1.
Todas estas formas foram automaticamente etiquetadas (etiquetagem morfossintáctica) e lematizadas, utilizando-se para tal o analisador automático PALAVROSO, ferramenta pertencente ao INESC (esta ferramenta é usada também no CLUL, tendo sido cedida a esta instituição por permuta com um corpus de treino, ao abrigo de um protocolo de intercâmbio estabelecido em 6 de Janeiro de 1992 entre as duas instituições). As etiquetas atribuídas a cada forma dizem respeito às categorias morfossintácticas teoricamente atribuíveis a essas formas. Tendo em conta todas essas possibilidades de categorização, a lematização feita automaticamente originou 39.696 lemas (vocábulos).
Seguidamente, procedeu-se, no CLUL, a uma verificação manual das etiquetas atribuídas a todas as formas que integravam lemas com uma frequência de ocorrência teórica superior a 6. Nesta verificação seguiram-se os critérios de classificação e de lematização utilizados no Projecto Português Fundamental (Cfr. Português Fundamental, Métodos e Documentos, Vol. I, Inquérito de Frequência, INIC-CLUL, Lisboa, 1987, pp. 358-391).
Feitas estas verificações, procedeu-se a nova lematização teórica que veio a dar os seguintes resultados:

Número de lemas com Frequência superior a 6
Número de formas diferentes
Número de formas homógrafas
26.443
140.315
44.773
Desambiguação

 

A desambiguação das formas homógrafas foi realizada segundo procedimentos vários. O INESC construiu o seguinte software específico para a execução do projecto: o Sistema Interactivo de Desambiguação de Corpora denominado DESAMBIG e as ferramentas integradas no ENCONTRA&ESTATIC.
Como base para cálculos estatísticos, cálculos de probabilidades e extracção automática de regras foi utilizado o Subcorpus Anotado PAROLE (anotado pelo INESC com o analisador morfológico PALAVROSO e desambiguado por uma equipa CLUL/INESC, que utilizou o DESAMBIG como ferramenta auxiliar da análise manual das formas em contexto).
O INESC correu sobre o CORLEX o programa Eric Brill's Tagger para desambiguação automática. Paralelamente à desambiguação automática, procedeu-se, no CLUL, à desambiguação manual de formas ambíguas inexistentes no corpus anotado PAROLE - 335.637 contextos analisados - e a um grande número de análises e verificações manuais de formas cuja frequência e/ou categoria gramatical suscitou dúvidas - mais de 2.000.000 de formas em contexto.
Reunidos todos os dados atrás mencionados resultantes da desambiguação automática (INESC) e da desambiguação e verificações manuais (CLUL), procedeu-se à indexação final do léxico.

 

Classificação morfossintáctica do léxico

 

Os itens lexicais (lemas e formas) constituintes do léxico são seguidos dos códigos de classificação que a seguir se apresentam.

Nome
Verbo
Adjectivo
Pronome e Pronome adjunto
Artigo
Advérbio
Preposição
Conjunção
Numeral
Interjeição
Estrangeirismo
Abreviatura
Acrónimo/Sigla
Símbolo
Se medio-passivo
Elemento de locução
Partícula enfática
Elemento deslocado
Grafia não-convencional
Contracção
Cabeça de lema
Cabeça de lema reconstituída
   por não ter ocorrido no corpus
Forma reconstituída
N
V
A
P
T
R
S
C
M
I
F
X
G
B
U
L
E
_d
*
+
@
[]

<>

As formas com ortografias diferentes das que estão actualmente em vigor foram incluídas nos respectivos lemas, seguidas de asterisco. Nos casos em que essas grafias desviantes originaram homografia, as formas foram analisadas em contexto.

 

Informação quantitativa
O INESC realizou cálculos probabilísticos para determinação das frequências de ocorrência no CORLEX, tomando como base os dados obtidos para o subcorpus PAROLE desambiguado.
A partir destes cálculos e das desambiguações manuais efectuadas no CLUL, obtiveram-se os dados quantitativos relativos aos lemas considerados no Léxico, ou seja, aqueles cuja Frequência é igual ou ultrapassa o limiar estabelecido (F6).
Assim, junto de cada entrada e de cada forma dessa entrada é apresentada uma aproximação do seu número de ocorrências. Uma vez que o intervalo de variação de ocorrência é muito grande, quer para as entradas, quer para as formas, utilizou-se uma escala logarítmica, a partir do logaritmo de base 10 (log10/2), para se obter uma distribuição mais uniforme dos dados quantitativos. Estes dados são representados por sequências de caracteres gráficos que indicam os seguintes valores:

Patamares de Frequência (log10/2):

Lemas:
f16 - 10
f1211 - 31
f1832 - 100
f19101 - 316
f20317 - 1.000
f211.001 - 3.162
f223.163 - 10.000
f2310.001 - 31.622
f2431.623 - 100.000
f2100.001 - 316.227
f3316.228 - 1.000.000
f41.000.001 - 3.162.277
    Formas:
f50 - 5
f66 - 10
f711 - 31
f832 - 100
f9101 - 316
f10317 - 1.000
f111.001 - 3.162
f133.163 - 10.000
f1410.001 - 31.622
f1531.623 - 100.000
f16100.001 - 316.227
f17316.228 - 1.000.000

Indexação do Léxico por ordem alfabética:
A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z
 
Indexação do Léxico por ordem de frequências decrescentes:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12
 
Indexação do Léxico, com frequência numérica, por ordem alfabética:
lmcpc_alf.txt
 
Indexação do Léxico, com frequência numérica, por ordem de frequências decrescentes:
lmcpc_dec.txt
  1. Em todos os casos em que se refere a dimensão do corpus, palavra é sinónimo de ocorrência.
  2. Corpus aberto em contínuo desenvolvimento. À data da conclusão do Léxico (2000), o CRPC continha 150 milhões de palavras.
  3. Níveis de ensino a que se reportam os livros didácticos: 5º a 11º ano de escolaridade.
  4. Autorias colectivas foram contabilizadas como um só autor.


Publicações:

Bacelar do Nascimento, M. F. (2001), "Um novo léxico de frequências do português" in Volume de Homenagem ao Professor Herculano de Carvalho (no prelo).

Bacelar do Nascimento, M. F. et alii (2001), Poster "Léxico Multifuncional Computorizado do Português Contemporâneo" in Feira de Projectos, promovida pela Comissão Nacional do Ano Europeu das Línguas, Lisboa, Centro Cultural Casapiano, 27-30 de Setembro.

Bacelar do Nascimento, M. F., L. A. S. Pereira e J. Saramago (2000)"Portuguese Corpora at CLUL", in Second International Conference on Language Resources and Evaluation – Proceedings, Volume II, Athens: 1603-1607.



[topo]




Imprimir

  2012  •  CLUL - Centro de Linguística da Universidade de Lisboa  •   Copyright   •  Webmaster  •   Contactos   •  Design: Plasma