Pesquisa

Início :: Projectos
Corpus Dialectal para o Estudo da Sintaxe (CORDIAL-SIN)

Descrição do Projecto :

O projecto Corpus Dialectal para o Estudo da Sintaxe (CORDIAL-SIN) visa estudar a variação sintáctica dialectal do Português Europeu, numa perspectiva de Princípios e Parâmetros, usando uma metodologia de constituição/exploração de um corpus anotado. O projecto rentabiliza recursos existentes (colecções de registos sonoros) e deverá impulsionar a pesquisa em sintaxe dialectal comparada, uma área sem tradição em Portugal. A actual extensão do CORDIAL-SIN é de 500.000 palavras.

O Grupo de Variação do Centro de Linguística da Universidade de Lisboa (CLUL) constituiu durante os últimos trinta anos um rico arquivo sonoro contendo cerca de 4.500 horas de gravações, obtidas em mais de 200 localidades do território português. O CORDIAL-SIN integra um conjunto geograficamente representativo de excertos de discurso livre e semi-dirigido seleccionados a partir das gravações efectuadas no âmbito dos seguintes projectos:

  • ALEPG Atlas Linguístico e Etnográfico de Portugal e da Galiza
  • ALLP Atlas Linguístico do Litoral Português
  • ALEAç Atlas Linguístico e Etnográfico dos Açores
  • BA Fronteira Dialectal do Barlavento Algarvio

O CORDIAL-SIN apresenta-se ao utilizador em quatro formatos: transcrição conservadora; transcrição ortográfica normalizada; texto com anotação morfossintáctica (anotação por palavra); texto com anotação sintáctica (anotação por frase) – vd. Descarregar Ficheiros de Dados. A anotação por frase encontra-se em desenvolvimento, prevendo-se que se iniciará a sua disponibilização quando concluído o projecto DUPLEX (PTDC/LIN/71559/2006), ou seja, a partir do final de 2010.

A transcrição conservadora contém informação sobre aspectos da produção (captados pela fonte sonora) tais como pausas, sobreposições de produção, hesitações, abandono de fragmentos frásicos, reformulações, repetições, formas truncadas, variantes fonéticas e morfofonológicas, etc. (vd. Normas de Transcrição). Esta versão da transcrição interessa a estudos centrados na observação de estratégias de interacção discursiva típicas da oralidade. A versão normalizada da transcrição obtém-se através da extracção automática dos códigos que identificam marcas de oralidade e constitui o suporte da anotação. Esta versão inclui apenas transcrição ortográfica, após a eliminação das marcas de pausa (silenciosa ou preenchida), bem como das sequências de transcrição fonética identificadoras de variantes fonéticas e morfofonológicas. Além disso, não retém repetições e fragmentos frásicos abandonados como resultado de processos de reformulação, adiamento da produção e hesitação, embora assinale os lugares de elisão dos mesmos. A transcrição normalizada inclui frases completas ou fragmentos frásicos – em geral frases inacabadas – sintacticamente analisáveis e anotáveis.

A anotação morfossintáctica do corpus é automaticamente implementada, decorrendo de uma adaptação (revisão/ampliação) do sistema desenvolvido pela equipa do projecto Tycho Brahe. O sistema de anotação morfossintáctica combina etiquetas categoriais com subetiquetas, maioritariamente flexionais, permitindo uma anotação bastante fina das unidades lexicais do corpus. A proximidade entre os sistemas de anotação morfossintáctica do CORDIAL-SIN e do projecto Tycho Brahe permite a utilização do etiquetador automático, de base probabilística, desenvolvido por Marcelo Finger (e melhorado por Fabio Natanael Kepler e Marcelo Finger) no âmbito do Tycho Brahe (vd. Manual de Anotação Morfossintáctica).

O sistema de anotação sintáctica segue as orientações definidas pelo Penn-Helsinki Parsed Corpus of Middle English. A anotação sintáctica opera sobre dados etiquetados morfossintacticamente; marca fronteiras de constituintes, dependências sintagmáticas e oracionais, tipos de frases, relações gramaticais e certas relações transformacionais. A anotação sintáctica define configurações que podem ser pesquisadas sistemática e exaustivamente (vd. Manual de Anotação Sintáctica).

No âmbito do projecto CORDIAL-SIN, foi elaborada uma dissertação de doutoramento dedicada ao estudo dos 'expletivos' (vd. Ernestina Carrilho) e encontra-se em fase de conclusão uma outra dedicada ao estudo dos 'clíticos' (vd. Catarina Magro). Está em desenvolvimento a construção de um 'Protótipo de Glossário dos Dialectos Portugueses, com Informação Sintáctica', constituindo o objecto do terceiro projecto de doutoramento realizado com base nos dados do CORDIAL-SIN (vd. Sandra Pereira). Está actualmente em preparação a publicação de um livro sobre 'sintaxe dialectal do português'. (vd. também Publicações)

Página de Entrada Corpus Publicações Manuais





[topo]



Imprimir

  2012  •  CLUL - Centro de Linguística da Universidade de Lisboa  •   Copyright   •  Webmaster  •   Contactos   •  Design: Plasma