| Programa: Information Society Technologies (IST) Programme - European Commission - Directorate - General Information Society - Action Line: IST - 2000 - 3.3.1, Key Action 3, Contract Number IST - 2000 - 26228. Projecto aprovado em Dezembro de 2000. |
| Participantes: Università degli studi di Firenze (UFIR.DIT) - Itália - Coordenador Université de Provence (UPRO) - França Fundação da Universidade de Lisboa - Centro de Linguística da Universidade de Lisboa (FUL-CLUL) - Portugal Universidade Autónoma de Madrid (UAM) - Espanha |
| Assistentes: Pitch Instruments France S.A.R.L. (PITCHFRANCE) Editions Honoré Champion (CHAMPION) European Language Resources Distribution Agency S.A.R.L. (ELDA) Instituto Trentino di Cultura (ITC-irst) Instituto Cervantes (IC) |
| Comissão de Aconselhamento e Acompanhamento : CSELT (Telecom Italia - I) PT - Inovação (Portugal Telecom - P) Telefonica I+D (E) IPO, Center for User - System Interaction (Eindoven University of Technology - NL) INaLF (Institut National de la Langue Française - F) École Pratique des Hautes Études (F) |
| Equipa de Investigação do CLUL: Maria Fernanda Bacelar do Nascimento (investigadora responsável) Maria Lúcia Garcia Marques José Bettencourt Gonçalves Rita Veloso Sandra Antunes Florbela Barreto Raquel Amaro Nuno Martins |
| Início do Projecto: Janeiro 2001 |
| Estado do Projecto: Concluído em Março de 2004 |
O projecto C-ORAL-ROM teve como objectivo incrementar os Recursos Linguísticos na área da língua falada, estabelecendo, constituindo e disponibilizando um corpus multilingue de língua falada espontânea, para 4 línguas românicas (Espanhol, Português, Francês e Italiano, com cerca de 300.000 palavras cada língua, cobrindo discurso formal e informal). Enquanto Recurso Linguístico compreende diversas componentes:
- um corpus multimédia, contendo, para cada texto, a fonte acústica, a transcrição ortográfica em formato CHAT e com marcação de quebras entoacionais terminais e não terminais, informação sobre os intervenientes e a situação de gravação, o alinhamento de texto e som, em formato Win Pitch Corpus, estabelecido ao nível de cada enunciado transcrito e uma segunda transcrição ortográfica com lematização e anotação PoS;
- software para análise de fala (Win Pitch Corpus; © 1996-2005 Pitch Instruments Inc.);
- software para extracção de concordâncias (Contextes; © Jean Véronis);
- apêndices.
Este recurso reproduz vários tipos de actos de fala, na língua do quotidiano e, nalguns casos, numa linguagem mais formal e permite a observação e análise de estruturas prosódicas e sintácticas nas quatro línguas, numa perspectiva quantitativa ou qualitativa. C-ORAL-ROM constitui uma mais-valia, especialmente relevante em aspectos como a constituição de corpus, representação de diálogos, anotação prosódica, anotação PoS e lematização, armazenamento multimédia e análise de fala. Importa também mencionar a sua utilidade na criação de condições para o desenvolvimento e validação de HLT (Human Language Technologies) multilingues. É possível encontrar o recurso C-ORAL-ROM em duas versões distintas:
- Uma versão que permite o acesso pleno aos materiais e à sua exploração, disponível em 8 DVDs (DVDs1-2 Francês; DVDs 3-4 Italiano; DVDs 5-6 Português; DVDs 7-8 Espanhol), distribuído pelo ELDA;
- Uma versão encriptada (que não permite, por exemplo, a extracção total de concordâncias), disponível num DVD, que acompanha o livro C-ORAL-ROM , publicado pela John Benjamins Publishing Company, em 2005, o qual contém descrições dos quatro subcorpora e dos procedimentos e opções das equipas na sua constituição e preparação (lematização, anotação, etc.), bem como estudos comparativos de estratégias lexicais e estruturais nas quatro línguas. Para mais informações, é possível consultar a página do projecto C-ORAL-ROM: http://lablita.dit.unifi.it/coralrom.
|
||||




