Corpus do Português - disponível na internet : 45 milhões de palavras

Temos o prazer de anunciar o lançamento do Corpus do Português
(http:www.corpusdoportugues.org ). Este corpus foi generosamente
patrocinado pela US National Endowment for the Humanities, e está
disponível gratuitamente na internet.

Este sítio permite pesquisar fácil e rapidamente mais de 45 milhões de
palavras em mais de 50,000 textos em português dos Trezentos aos
Novecentos. A interface permite pesquisar palavras exatas ou frases,
cadeias de pesquisa, lemas, classes gramaticais, ou qualquer
combinação dos referidos elementos. Proporciona também a pesquisa de
palavras vizinhas (collocates) com um contexto de dez palavras de cada
lado.

O corpus também permite comparar (e ver através de diagramas) a
freqüência e distribuição de palavras, frases e construções
gramaticais em textos de pelo menos três maneiras diferentes:

-- Registro: comparações entre o falado, a ficção, o jornalístico, e o
acadêmico
-- Variedades do português: Portugal versus Brazil no século XX
-- Período histórico: comparação de séculos diferentes dos Trezentos
aos Novecentos

Realiza-se também com facilidade consultas de índole semântica no
corpus. Por exemplo, a diferença de significado entre duas palavras
relacionadas pode ser determinada através da comparação e contraste
das palavras vizinhas. Pode-se encontrar a freqüência e a distribuição
de sinônimos de mais de 20,000 palavras e comparar esta freqüência em
registros ou países diferentes, ou inclusive ao longo dos séculos.
Estas listas de palavras podem ser armazenadas e usadas para futuras
consultas. Pode-se, além disso, criar suas próprias listas de palavras
com um parentesco semântico, e usá-las como parte da consulta.

-------------------------------------

Mark Davies
Professor of Corpus Linguistics
Brigham Young University

Michael J. Ferreira
Professor of Portuguese Philology and Linguistics
Georgetown University

Categoria pai: Seção - Novidades