Este corpus é constituído de mais de 45 milhões de palavras que vêm de
pouco menos de 57,000 textos. Tem 20 milhões de palavras do século XX, 10
milhões do século XIX, e 15 milhões de palavras dos séculos XIII-XVIII. No
século XX,
o corpus contém seis milhões de palavras de ficção, seis milhões de
jornais e revistas, seis milhões de textos acadêmicos, e dois milhões de
textos orais. Para cada um destes quatro gêneros e, portanto, na sua
totalidade, os textos do século XX estão igualmente divididos entre textos
de Portugal e do Brasil.
# PALAVRAS |
SÉCULO |
PAÍS |
GÊNERO |
Português histórico |
550,968 |
XIII |
Portugal |
|
1,316,268 |
XIV |
Portugal |
|
2,875,653 |
XV |
Portugal |
|
4,435,031 |
XVI |
Portugal / Brasil |
|
3,407,741 |
XVII |
Portugal / Brasil |
|
2,234,951 |
XVIII |
Portugal / Brasil |
|
10,008,622 |
XIX |
Portugal / Brasil |
|
Português moderno: Gêneros / Países |
3,087,052 |
XX |
Portugal |
Acadêmico |
3,271,328 |
XX |
Portugal |
Notícias |
3,048,020 |
XX |
Portugal |
Ficção |
1,100,303 |
XX |
Portugal |
Oral |
2,816,802 |
XX |
Brasil |
Acadêmico |
3,346,988 |
XX |
Brasil |
Notícias |
3,028,646 |
XX |
Brasil |
Ficção |
1,078,586 |
XX |
Brasil |
Oral |
Devido a questões de direitos autorais, os textos
integrais contidos no corpus não estão disponíveis para baixar sob
circunstância nenhuma. Todo e qualquer acesso aos textos deve ser feito
através da interface de rede. Pode-se, no entanto, baixar uma planilha Excel
que contém uma listagem dos quase 57,000 textos com a soma do
número de palavras por século, gênero e dialeto
deste corpus de
mais de 45 milhões de palavras (formato Excel). |