o corpus do português


Os corpora
Tamanho dos corpus
Comparar
Recursos
Problemas (inglês)
Contatar



English Português

Criado pelo Professor Mark Davies. Financiado pelo National Endowment for the Humanities (2004, 2015).

  Corpus Tamanho Criado Mais informação
1 Género / Histórico 45 milhões de palavras 2004-06 Info
2 Web / Dialetos 1 mil milhão de palavas 2015-16 Info
3 NOW (2012 - 2019) 1,1 mil milhão de palavras 2018 Info
4 WordAndPhrase 40.000 palavras principais 2017 Info

A nova adição ao Corpus do Português (2016) contém uma base de dados com cerca de mil milhão de palavras de páginas da web de quatro países de língua portuguesa (Brasil, Portugal, Angola, Moçambique). Este corpus permite que analise o Português mais recente (os textos foram recolhidos entre 2013-14), e comparar entre os diferentes dialetos.

O novo corpus também é muito maior do que o corpus anterior - mais de 50 vezes maior para o português moderno (mil milhão de palavras, em comparação a apenas 20 milhões de palavras a partir de 1900 no corpus original). Enquanto no corpus anterior teria 20-25 ocorrências, com o novo tem 1.000 ou mais.