Este corpus é constituído de mais de 45 milhões de palavras que vêm de pouco menos de 57,000 textos. Tem 20 milhões de palavras do século XX, 10 milhões do século XIX, e 15 milhões de palavras dos séculos XIII-XVIII. No século XX, o corpus contém seis milhões de palavras de ficção, seis milhões de jornais e revistas, seis milhões de textos acadêmicos, e dois milhões de textos orais. Para cada um destes quatro gêneros e, portanto, na sua totalidade, os textos do século XX estão igualmente divididos entre textos de Portugal e do Brasil.

 # PALAVRAS SÉCULO PAÍS GÊNERO
Português histórico
550,968 XIII Portugal  
1,316,268 XIV Portugal  
2,875,653 XV Portugal  
4,435,031 XVI Portugal / Brasil  
3,407,741 XVII Portugal / Brasil  
2,234,951 XVIII Portugal / Brasil  
10,008,622 XIX Portugal / Brasil  
Português moderno: Gêneros / Países
3,087,052 XX Portugal Acadêmico
3,271,328 XX Portugal Notícias
3,048,020 XX Portugal Ficção
1,100,303 XX Portugal Oral
2,816,802 XX Brasil Acadêmico
3,346,988 XX Brasil Notícias
3,028,646 XX Brasil Ficção
1,078,586 XX Brasil Oral

Devido a questões de direitos autorais, os textos integrais contidos no corpus não estão disponíveis para baixar sob circunstância nenhuma. Todo e qualquer acesso aos textos deve ser feito através da interface de rede. Pode-se, no entanto, baixar uma planilha Excel que contém uma listagem dos quase 57,000 textos com a soma do número de palavras por século, gênero e dialeto deste corpus de mais de 45 milhões de palavras (formato Excel).