o corpus do português

Criado pelo Professor Mark Davies. Financiado pelo National Endowment for the Humanities (2004, 2015).

		Corpus	Tamanho	Criado
1	Info	Género / Histórico	45 milhões de palavras	2006
2	Info	Web / Dialetos *	1 mil milhão de palavas	2016
3	Info	NOW (2012 - 2019)	1,1 mil milhão de palavras	2018

A adição ao Corpus do Português contém uma base de dados com cerca de mil milhão de palavras de páginas da web de quatro países de língua portuguesa (Brasil, Portugal, Angola, Moçambique). Este corpus permite que analise o Português mais recente (os textos foram recolhidos entre 2013-14), e comparar entre os diferentes dialetos.

O novo corpus também é muito maior do que o corpus anterior - mais de 50 vezes maior para o português moderno (mil milhão de palavras, em comparação a apenas 20 milhões de palavras a partir de 1900 no corpus original). Enquanto no corpus anterior teria 20-25 ocorrências, com o novo tem 1.000 ou mais.

Em 2022, adicionamos muitas novas funções a este corpus: 1) navegar e pesquisar os 40.000 principais lemas do corpus 2) "páginas de palavras" detalhadas com informações sobre cada uma dessas 40.000 palavras, incluindo definições, sinônimos, links para imagens e vídeos , informações de frequência (por gênero e país), colocações, tópicos relacionados e linhas de concordância), 3) a capacidade de inserir e analisar textos inteiros, encontrar palavras-chave nesses textos e ver informações detalhadas (nº 2) para cada palavra, bem como a capacidade de destacar frases em seu texto e encontrar frases relacionadas no corpus, e 4) extensos links para recursos externos nas exibições de frequência e concordância.