o corpus do português


Os corpora
Tamanho dos corpus
Comparar
Recursos
Problemas (inglês)
Contatar



RESUMO (PDF)   English  Português 

Criado pelo Professor Mark Davies. Financiado pelo National Endowment for the Humanities (2004, 2015).

    Corpus Tamanho Criado
1 Info Género / Histórico 45 milhões de palavras 2006
2 Info Web / Dialetos * 1 mil milhão de palavas 2016
3 Info NOW (2012 - 2019) 1,1 mil milhão de palavras 2018
4 Info WordAndPhrase  (agora parte do #2) 40.000 palavras principais 2017

A adição ao Corpus do Português contém uma base de dados com cerca de mil milhão de palavras de páginas da web de quatro países de língua portuguesa (Brasil, Portugal, Angola, Moçambique). Este corpus permite que analise o Português mais recente (os textos foram recolhidos entre 2013-14), e comparar entre os diferentes dialetos.

O novo corpus também é muito maior do que o corpus anterior - mais de 50 vezes maior para o português moderno (mil milhão de palavras, em comparação a apenas 20 milhões de palavras a partir de 1900 no corpus original). Enquanto no corpus anterior teria 20-25 ocorrências, com o novo tem 1.000 ou mais.

Em 2022, adicionamos muitas novas funções a este corpus: 1) navegar e pesquisar os 40.000 principais lemas do corpus 2) "páginas de palavras" detalhadas com informações sobre cada uma dessas 40.000 palavras, incluindo definições, sinônimos, links para imagens e vídeos , informações de frequência (por gênero e país), colocações, tópicos relacionados e linhas de concordância), 3) a capacidade de inserir e analisar textos inteiros, encontrar palavras-chave nesses textos e ver informações detalhadas (nº 2) para cada palavra, bem como a capacidade de destacar frases em seu texto e encontrar frases relacionadas no corpus, e 4) extensos links para recursos externos nas exibições de frequência e concordância.