O Corpus do Português que foi lançado en 2016 (Web / Dialetos: CdP:Novo) contém
uma base de dados com mil milhão de palavras, ou seja 50 vezes mais
palavras do que o Corpus de Português anterior (Histórico / Géneros:
CdP:Antigo), que continha 1900 palavras. Como resultado, providencia
uma base de dados muito mais rica ao usuário e com uma maior
variedade também.
Léxico
Existem 282 verbos com uma frequência de
lemas entre 300 e 600 no CdP:Novo, que também existem em pelo menos dois dos
três dicionários on-line que usamos para corrigir as listas de lemas. O gráfico
abaixo mostra quantas vezes estes mesmos verbos aparecem no CdP:Antigo. Dos 282
verbos no CdP:Novo, (cerca de 42%) têm 10 ocorrências ou menos no CdP:Antigo, o
que realmente não é o suficiente para examinar os verbos. E apenas 33 dos 282 (cerca
de 12%) têm 50 ocorrências ou mais.
Frequência CdP:Antigo (300-600 em CdP:Novo) |
# verbos |
% verbos |
Exemplos |
50 ocorrências ou mais |
33 |
12% |
assoar, arremeter, crepitar |
26-49 ocorrências |
45 |
16% |
coalhar, arreganhar, fender |
11-25 ocorrências |
87 |
31% |
emparelhar, arrear, reincidir |
1-10 ocorrências |
106 |
38% |
aplainar, encerar, solapar |
0 ocorrências |
12 |
4% |
eletrizar, afobar, conflitar |
Semântica
Sem ocorrências suficientes para uma determinada palavra é impossível analisar
os colocados (palavras vizinhas) para se dizer muito sobre o significado e o uso
de uma palavra. Por exemplo escolhemos (quase ao acaso) um verbo, substantivo,
adjetivo e advérbio do CdP:Novo, para mostrar quantos colocados diferentes
ocorrerem para tal palavra (pelo menos três vezes como lema, entre quatro
palavras para a esquerda e quatro palavras para a direita da palavra nodulo) no
CdP: Novo e CdP: Antigo. (Pode ser necessário reiniciar manualmente o valor
SEÇÃO 1 para o seculo XX para que o CdP: Antigo obtenha a contagem correta.)
Como podemos ver o CdP: Novo fornece dados muito melhores para examinar o
significado e uso das palavras.
lema (nodo : colocado) |
CdP:Novo |
CdP:Antigo |
frigir (VERB : NOUN) |
540 |
1 |
faceta (NOUN : NOUN) |
434 |
2 |
interpessoal (ADJ : NOUN) |
453 |
3 |
inconscientemente (ADV : VERB) |
404 |
7 |
Sintaxe
Ao ser 50 vezes maior que a seção do seculo XX no CdP:Antigo, o CdP:Novo oferece
muito mais resultados para construções sintáticas de menor frequência. O
seguinte gráfico mostra o número de ocorrências nos dois corpus para várias
construções diferentes. (Pode ser necessário reiniciar manualmente o valor SEÇÃO
1 para o seculo XX para que o CdP: Antigo obtenha a contagem correta.)
CdP:Novo |
CdP:Antigo |
cadeia de pesquisa |
explicação |
exemplos |
805 |
3 |
parecem|pareciam que [v*3p*] |
"Split subject raising" (see
#59 and #60) |
parecem
que querem causar um conflito |
354 |
9 |
os|as [fazer]
[v*] o|os|as|um|uma |
Accusative case
for 3PL agent in causative
construction (see
#67, 68, and #71) |
não as
faz perder o entusiasmo |
481 |
21 |
sem lhes
[v*] |
Pre-verbal clitic (see
#62); here just with sem and lhes |
sem lhes
dar tempo de refletirem |
7151 |
175 |
estava*
sendo [vps*] |
Progressive +
passive (just with estava / estavam) |
o Bitcoin
estava sendo usado por criminosos |
|