Skip to main content
Distribuição normal.

Distribuição normal.

| Somir | | 2 comentários em Distribuição normal.

Estatística é mais do que segunda opção de curso superior, é o estudo matemático de padrões percebidos no mundo. Um dos conceitos mais fascinantes dessa área de estudo é a distribuição normal: uma tendência quase que mágica de que os resultados de análises sobre os mais diferentes tipos de dados acabem formando uma curva específica de distribuição. E como o mundo é feito de padrões, temos muito o que perceber do mundo real através desse conceito matemático.

Eu não sou matemático, então nem esperem uma análise profunda da teoria aqui, só um resumo básico.

Aposto que você já viu um gráfico assim antes, né? Essa curva que parece um sino, uma montanha central de maiores probabilidades e as curvinhas descendo para uma linha reta nos extremos. Essa é uma distribuição normal. O próprio nome já entrega como ela se repete nos mais diversos tipos de análises: ela é o normal. Se você jogar dois dados e começar a somar os resultados, vai perceber que quanto mais vezes faz isso, mais os resultados se juntam num ponto central, formando essa curva.

No exemplo dos dados, é só pensar um pouco para perceber como não dava para escapar dessa curva: ele vai de 1 a 6, e as somas de dois ficam entre 2 e 12. Qual a chance de você pegar um resultado 2? Só quando os dois dados caírem com o 1 para cima. Qual a chance de você ver um resultado 7? Ah, aí tem muito mais chances: quando caírem 1 e 6, 2 e 5, 3 e 4 e o inverso também.

Ou seja: só ficamos com a soma de 2 em uma combinação de dados, mas podemos ter a soma de 7 em 6 jogadas diferentes! Se você começar a jogar os dados várias vezes, é natural que o número de somas 7 apareça muito mais vezes que o número de soma 2. E o mesmo vale para o 12: só temos a soma de 12 quando os dois dados caem com o 6 para cima.


Uma chance de somar 2, seis chances de somar 7 e uma chance de somar 12.


É difícil conseguir o número mais baixo, é fácil conseguir o número médio, é difícil conseguir o número mais alto. Distribuição normal. Serve para dados, serve para milhões de outras coisas. Se você repetir um experimento várias e várias vezes, a tendência é que tudo fique na média. A média é simplesmente o número que pode aparecer mais vezes por pura aleatoriedade.

Não é à toa que é um padrão comum no mundo, é o padrão dos padrões. Quanto maior a chance de acontecer, mais acontece. Se as chances forem iguais no começo da análise, a distribuição normal aparece rapidamente, mas o mais impressionante é que se você mudar a probabilidade, por exemplo, colocando mais peso num dos lados de um dado, se você continuar jogando ele muitas vezes, ele volta para algo muito próximo da distribuição normal. A natureza é teimosa assim.

Quanto mais vezes uma coisa acontece, menos importa o quanto você tentou interferir, porque o que você faz começa a ter menos impacto do que as chances naturais das coisas acontecerem. Essas curvas de probabilidade foram descritas pelos humanos, mas não dependem da nossa vontade para surgir. É uma das regras do universo: a do menor esforço. Se é mais fácil que dois dados somados mostrem 7 como resultado, esse é o caminho que as coisas vão seguir. Se é mais difícil que a soma seja 2 ou 12, evidente que vai acontecer muito menos.

Ainda nesse tema estatístico, é importante falar sobre o Desvio Padrão, que é um cálculo da chance de um resultado aparecer longe da média. É matemática mais avançada, mas tem uma parte simples que é bom manter em mente: se você dividir as chances em 3 blocos para cada lado em cima da curva, vai perceber que 68% das vezes o resultado está a um desvio padrão, 95% das vezes entre dois desvios padrão e 99,7% das vezes entre três desvios padrão.

O que isso quer dizer? A chance de algo acontecer fora da média é muito menor quanto mais vezes você faz alguma coisa. Se você jogar um dado, as chances de cair entre 1 e 6 são iguais. Se jogar 1000 e marcar todos os resultados, vai perceber que 70% das vezes caiu algo muito próximo de 7. Quanto mais você testa um resultado, mais perto da média ele fica. A chance de cair 2 ou 12 vai diminuindo rapidamente.

Nossa intuição sobre chances normalmente está errada em grandes escalas. Correndo o risco de inaugurar a era do Coach Estatístico para substituir o Coach Quântico, essas ideias sobre distribuição normal podem ser aplicadas a nossa forma de ver o mundo: existe muita diferença entre o que chama sua atenção e o que acontece de verdade.

O fato de você ver um resultado não significa que você saiba a média que ele pode acontecer. Se você vir um homem batendo numa mulher, você não sabe quantos homens batem em mulheres, você sabe que um homem bateu numa mulher. Se você viu dez homens batendo em mulheres, boas chances de você ainda não ter visto algo suficiente para saber a média de homens que batem em mulheres.

Ficando nesse tema violento, podemos pensar também no que vira um resultado para analisarmos. Temos estudos com resultados sobre os homens que não batem em mulheres? É um dos resultados possíveis. Mas por motivos óbvios esses dados não são contabilizados. Fica difícil saber onde fica na distribuição normal o homem violento.

E eu não estou concluindo nada aqui: sem os dados verdadeiros, pode ser que muito menos homens façam isso que o que achamos, mas pode ser também que muitos mais façam e nunca sejam denunciados. A informação que chega até nós é de que existem X casos por ano, comparados mentalmente com o número de homens no país.

Mas não sabemos qual é o grau de reincidência (homens que batem várias vezes e são denunciados várias vezes) e não sabemos se os que não foram denunciados estão fazendo isso. A informação é incompleta. Pode ser que um a cada mil homens faça isso, pode ser que um a cada dez. Se esse um em mil for denunciado cem vezes, a estatística fica igual. Sem médias e distribuições normais, os dados são ainda mais perigosos de interpretar que o normal.

Números sozinhos vivem nos levando a conclusões precipitadas. Reconhecemos que existe um problema de violência contra a mulher sim, mas não sabemos muito mais do que isso se ficarmos vendo apenas dados jogados ao vento. Sabemos qual é a probabilidade de uma mulher aleatória apanhar de um homem aleatório num relacionamento? O problema está na média ou está em alguns desvios padrões de distância? Precisamos controlar 70% dos homens ou 0,03% deles? Campanhas de conscientização servem para esses grupos extremos?

Eu acredito que tem gente séria puxando esses números e tentando fazer senso do que realmente acontece, mas a maioria de nós somos expostos a resultados incompletos, coletâneas de casos que são mais atrativos quando transformados em notícias e argumentos. Eu admito a minha culpa caso resolvam falar sobre violência contra a mulher nos comentários, mas era só um exemplo de como estamos muito mais no escuro do que achamos, mesmo nessa era de excesso de informação.

Números não mentem nem dizem a verdade, é a nossa interpretação deles que faz tudo isso. Análises estatísticas mais robustas não vão nos dar respostas para os problemas do nosso tempo, mas vão nos ajudar a colocar energia nos lugares certos. Mudando de tema: sabem os malucos bolsonaristas que invadiram os prédios dos três poderes em janeiro? Alguns estavam perdidos lá, outros estavam com vontade de quebrar tudo, tinha gente só dando golpe do PIX, alguns até achavam que estavam numa missão galáctica para trazer alienígenas para a Terra e derrubar o Lula.

Toda essa gente se juntou para fazer uma ação. Não sabemos ainda qual era a distribuição das motivações. Não sabemos o que pode ser feito para tirar o incentivo de fazer algo parecido de novo, porque não sabemos como isso começou e quem foram as pessoas que mais contribuíram para o resultado final. Não temos o peso de cada grupo no acontecimento. Será que os malucos de pedra foram os que mais deram força para o movimento? Porque isso muda toda a lógica de repressão. Combater movimento golpista racional e gente totalmente descompensada da cabeça são coisas bem diferentes.

Pensar em termos estatísticos tende a te colocar no papel de “advogado do Diabo”, porque joga suas certezas no lixo e te faz procurar uma espécie de lógica universal nas coisas, não uma baseada em seres mágicos, mas uma que surge naturalmente da lei do menor esforço: o que é mais provável que esteja acontecendo? A famosa navalha de Occam, a ideia de que a explicação mais simples normalmente é a melhor, tem tudo a ver com o conceito de distribuições normais.

Na falta de mais informações, a explicação mais simples e mais média normalmente é a melhor. Quando pensamos na vida e na sociedade humana com seus bilhões, o improvável vai ficando cada vez mais improvável. A chance de uma conspiração estar certa não é a mesma dela não estar, porque estamos falando de milhares de fatos acumulados. Para que exista um plano dos Illuminati para te fazer comer insetos, primeiro precisamos provar os Illuminati, depois provar que é possível manter isso em segredo, depois analisar a probabilidade disso fazer sentido para esse grupo, depois ver como comer insetos trabalha para esse objetivo…

Pela distribuição normal, quanto mais etapas com várias possibilidades que se acumulam, a chance da resposta ser a mais simples e banal possível aumentar de forma exponencial, basta olhar a velocidade como a curva de sino sobe do menos provável para o mais provável. A chance de um evento complexo acontecer diferente da média é de pouco mais de 30%, não 50%. Não é sim ou não. Não é preto ou branco.

Antes que fique muito complicado entender o meu ponto aqui: as coisas que acontecem na sua vida não são só um dado sendo jogado para cima, são milhares, um depois do outro. Não existem muitas ações simples, quase sempre tem mais um monte de gente envolvida, tem o que está acontecendo no mundo ao seu redor, tem as sortes e azares do dia a dia. Coisas que não controlamos, mas podemos presumir muito melhor se pararmos de achar que é só uma coisa acontecendo por vez.

São várias. E no universo de várias coisas acontecendo, a distribuição normal com sua curva de sino é a base lógica da realidade. Porque quanto menos trabalhoso for algo, mais chance de acontecer. Não quer dizer que você vai acertar sempre nas suas decisões usando essa lógica estatística, mas vai poder ter uma noção mais sólida das probabilidades, e mais importante, do quanto não somos bons em prever o que vai acontecer sem ter muita informação sobre o tema.

Você precisa jogar milhares de dados para saber qual é o verdadeiro padrão de resultados deles. Já fizeram isso por você e encontraram a distribuição normal. Tem MUITO mais do que isso na estatística, evidente, mas esse conceito faz muito bem ter em mente para a vida. Normalmente recebemos informações muito mais sensacionais do que lógicas, por isso tanta gente parece ter esquecido que a média existe e é muito poderosa.

Para dizer que foi bem menos terrível do que esperava, para dizer que achou um texto na média, ou mesmo para dizer que como matemático eu sou um ótimo escritor: somir@desfavor.com


Comments (2)

Deixe um comentário

O seu endereço de e-mail não será publicado.

Relatório de erros de ortografia

O texto a seguir será enviado para nossos editores: