Capítulo 5 - Informação, Probabilidade e Redundância
No capítulo anterior vimos que a utilidade dos cérebros só se justifica em ambientes que disponham de alguma espécie de regularidade para ser explorada. Neste capítulo vamos formalizar um pouco mais esse conceito de regularidade, procurando relacioná-lo às noções de redundância, probabilidade e informação. Vou tentar manter o uso da matemática no mínimo possível para que o assunto seja "palatável" para um grande número de pessoas. Se você tiver alguma dúvida, poderá me enviar uma pergunta por email.
| O Que É Probabilidade? |
Tenho insistido que nosso ambiente contém muitas regularidades. Mas já disse que há também aspectos caóticos e aleatórios. A grande maioria dos eventos que presenciamos diariamente situam-se no meio desses extremos. Por essa razão, muitos eventos com os quais lidamos não podem ser representados por quantidades numéricas precisas. Precisamos alguma forma de lidar com essas possíveis variações. Probabilidade é uma sub-disciplina da Matemática que tenta lidar com essa incerteza.
Se eu jogar uma moeda ao ar, sei que, quando ela cair, estará certamente mostrando a cara ou a coroa. Mas não sei dizer com certeza qual dessas duas opções terei. Para representar isso, define-se uma quantidade através da conhecida fórmula da probabilidade de um evento E qualquer:

Onde Num.E é o número de ocorrências do evento que nos interessa e Num.Tot é o número total de eventos possíveis. No caso da moeda, a probabilidade de termos "cara" é:

Da mesma forma, a probabilidade de retirarmos um valete de um baralho é dado por:

Temos quatro chances de tirar um valete em 52 cartas de um baralho. Probabilidade, portanto, é um número que indica o tipo de certeza que temos acerca da ocorrência de um evento qualquer. Esse número sempre está entre zero e 1. Se a probabilidade é exatamente 1, então temos certeza de que o evento irá ocorrer. Se for 0 (zero), então temos certeza de que o evento não irá ocorrer[certeza].
| [certeza] Na verdade, os valores 1.0 e 0.0 da probabilidade praticamente não tem uso em ciência natural. Em termos rigorosos, nunca temos certeza absoluta de nada, assim como nunca poderemos dizer que algo nunca ocorrerá. Esses valores só fazem sentido em contextos matemáticos. Essa idéia está ligada ao caráter indutivo da ciência, e tem grandes implicações filosóficas, principalmente sobre o método científico. |
Já temos em mãos alguns dos elementos de que precisamos para iniciar nossa investigação do conceito informação. Mas antes vamos entender intuitivamente o resultado formal que iremos obter. Responda a esta questão: você vai se surpreender se eu lhe disser que em São Paulo está chovendo há três dias? Se a época do ano em que eu falar isso for fevereiro ou março, não há como se surpreender. Mas o que ocorre se minha afirmação for esta: está chovendo no Saara há três dias? Neste caso, a afirmação traz uma grande surpresa, algo potencialmente estranho estaria acontecendo. A informação que a primeira afirmação traz parece ser muito menor do que a informação carregada pela segunda afirmação. Veremos que a definição formal de informação condiz com essa nossa impressão intuitiva. Porém, antes de observarmos essa definição vamos ver quem foi o matemático responsável por ela.
| Claude Shannon e a Teoria da Informação |
Claude Elwood Shannon (1916-2001) é considerado um dos mais importantes matemáticos do século XX. Suas contribuições estenderam-se também para a área de Comunicação e Engenharia Elétrica, disciplina de sua graduação em 1936.
Shannon fez seu mestrado em engenharia elétrica
e obteve seu PhD em matemática, em 1940. Trabalhou no AT&T Bell Labs e em 1948
escreveu seu mais importante paper, "A Mathematical Theory of
Communication", o que lhe rendeu fama internacional. As idéias desse paper
foram seminais para a área da matemática e engenharia de comunicações e até hoje
influenciam o design de equipamentos de comunicação. Marvin Minsky assim falou sobre
Shannon:
"Não importando o que surgisse, ele dedicava-se ao problema com alegria e atacava a questão com algum recurso surpreendente, que poderia ser um novo tipo de conceito técnico ou um martelo e serra junto com alguns pedaços de madeira. Para ele, quanto mais difícil o problema parecia, tanto maior a chance de se encontrar algo novo"
Essa declaração de Minsky toca naquele ponto
interessante (embora praticamente óbvio) acerca da surpresa: o novo acontece quando as
coisas desafiam nossa expectativa. Surpresa seria, portanto, um indicador do potencial de
informação de um evento para nós. É esse um dos conceitos fundamentais relacionados ao
volume de informação que uma mensagem carrega. Para nosso tema aqui, isto é de
importância fundamental. A descrição de Minsky também reflete o caráter
experimentador e curioso de Shannon, um fator essencial para a criação do novo.
Na foto ao lado, Shannon manipula sua criação, um ratinho eletromecânico, talvez uma
das primeiras experiências na área de Inteligência Artificial.
Shannon assim define o conteúdo informacional de um evento qualquer: é a probabilidade de que esse evento aconteça. Embutido nessa definição informal está o caráter de surpresa, ou seja, se o receptor dessa mensagem não se surpreender com ela então o conteúdo informacional é baixo. Mas a Teoria da Informação proposta por Shannon procurou obter essa formalização independente da expectativa do receptor, ou seja, sem considerar a semântica da mensagem (seu significado). Mais a frente vamos ver esse tópico novamente. Por enquanto, ficamos com a expressão matemática mais simples das idéias de Shannon:

Nesta fórmula, I é o conteúdo de informação do evento que estamos analisando, Pi é a probabilidade de ocorrência desse evento. O logaritmo dessa probabilidade, tomado com o sinal oposto, é a nossa informação.
Shannon também se ocupou de dizer que a base do logaritmo dessa fórmula irá nos dar o tipo de representação dessa informação. Assim, se o logaritmo for base 10, o resultado desse cálculo deverá ser interpretado como dígitos decimais. Mas se a base do logaritmo for 2, então a interpretação será através de dígitos binários, ou seja, o nosso velho conhecido bit. Vamos ver alguns exemplos da aplicação dessa definição usando base 2 no logaritmo. Quantos bits eu preciso para representar o fato de que obtive "coroa" quando joguei uma moeda no ar? Aqui está o cálculo:

Precisamos de 1 bit para representar a informação de que obtive "coroa" quando joguei uma moeda. Da mesma forma, para representar a informação de que retirei um valete de um maço de cartas, vou precisar de 3,700439 bits, ou seja, 4 bits[lição de casa].
| [lição de casa] Lição para você: obtenha esse valor (3,700439) a partir da probabilidade de encontrar um valete em um baralho com 52 cartas. Se sua calculadora não tiver o logaritmo na base 2, então use a propriedade de que o logaritmo de um número N em uma base B qualquer pode ser obtido dividindo-se o logaritmo desse número N em uma base diferente (10, por exemplo) pelo logaritmo dessa base B na base diferente (10). Se você ainda assim estiver confuso quanto a isso, envie-me um email. |
Essa nossa dedicação ao assunto de como calcular a informação tem como objetivo preparar o terreno para as discussões que teremos nos próximos capítulos. Ainda faltam alguns conceitos para poder avançar um pouco mais. Falta falarmos de distribuições simples de probabilidades e depois de probabilidades transicionais. Não se assuste com esses nomes, vou tentar deixar o assunto tão simples quanto o que vimos acima.
| Estudando Sequências de Eventos |
Uma das principais características de nosso universo, como temos visto, é a sua dinâmica. Vimos que existem regularidades, mas sabemos que essas regularidades se alteram conforme o tempo passa. Isto sugere um importante conceito, essencial para o desenvolvimento de qualquer sistema cognitivo: como é que é possível acompanhar a evolução desses aspectos regulares do universo?
Para compreender como esse assunto está ligado a Shannon, vamos fazer uma simplificação: suponhamos que nosso ouvido só tenha capacidade para ouvir 5 tipos de tons. Não podemos diferenciar timbre e nem separação (ritmo) entre os tons. Tudo o que recebemos do mundo tem apenas essa característica de vir "codificado" em 5 unidades distintas. Para representar esses tons distintos vou usar as letras A, B, C, D e E. Uma sequência típica desses sinais poderia ser assim:
B D C B C E C C C A D C B D D A A E C E E A A B B D A E E C A C E E B A E E C B
Fique à vontade para procurar algum padrão nessa sequência. Mas é bom eu avisar que não há nenhum padrão, pelo menos não de forma "planejada" e intencional. Essa sequência foi obtida através de números aleatórios. Mas existe outro detalhe importante sobre essa sequência: a probabilidade de encontrar a letra A é igual à letra B e assim sucessivamente. Cada letra tem uma probabilidade de 0,2 de aparecer na sequência (1 chance em 5). A sequência acima é, portanto, estocástica (aleatória, randômica) e equiprovável (mesma probabilidade para cada um dos elementos distintos).
Vamos gerar uma outra sequência. Agora a coisa vai ser um pouco diferente. Em vez de iguais, as probabilidades de ocorrência de cada símbolo serão diferentes, conforme esta tabela:
| Letra | Probabilidade |
| A | 0,4 |
| B | 0,1 |
| C | 0,2 |
| D | 0,2 |
| E | 0,1 |
Essa tabela indica, por exemplo, que existe 4 vezes mais chance de ocorrer a letra A do que a letra B. Não há nenhuma razão para eu ter selecionado essas probabilidades em particular, todo o exercício serve apenas para gerar uma sequência com alguma característica diferente (note, porém, que a soma das probabilidades de todas as letras dá 1.0). Esta é uma típica sequência, gerada a partir das letras e probabilidades acima acopladas a uma fonte de números aleatórios:
A A A C D C B D C E A A D A D A C E D A E A D C A B E D A D D C E C A A A A A D
Você consegue perceber alguma coisa nessa sequência? Será que há algo que desponta imediatamente aos olhos? A única coisa que eu consigo enxergar bem visível é a incomum presença de várias letras A em seguida. Isto não havia na sequência anterior. Através de uma simples inspeção visual podemos depreender facilmente isso. E aqui vem o ponto importante. Suponha que eu não tivesse mostrado para você a tabela de probabilidade de cada letra. Suponha que você tenha visto diretamente a sequência e dessa inspeção tivesse que me dizer algo sobre ela.
| Uma simples inspeção visual dessa sequência iria gerar, em sua mente, uma tentativa de "adivinhar" a distribuição de probabilidades de cada símbolo. Parece que espontaneamente nós temos em nosso cérebro um pequeno "computadorzinho de probabilidades" |
O mais interessante disso, como veremos no capítulo 7, é que essa maravilhosa capacidade de "computação intuitiva" de probabilidades já está presente em bebês. Como veremos, essa é uma habilidade fundamental, embora também tenha alguns problemas.
O principal problema é que, dada nossa tendência natural a achar "padrões" de distribuição probabilística em qualquer sequência, vamos achá-los mesmo que eles não existam (um exemplo visual estranho será mostrado no último capítulo). Uma sequência finita de eventos sempre pode trazer "regularidades locais", sequências que, na verdade, não são regularidades, mas apenas "coincidências" (na primeira sequência que mostrei as três letras "CCC" são um exemplo disso). Com o correr do tempo, nossa mente iria verificar que essa pseudo-regularidade em particular não ocorre mais, e isso faz nossa memória "esquecer" dela.[esquecer].
| [esquecer] Em termos neurocientíficos, o esquecimento se dá, entre outros fatores, pela falta de uso das conexões sinápticas que representam uma determinada informação. Pode parecer que o esquecimento é prejudicial, mas na verdade sem ele não conseguiriamos desenvolver uma percepção adequada da realidade. |
Essa é uma importante lição: qualquer regularidade que ocorra apenas umas poucas vezes pode não ser indicação de um padrão importante. Em ciência, este é um pensamento fundamental: a replicabilidade. Um experimento só é considerado evidência satisfatória para uma teoria ou modelo se ele consegue ser replicado, preferivelmente por cientistas independentes. Isto visa "anular" o efeito das coincidências ocasionais que sempre podem acontecer.
| Introduzindo as Probabilidades Transicionais |
Agora que já estamos familiarizados com probabilidades de eventos isolados, vamos expandir esse conceito para incluir a probabilidade transicional. Como vimos, não tratamos de símbolos isoladamente, mas interessa-nos o comportamento de uma sequência. Uma sequência de símbolos pode envolver, além da probabilidade de cada símbolo individualmente, também uma especificação das probabilidades de um certo símbolo ser seguido por um outro símbolo específico. Veja este exemplo:
A B C X Y N A B D K Z T W S A B C U V I K
Se eu não falar nada sobre esta sequência pode ser que você tenha um pouco de dificuldade de interpretá-la. Observe os símbolos "A" e "B". Toda vez que aparece a letra "A", logo em seguida vemos aparecer a letra "B". É assim que quero definir a probabilidade transicional: é um número que indica qual a chance de um certo símbolo ser seguido por outro símbolo. Eis sua especificação formal:

A probabilidade de que x seja seguido por y, ou seja Ptran(y | x), é dada pela frequência em que ocorre o par "xy" dividido pela frequência de ocorrência de "x". Assim, para nosso exemplo acima, a frequência de ocorrência do par "AB" é 3 (frequência, neste caso, é justamente o número de vezes que os símbolos apareceram em nossa amostra). A frequência de ocorrência do símbolo "A" também é 3. Por isso, dizemos que a probabilidade transicional de A para B, ou seja PTran(B | A) é 1.0. Isto parece óbvio, certo? Proponho agora que, usando a mesma amostra acima, calculemos a probabilidade transicional da letra C, quando precedida da letra B. Eis como fica nosso cálculo:

Disto concluimos que a letra B é um razoável preditor da ocorrência da letra C. Razoável, mas não perfeito, porque a probabilidade transicional não é 1 como no caso AB. Para completar, faltaria calcular a probabilidade transicional da letra B para a letra D (veja onde isso ocorre na amostra original):

A soma dessas duas probabilidades dá 1,0, ou seja, não há nada mais além das letras C ou D seguindo a B.
Todo esse nosso exemplo foi bastante artificial e construído. Fiz assim somente para apresentar a você o conceito de probabilidade transicional. Vamos ver agora uma sequência de exemplos desenvolvida por Claude Shannon em seu paper de 1948. Essa sequência irá nos mostrar como esses conceitos podem chegar perto daquilo que chamamos de "linguagem".
| As Experiências de Shannon |
Para exemplificar os conceitos de que tratava, Shannon colocou em seu paper uma série de sugestivos exemplos que nos fazem acompanhar paulatinamente o surgir de uma linguagem conforme as probabilidades transicionais vão se aproximando dos valores correspondentes à lingua inglesa. Siga a sequência:
| A sequência abaixo mostra uma aproximação de ordem zero, usando-se os 26 símbolos do alfabeto mais o espaço. Nessa aproximação, a probabilidade de ocorrência de cada símbolo é exatamente igual à dos outros. Além disso, a ocorrência de um símbolo não afeta a ocorrência do símbolo seguinte. Essa sequência é, portanto, feita de símbolos independentes e equiprováveis. Aos nossos olhos, isso parece tudo, menos uma linguagem. |
| XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD |
| Na sequência abaixo temos uma aproximação de primeira ordem. Essa aproximação é construída com o uso de símbolos independentes (ou seja, o símbolo que segue não é afetado pelo anterior). Contudo a frequência dos símbolos é a mesma frequência com que aparecem na língua inglesa. Talvez já seja possível observar um menor grau de randomismo, quando comparado com a sequência anterior. |
| OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHENHTTPA OOBTTVA NAH BRL |
| A sequência abaixo foi construída com bigramas, ou seja, grupos de duas letras seguindo a mesma frequência com que aparecem no inglês. Já se pode notar o aparecimento de algumas poucas palavras corretas ("ON", "AT", "ARE"). |
| ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D ILONASIVE TUCOOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE |
| Na sequência abaixo temos o uso de trigramas (três letras), correspondendo à frequência com que aparecem no Inglês. As palavras que são formadas já tem um "gostinho" de Inglês, embora a maioria nada signifiquem. |
| IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTURES OF THE REPTAGIN IS REGOACTIONA OF CRE |
| Na sequência abaixo temos uma aproximação de primeira ordem em termos de palavras. Todas as palavras são do Inglês, mas não existe relação de probabilidade transicional entre uma palavra e a seguinte, o que torna a mensagem sem sentido, embora usando palavras corretas. |
| REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TOOF TO EXPERT GRAY COME TO FURNISHES THE LINE MESSAGE HAD BE THESE |
| No caso abaixo temos uma aproximação de segunda ordem em termos de palavras, onde a probabilidade transicional de uma palavra para a seguinte é a mesma da encontrada no Inglês. Ainda não se pode fazer sentido da frase, mas alguma estrutura já aparece. Este exemplo mostra que pode-se esperar mais familiaridade ainda conforme o grau da distribuição aumenta. |
| THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED |
Os dois últimos casos do quadro acima são importantes para nós: eles mostram o efeito da probabilidade transicional entre unidades maiores (palavras) e o efeito que isso provoca na familiaridade do texto. A sugestão que isso fornece é bastante importante:
| Pode-se conceber níveis hierárquicos em nossa cognição, onde cada nível pode ser representado (aproximadamente apenas!) por uma distribuição de probabilidades transicionais entre os vários elementos que distingue. Da mesma forma como aprendemos informalmente essas distribuições (caso ABC e ABD do nosso exemplo mais acima), também temos como aprender essas distribuições em casos mais complexos, como a linguagem. Parte importante do aprendizado de linguagens por crianças utiliza método similar, conforme veremos em um próximo capítulo. |
| Conclusões |
Vimos neste capítulo que algumas coisas que aprendemos tem um caráter tão elusivo quanto o "suspeitar" de uma certa distribuição de frequências. Este é um tipo de "conhecimento" que não tem como ser explicitado. Para que uma pessoa possa absorver esse conhecimento é preciso que "vivencie" as mesmas experiências que a outra. A disciplina "Gerência do Conhecimento" vive às turras com as definições de conhecimento tácito e conhecimento explícito. O explícito é tudo aquilo que pode ter uma expressão simbólica externa (através da linguagem, equações matemáticas, diagramas, etc). Mas o conhecimento tácito é aquilo que as pessoas capturaram por experiência própria, não podendo ser transferidos por via simbólica. Já sabemos agora qual o caráter do conhecimento tácito, mas as coisas ficarão mais claras ainda no Capítulo 7.
Uma curiosidade e um último
comentário
Exatamente enquanto eu digitava esta conclusão, meu telefone tocou. Atendi com o
tradicional "alô". Do outro lado da linha ouvi, ao fundo, um barulho que me
parecia ser uma televisão ligada. Logo em seguida, uma voz infantil falou
"alô". Passaram-se 2 ou 3 segundos e a linha caiu. Este episódio me fez
lembrar dos tópicos que tratamos aqui. Qual a probabilidade de uma criança discar um
número qualquer e cair justamente em meu número? É certamente muito pequena. No
entanto, é possível (ou seja, não é logicamente impossível, como a
situação de eu discar para meu próprio número e meu telefone tocar; isso é uma
impossibilidade "elétrica").
Conforme tudo o que vimos neste capítulo, esse episódio seria algo inexplicável em termos probabilísticos, algo que, baseando apenas na probabilidade de ocorrência, deveria deixar-nos sem qualquer explicação, já que a frequência de ocorrência desse tipo de episódio é baixíssima. Contudo, ele dispõe de plausível explicação: a criança estava brincando com o telefone e acidentalmente discou meu número. Observe o que ocorreu: algo que era bastante improvável foi alçado à categoria de plausível. Isto ocorre porque nossa decisão (e nossos modelos mentais da realidade) se preocupam em montar não apenas frequências de ocorrência e probabilidades transicionais, mas sim porque também nos ocupamos em montar modelos de causa/efeito, que são essenciais para nossa compreensão da realidade. Com isso, quero salientar que toda a parte de nossa cognição que cuida de probabilidades e de relações estatísticas não pode funcionar sozinha: precisa de mecanismos adicionais (que veremos em um outro volume desta série) responsáveis pela montagem dessas estruturas causais. Em resumo, computação intuitiva de probabilidades é importantíssmo, mas não é suficiente.
Segue para o Capítulo 6 Retorna ao Menu Principal
© 2003 Sergio Navega
Versão deste capítulo: 1.1 (Março 2003)
Leia a Licença de Uso
deste material
Problemas com esta página? Consulte-nos!