Aprenda regressão linear em 5 minutos

Baseado no artigo “How does Linear Regression work” escrito por Brandon Rohrer

Regressão linear é um termo técnico que define a trajetória de pontos de referência baseados em coordenadas de dados. A regressão é normalmente utilizada para se descobrir –  matematicamente –  a relação direta entre duas variáveis (x e y por exemplo) de um problema de modo que seja possível prever o valor de uma das variáveis (y) baseado no valor da outra (x).

Para simplificar, vou descrever o processo desde o início, utilizando um processo de estimativa de preço de um produto.

Eu possuo um anel que pertenceu à minha avó. Ele foi projetado para receber um diamante de 1,35 quilates, mas infelizmente a pedra foi perdida. Eu preciso determinar o preco de um outro diamante.

Quando chego à loja, percebo que não existe um diamante nesse tamanho exato. Sem problema. Eu pego um papel e anoto os preços de todas os diamantes da loja, nao importando-se o tamanho ou preço

Logo de cara, percebo que não há muitas pedras maiores do que 2 quilates. Eu coloco esses dados numa linha horizontal:

Em seguida, traço uma linha vertical que vai de zero até o maior preço encontrado (20.000):

Essas linhas são os eixos de coordenadas, conhecidos também como eixos X(horizontal) e Y (vertical). Coordenadas permitem que você determine o ponto de intersecção entre as as linhas horizontal e vertical.  No exemplo, eu marco no gráfico o peso do primeiro diamante e seu respectivo preço. Na intersecção dessas retas eu coloco um ponto:

E continuo o processo relacionando todos os pesos com seus respectivos preços:

Ao final, eu tenho uma representação dos dados obtidos na loja (amostra) em formato de gráfico. Note que neste formato, os dados são compreendidos mais facilmente do que quando ordenados numa tabela (a visualização de dados e uma técnica muito importante na ciência de dados – tópico para um próximo artigo). Em seguida, traçamos uma reta mais ou menos no centro dos pontos de modo que metade deles fique de cada lado:

Esse  processo de encontrar a curva que sobrepõe-se aos pontos de referência nos seus dados  é chamado de regressão. Quando a curva é na realidade uma reta, chamamos de regressão linear.

A distância entre os pontos e a reta determina o coeficiente de determinação ou (R2). Mais sobre R2 em um outro artigo.

Com  o gráfico da regressão linear em mãos, eu consigo responder a questao do início do texto:. “Quanto custaria um diamante de 1,35 quilates? Para descobrir a resposta, trace uma reta vertical que vai do ponto marcado com 1.35 quilate no eixo X (horizontal). Em seguida trace uma outra linha horizontal sobre o eixo dos preços (Y).  A intersecção das retas demonstra que o preço seria de aproximadamente $8000. Problema resolvido.

Para ajudar ainda mais, percebo que os diamantes pesquisados não caem exatamente em cima na linha. Isso significa que o diamante de 1.35 quilates não vai custar exatamente 8.000. A próxima pergunta então é, quanto mais (ou menos) de $8.000? Para descobrir isso, eu crio uma “faixa” em torno da minha reta (em azul claro) que engloba ao menos 95% da minha amostra:

Agora sim. Eu estou (95%) confiante que qualquer diamante que eu encontrar vai cair na faixa indicada. Para confirmar, traço duas linhas imaginárias onde 1,35 quilates cruza minha faixa de confiança vai custar mais de $5.800, mas menos de $10.200. Problema resolvido.

Obviamente esse exemplo foi simplificado por razões didáticas. No caso específico de diamantes, existem outras características importantes que determinam o preço. São elas cor, clareza, corte e o numero de inclusões da pedra. Incluindo isso tudo, nosso modelo passaria a ter 6 colunas (ao invés de 2). Para complicar mais, imagine que ao invés de 17 diamantes, eu tenha que coletar dados de 1700 ou 17 milhões! O problema torna-se gigantesco e inviável para ser resolvido manualmente.

Conclusão: O exemplo demonstra como a regressão linear é em si, um conceito simples. O modelo acima pode ser criado num guardanapo, sem necessidade de recorrer a computadores ou matemática avançada. Na prática, porém, regressões com centenas de variáveis e amostra na casa dos milhões requrem  capacidade de processamento elevada, mas é exatamente nessa área que os computadores se destacam.