MEDIDAS SEPARATRIZES
I – Introdução
As medidas separatrizes são números reais que dividem a seqüência
ordenada de dados em partes que contém a mesma quantidade de elementos
da série.
Dessa forma, a mediana que divide a seqüência ordenada em dois grupos,
cada um deles contendo 50% dos valores da seqüência, é também uma
medida separatriz.
Além da mediana, outras medidas separatrizes importantes são: os quartis, os
quintis, os decis e os percentis.
Os elementos que separam a seqüência ordenada em 4 partes, cada uma
contendo 25% dos elementos, são os quartis. O primeiro quartil, indicado por
Q1, separa a seqüência ordenada deixando 25% de seus valores à esquerda e
75% à direita. O segundo quartil, Q2, corresponde à mediana. O terceiro
quartil, Q3, separa a seqüência ordenada deixando 75% de seus valores à
esquerda e 25% de seus valores à direita.
Os elementos que separam a seqüência ordenada em 5 partes, cada uma
contendo 20% dos elementos, são os quintis. Da mesma forma que os quartis,
definimos os quintis: K1, K2, K3, K4.
Os elementos que separam a seqüência ordenada em 10 partes, cada uma
contendo 10% dos elementos, são os decis. Da mesma forma que os quintis,
definimos os decis: D1, D2, D3, D4, D5, D6, D7, D8, D9.
Os elementos que separam a seqüência ordenada em 100 partes, cada uma
contendo 1% dos elementos, são os centis ou percentis. Da mesma forma
que os decis, definimos os percentis: P1, P2, P3, P4, ... , P99,.
Se observamos que os quartis, os quintis e os decis são múltiplos dos
percentis, se tivermos a fórmula para cálculos dos percentis, saberemos
calcular todas as outras medidas separatrizes.
2 Separatrizes e medidas de dispersão associadas
Nesta seção será discutido o cálculo e o uso da mediana como uma medida de tendência central, além de descrever como se dá a obtenção e interpretação de outras separatrizes. Também serão apresentadas medidas da dispersão em torno da mediana.
2.1 Mediana A média, embora seja uma medida de tendência central muito utilizada, muitas vezes não descreve de maneira adequada um conjunto de dados, pois essa é uma medida que pode ser afetada por algumas características que os dados pode conter, como por exemplo a presença de assimetria acentuada na distribuição dos dados, ou presença de pontos que destoam dos demais, seja para cima ou para baixo. Nessas situações é importante que sejam obtidas outras medidas que não sejam afetadas por essas características. Uma medida que pode ser empregada nessas situações é a mediana, pois esta não é afetada por assimetria ou por pontos atípicos. 2.1.1 Mediana a partir de uma série de dados A mediana de um conjunto de valores é o valor situado de tal forma no conjunto que o separa os dados ordenados (x(1),x(2),⋯,x(n)x(1),x(2),⋯,x(n)) em dois subconjuntos, de modo que 50% dos valores estão abaixo dele e os demais 50% estejam acima. Aqui, x(1)x(1) denota o valor valor mínimo da série de dados e x(n)x(n) corresponde ao valor máximo. Ou seja, têm-se: x(1)≤x(2)≤⋯≤x(n).x(1)≤x(2)≤⋯≤x(n). A mediana é uma separatriz, pois esta divide o conjunto de dados ordenados em duas partes iguais. A obtenção da mediana de uma série de dados x=(x1,x2,⋯,xn)x=(x1,x2,⋯,xn) pode ser feita da seguinte forma.
Med(x)=⎧x(n+12), se n é ímpar;x(n2)+x(n2+1)2, se n par.Med(x)={x(n+12), se n
⎪
⎨
⎪
⎩é ímpar;x(n2)+x(n2+1)2, se n par.
Exemplo.2.1 Para ilustrar, considere os exemplos a seguir.
Para a série x=(5,2,6,13,9,15,10)x=(5,2,6,13,9,15,10), a mediana pode ser obtida como segue:
(2,5,6,3 elementos9,10,13,153 elementos)⇒Med(x)=9(2,5,6,⏟3 elementos9,10,13,15⏟3 elementos)⇒Med(x)=9
A série y=(1,3,0,0,2,4,1,3,5,6)y=(1,3,0,0,2,4,1,3,5,6) pode ser ordenada, e a mediana encontrada, da seguinte maneira:
(0,0,1,1,4 elementos2,3,3,4,5,64 elementos)⇒Med(y)=2+32=2,5(0,0,1,1,⏟4 elementos2,3,3,4,5,6⏟4 elementos)⇒Med(y)=2+32=2,5
2.1.2 Mediana a partir da tabela de frequência simples
Para obtenção da mediana a partir de uma tabela de frequência, considere a coluna das frequências relativas acumuladas. A frequência acumulada é útil devido a mediana ser um valor que acumula abaixo dele 50% dos dados ordenados, com isso pode-se encontrar facilmente a classe mediana olhando diretamente para a tabela. Para ilustrar a obtenção, considere o Exemplo 2.2.
Exemplo.2.2 Considere a Tabela 2.1, que mostra a distribuição de frequência das curvas da BR 116, compreendidas entre os quilômetros 52,90 e 113,20, dados vistos em Quaresma (2019). Considere o seguinte.
População: todas as curvas existentes na BR 116 entre os quilômetros 52,90 e 113,20.
Unidades amostrais ou indivíduos: as curvas investigadas.
Variável: número de acidentes ocorridos entre 2014 e 2019 nessas curvas.
Nese caso a variável é resultado de uma contagem, portanto é quantitaiva dicreta. A distribuição de frequência das curvas segundo o número de acidentes pode ser vista na Figura 2.1, onde pode ser notada uma assimetria assentuada no gráfico exibido. Nesse caso, pode ocorrer uma divergência entre a média e a mediana do número de acidentes. As duas medidas serão obtidas e comparadas a seguir.
Tabela 2.1: Distribução de frequência da quantidade de acidentes por curva da BR 116, do quilômetro 52,90 até 113,20, entre os anos de 2014 a 2019 (Quaresma 2019).Quant. AcidentesFreq.CurvasFreq.CurvasfifiFacFacXi×fiXi×fi0130.340.340.00150.130.470.13250.130.610.26330.080.680.24430.080.760.32520.050.820.26630.080.890.47710.030.920.181210.030.950.321710.030.970.454810.0311.26Total381.01-3.89Para obter a mediana, observe que a até a terceira classe são acumulados mais de 50% dos dados (61%), sendo assim, esta é a classe que contém a mediana, deste modo não importa se o total de elementos na série é par ou ímpar, a mediana é o valor que está nessa classe, no caso, 2 acidentes, como mostra a linha a seguir, a qual foi destacada da Tabela 2.1. Ainda na tabela, pode ser visto que a média é ¯¯¯x=3,86x¯=3,86, a qual está a quase duas unidades distante da mediana, mostrando uma divergência dessas duas medidas de tendência central. Isso mostra que, neste caso, a média pode não ser uma boa medida de tendencial central.
Mediana=2nini=5fifi=0,13FacFac=0,61Figura 2.1: : Frequência das curvas por acidente.
2.1.3 Mediana a partir da tabela de frequência em intervalos de classe
A obtenção de uma aproximação da mediana a partir de dados agrupados em uma tabela de frequência em intervalos, assim como no caso de uma tabela de frequência simples, pode ser feita localizando a classe que contém a mediana. Neste caso, o valor da mediana não pode ser obtido de modo preciso, exigindo, pois é requerida uma aproximação dentro do intervalo que contém esse valor. Essa aproximação será feita aqui de modo a levar em consideração a distribuição de frequência por meio da relação:Med=Li+[(0,5−Fac(ant))fi]×δMed=Li+[(0,5−Fac(ant))fi]×δem que,
LiLi: limite inferior da classe mediana,
Fac(ant)Fac(ant): frequência relativa acumulada da classe anterior à classe mediana,
δδ: amplitude da classe
e fifi é a frequência relativa da classe mediana.
O Exemplo 2.3 ilustra a obtenção dessa aproximação da mediana em tabela com intervalos.
Tabela 2.2: Distribução de frequência da variável “Local” em quilômetro.KmFreq.CurvasFreq.CurvasfifiFacFac(53.05,59.78]60.160.16(59.78,66.46]40.110.26(66.46,73.13]80.210.47(73.13,79.81]00.000.47(79.81,86.48]00.000.47(86.48,93.16]40.110.58(93.16,99.83]40.110.68(99.83,106.5]70.180.87(106.5,113.2]50.131Total381.00-Exemplo.2.3 A Tabela 2.1, mostra a distribuição de frequência das curvas da BR 116, compreendidas entre os quilômetros 52,90 e 113,20, segundo a quilometragem da via, dados vistos em Quaresma (2019). Neste caso, pode ser pensado as seguintes características para o estudo.
População: todas as curvas existentes na BR 116 entre os quilômetros 52,90 e 113,20.
Unidades amostrais ou indivíduos: as curvas investigadas.
Variável: posição da curva na rodovia, medida pela quilometragem da via até a curva.
Note que a posição da curva é uma variável quantitativa contínua, sendo apropriado o uso de uma tabela de frequência com intervalos. Na sexta classe da tabela de frequência apresentada é localizada a mediana da quilometragem, ou seja, aquele valor para a variável local da curva que antes dele concentra 50\% dos locais das curvas para o trexo em questão. Essa classe é mostrada a seguir: Mediana ∈∈ (86,48;93,16]n6n6=4f6f6=0,11FacFac=0,58Uma vez que foi identificada a classe da mediana, basta aproximá-la dentro do intervalo, da seguinte forma: Med=L6+[(0,5−Fac(5))f6]×δ=86,48+(0,5−0,47)0,11×(93.16−86,48)=86,48+0,030,11×6,68=86,48+2,73≈88,3.Med=L6+[(0,5−Fac(5))f6]×δ=86,48+(0,5−0,47)0,11×(93.16−86,48)=86,48+0,030,11×6,68=86,48+2,73≈88,3. A Figura 2.2 mostra o histograma da frequência das curvas por quilometragem, onde pode ser visto o intervalo com maior frequência de curvas (65-70 km) e também o intervalo que contém a mediana (80-85 km). Figura 2.2: : Frequência das curvas.
2.2 Outras Separatrizes
Separatrizes (ou quantis) são valores que dividem uma série de dados ordenados (x(1),x(2),⋯,x(n)x(1),x(2),⋯,x(n)) em partes iguais. Assim como a mediana divide a série dados ordenados em duas partes iguais, podem ser obtidos valores que separam a série em mais parte iguais. As separatrizes mais importantes são:
a mediana (uma medida que divide a série ordenada em duas partes iguais);
os quartis (três medidas que dividem a série ordenada em quatro partes iguais);
os decis (nove medidas que dividem a série ordenada em dez partes iguais)
e os percentis (noventa e nove medidas que dividem a série ordenada em cem partes iguais).
A estratégia usada para a obtenção das demais separatrizes segue a mesma ideia aquela empregada para obter o valor da mediana. Então, para encontrar as medidas a partir de uma tabela de frequência, encontra-se a classe que contém a medida desejada observando as frequências relativas acumuladas. Se a tabela possuí intervalos, deve-se aproximar as medidas dentro de suas respectivas classes usando expressões que podem ser como segue.
Para os quartis:
pj=j4, para j=1,2,3Qj=Li+[(pj−Fac(ant))fi]×δpj=j4, para j=1,2,3Qj=Li+[(pj−Fac(ant))fi]×δcom:
LiLi é o limite inferior da classe definida por pjpj;
Fac(ant)Fac(ant) é a frequência absoluta acumulada da classe anterior à que contém o jj-ésimo quartil;
δδ é a amplitude da classe e
fifi é a frequência relativa da classe definida por pjpj.
Para os decis:
pj=j10, para j=1,2,⋯,9Dj=Li+[(pj−Fac(ant))fi]×δpj=j10, para j=1,2,⋯,9Dj=Li+[(pj−Fac(ant))fi]×δcom:
LiLi é o limite inferior da classe definida por pjpj;
Fac(ant)Fac(ant) é a frequência absoluta acumulada da classe anterior à que contém o jj-ésimo decil;
δδ é a amplitude da classe e
fifi é a frequência relativa da classe definida por pjpj.
Para os percentis:
pj=j100, para j=1,2,⋯,99Pj=Li+[(pj−Fac(ant))fi]×δpj=j100, para j=1,2,⋯,99Pj=Li+[(pj−Fac(ant))fi]×δcom:
LiLi é o limite inferior da classe definida por pjpj;
Fac(ant)Fac(ant) é a frequência absoluta acumulada da classe anterior à que contém o jj-ésimo percentil;
δδ é a amplitude da classe e
fifi é a frequência relativa da classe definida por pjpj.
2.2.1 Cálculo dos quartis No Exemplo 2.3, os quartis podem ser obtidos da seguinte maneira: 2.2.1.1 Valor do primeiro quartil (Q1Q1) O valor Q1Q1 está na segunda classe da tabela (tab:tabclass), pois essa acumula mais de 25\% dos dados, como pode ser visto na classe destacada a seguir. Q1Q1 ∈∈ (59,78;66,46]n2n2=12f2f2=0,32FacFac=0,26Note que até essa classe concentra-se 26% dos dados, logo contém o Q1Q1. Para aproximar essa medida dentro da classe encontrada, basta usar a relação: p1=14=0,25Q1=L2+[(p1−Fac(1))f2]×δQ1=59,78+[(0,25−0,16)0,32]×(66,46−59,78)Q1=59,78+0,82×6,68=59,78+5,47≈65,25p1=14=0,25Q1=L2+[(p1−Fac(1))f2]×δQ1=59,78+[(0,25−0,16)0,32]×(66,46−59,78)Q1=59,78+0,82×6,68=59,78+5,47≈65,25 Então, Q1≈65,25Q1≈65,25 2.2.1.2 Valor do segundo quartil (Q2Q2) O Q2=Med=88,3Q2=Med=88,3, ou seja esse valor é o valor da mediana e já foi calculado anteriormente. 2.2.1.3 Valor do terceiro quartil (Q3Q3) O valor Q3Q3 está na quinta classe da tabela (tab:tabclass), pois essa acumula mais de 75% dos dados: Q3Q3 ∈∈ (99,83;106,5]n8n8=7f8f8=0,18FacFac=0,87Note que até essa classe concentra-se 87% dos dados, logo contém o Q3Q3. Assim: p3=34=0,75Q3=L8+[(p3−Fac(7))f8]×δQ3=99,83+[(0,75−0,68)0,18]×(106,5−99,83)Q3=99,83+0,39×6,68=99,83+2,61≈102,45p3=34=0,75Q3=L8+[(p3−Fac(7))f8]×δQ3=99,83+[(0,75−0,68)0,18]×(106,5−99,83)Q3=99,83+0,39×6,68=99,83+2,61≈102,45 Ou seja, Q3≈102,45Q3≈102,45
2.3 Desenho Esquemático (Boxplot)
O desenho esquemático, também conhecido como Boxplot, é um gráfico bastante útil na análise do comportamento de uma variável a partir de um conjunto de valores observados. Dentre as vantagens do boxplot, podemos destacar:
a detecção rápida de uma possível assimetria na distribuição de frequência dos dados;
a capacidade de fornecer uma ideia sobre a existência de possíveis pontos atípicos (muito além ou muito aquém dos demais pontos);
a exibição dos quartis.
2.3.1 Contrução do Boxplot
Para sua construção, é preciso obter mais duas medidas para decidir quais são os pontos atípicos da série de dados. Essas medidas serão chamadas aqui de limite superior (lsuplsup) e limite inferior (linflinf). Para obtê-los, fazemos:
linf=Q1−32(Q3−Q1) e lsup=Q3+32(Q3−Q1).linf=Q1−32(Q3−Q1) e lsup=Q3+32(Q3−Q1).
Caso o valor mínimo no conjunto de dados seja maior que Q1−32(Q3−Q1Q1−32(Q3−Q1, então: lsup=minlsup=min.
Do mesmo modo, caso o valor máximo no conjunto de dados seja menor que Q3+32(Q3−Q1)Q3+32(Q3−Q1), então: linf=minlinf=min
Com essas medidas, podemos obter os valores que estão muito aquém de Q1Q1 ou muito além de Q3Q3. Tais pontos são chamados de pontos discrepantes (ou aberrantes, ou ainda outliers).
Após a obtenção dos limites (linflinf e lsuplsup), podemos construir o boxplot da seguindo os seguintes passos:
No eixo cartesiano, constrói-se um retângulo na vertical de modo que:
A base no retângulo corresponda ao primeiro quartil (Q1Q1)
e o topo (lado superior) corresponda ao terceiro quartil (Q3Q3);
divide-se o retângulo em duas partes usando um segmento de reta orientado pela mediana;
Acima do retângulo traça-se um segmento orientado por lsuplsup;
Abaixo do retângulo também é apresentado um traço orientado por linflinf;
acima de lsuplsup e abaixo de linflinf, marcam-se os pontos discrepantes.
Exemplo.2.4 Voltando ao Exemplo 2.3, nota-se que falta apenas obter os limites para pontos atípicos para que seja possível a contrução do boxplot. Então, usando os valores já calculados para Q1Q1, Q2Q2 e Q3Q3, tem-se:
linf=Q1−32(Q3−Q1)=65,25−32(102,45−65,25)=65,25−55,8=9,45lsup=Q3+32(Q3−Q1)=102,45+32(102,45−65,25)=102,45+55,8=158,25.linf=Q1−32(Q3−Q1)=65,25−32(102,45−65,25)=65,25−55,8=9,45lsup=Q3+32(Q3−Q1)=102,45+32(102,45−65,25)=102,45+55,8=158,25.
Como, min=53,11min=53,11 e max=113,18max=113,18, então:linf=53,11lsup=113,18.linf=53,11lsup=113,18.
Usando esses limites e os quartis calculados anteriormente, pode-se costruir o gráfico apresentado na Figura @rer(fig:boxplotcurvas). Note que no intervalo delimitado pela caixa estão 50\% do total das curvas, e este intervalo vai dos quilometro Q1=65,25Q1=65,25 até o quilometro Q3=102,45Q3=102,45. Na caixa do gráfico pode ser notada uma assimetria, pois existem um lado, em relação a mediana, que é mais “largo” que o outro. Também pode ser notado que as curvas estão concentradas ao longo do trecho, ou seja, não existe uma isolada, pois não é observado pontos atípicos no conjunto de dados. Note, também, que a média e a mediana estão afastadas, indicando um deslocamento da média do centro da distribuição para a esquerda.
Figura 2.3: : Frequência das curvas pela sua localização na rodovia.
Exemplo.2.5 Considerando novamente a Tabela 2.1, que mostra a distribuição de frequência das curvas da BR 116, compreendidas entre os quilômetros 52,90 e 113,20, com as considerações seguintes.
População: todas as curvas existentes na BR 116 entre os quilômetros 52,90 e 113,20.
Unidades amostrais ou indivíduos: as curvas investigadas.
Variável: número de acidentes ocorridos entre 2014 e 2019 nessas curvas.
A Figura 2.4, mostra o boxplot para esses dados, onde fica evidenciado o ponto atípico do conjunto de dados. Figura 2.4: : Frequência das curvas pelo número de acidentes.
2.4 Medida da dispersão em torno da mediana 2.4.1 Distância interquartil Se a mediana é usada como a medida de tendência central para um conjunto de dados, a distância entre o primeiro e o terceiro quartil pode ser usada como uma medida da variabilidade dos dados em torno da mediana. Essa medida é chamada de distância interquartil e é dada por: D=Q3−Q1D=Q3−Q1 Também é muito utilizado a "amplitude ou desvio semi-quartil’’, que seria o interquartil dividido por 2. Neste caso, essa é uma boa medida de dispersão, pois em um intervalo igual ao interquartil em torno da mediana estão 50% dos dados. Neste caso, o boxplot pode ser utilizado para visualizar o comportamento da variável que gerou os dos dados. Quanto maior for a distância entre os quartis Q1Q1 e Q2Q2, maior será a dispersão dos dados. 2.4.2 Amplitude Total Também podem ser usadas outras medidas para se ter uma ideia da dispersão dos dados. Um exemplo é a Amplitude Total (AT) que é a diferença entre o maior e o menor valor observado (valor máximo e valor mínimo). AT=x(max)−x(min)AT=x(max)−x(min) Observação: essa medida não é muito utilizada devido ser altamente afetada por pontos discrepantes, além de ser pouco informativa.
Comments