Guía completa: Qué es el gráfico de dispersión
¿Qué es un gráfico de dispersión?
Un Gráfico de dispersión es una herramienta sencilla pero potente para visualizar datos en el campo de la estadística y la ciencia de datos. A continuación, aprenderemos todo sobre los gráficos de dispersión.
EdrawMax
Software de diagramas todo en uno
Entonces ¿qué es un gráfico de dispersión? Bueno, “Un gráfico de dispersión es una herramienta gráfica para visualizar la relación entre dos variables de este o diferentes grupos de datos, trazando los valores de los datos junto con un sistema cartesiano bidimensional.”
Esta definición será más clara con el gráfico de dispersión que enseñamos a continuación. Los gráficos de dispersión también se conocen como diagramas de dispersión.
Fuente de la imagen: gstatic.com
El gráfico anterior se ha realizado con dos variables diferentes los diámetros (en centímetros) y la altura (en metros) de un grupo de árboles. Mientras que el eje horizontal X representa la anchura, el eje vertical Y representa la altura y cada punto representa un árbol. A partir de estos gráficos se pueden obtener diversas correlaciones entre las variables.
¿Cuándo utilizar un gráfico de dispersión?
Un Gráfico de dispersión analiza la relación entre dos variables discretas. Es por eso por lo que cuando graficamos los datos agregados, encontramos diferentes formas en las que se presentan los datos. Sin embargo, la aplicación más utilizada de un gráfico de dispersión consiste en averiguar la correlación que existe o no entre las dos variables.
Por ejemplo, digamos que conocemos los valores de una variable representada en el eje horizontal, y necesitamos averiguar la mejor predicción posible para el eje vertical. El Gráfico de dispersión es muy útil en estos casos.
Un Gráfico de dispersión puede ser útil en los siguientes escenarios:
- Para datos numéricos combinados.
- En los casos en que la variable dependiente tiene múltiples valores para un único valor de la variable independiente.
- Para averiguar la correlación entre dos variables, entre otras cosas.
Pros y contras de los gráficos de dispersión
Pros |
Contras |
Son fáciles de crear, incluso cuando la variable dependiente tiene múltiples valores. Es fácil de interpretar y comprender. Se pueden aislar fácilmente los máximos y los mínimos, por lo que no afectan mucho al gráfico. |
Los errores de cálculo pueden conducir a un trazado defectuoso que, a su vez, puede llevar a un análisis erróneo de los datos. El grado exacto de correlación no siempre puede determinarse a partir de ellos. El sobretrazado es un gran problema cuando se trabaja con este tipo de gráficos, ya que puede llevar a la dispersión de los valores. |
¿Cómo se relacionan las variables de un gráfico de dispersión?
Correlación y coeficiente de correlación:
El término correlación se define como la naturaleza de la relación entre dos variables (en este caso, variables discretas) en cualquier estudio estadístico o encuesta.
Un coeficiente de correlación es una forma de medir estadísticamente el alcance o el grado de esta correlación. Los tres tipos son la correlación positiva, la negativa y la ausencia de correlación. Por lo tanto, se puede decir que un coeficiente de correlación será positivo, negativo o 0.
La línea de mejor ajuste:
La línea de mejor ajuste se traza de acuerdo con los datos previos recogidos y se utiliza para predecir la correlación ideal entre dos variables dadas. Actúa como referencia al trazar un Gráfico de dispersión.
Tipos de correlaciones:
A. Correlación positiva:
Cuando el valor de la variable dependiente aumenta con un incremento del coste de la variable independiente, decimos que existe una correlación positiva entre ambas.
B. Correlación negativa:
Cuando el valor de la variable dependiente disminuye con el aumento del coste de la variable independiente o viceversa, entonces decimos que las dos variables tienen una correlación negativa.
C. No hay correlación:
En caso de que no encontremos ninguna relación aparente entre las dos variables estudiadas, diremos que no hay correlación entre ellas.
Ejemplos de gráficos de dispersión
Problema: Encontrar la relación entre la factura eléctrica y la temperatura.
Solución: Se recogen los datos y se tabulan, representando los valores en un Gráfico de dispersión como se indica a continuación:
Fuente de la imagen: wallstreetmojo.com
En el gráfico de dispersión anterior, podemos ver que la factura de electricidad es menor cuando la temperatura es comparativamente más baja. Sin embargo, se incrementa con el aumento de la temperatura. También hay otros factores incluidos, lo que no hace una relación lineal. Aun así, podemos deducir que existe una correlación positiva entre el aumento de la temperatura y la factura eléctrica.
Problema: Encontrar la relación entre la edad y las horas de sueño necesarias.
Solución: Una vez más, los datos recogidos son después de la encuesta, y se crea un gráfico de dispersión como el siguiente:
Fuente de la imagen: shmoop.com
Podemos ver en el gráfico que, a medida que aumenta la edad, disminuye la cantidad de sueño. Por tanto, podemos decir que existe una clara correlación negativa. Sin embargo, los datos aquí se restringen hasta los 20 años, lo que significa que la relación podría o no cambiar para valores más altos de la edad.
En este caso, no hay relación entre las dos variables, y podemos verlo en un gráfico de dispersión ya que no hay dirección para los valores. Aquí hemos tomado dos variables independientes como por ejemplo la altura y las horas de estudio. Estos datos no tienen ninguna relación aparente con el gráfico y si se dibuja se verá algo como esto:
Fuente de la imagen: gstatic.com
¿Cómo crear un gráfico de dispersión con Edraw Max Online?
Actualmente, crear un gráfico de dispersión se ha convertido en algo muy sencillo. Ya no es necesario hacerlo con papel y bolígrafo, aunque es la forma en que aprendemos. Por otra parte, a nivel profesional, los mejores resultados siempre se ven cuando se utiliza una herramienta de diagramación como Edraw Max Online, para crear Gráficos de dispersión. Es una gran herramienta para tener en tu inventario. Además, al ser una herramienta online, no necesitas descargarla en tu computador.
Antes de crear un Gráfico de dispersión, es necesario entender las diferentes correlaciones y coeficientes de correlación como se ha descrito anteriormente.
- “+1” significa correlación lineal positiva.
- “0” significa que no hay correlación.
- “-1” significa correlación lineal negativa.
-
Si el valor del coeficiente es como 0
- Si el valor del coeficiente es -1
- Si el valor del coeficiente es -1
A continuación, familiarízate con la interfaz de Edraw Max Online.
Ahora que hemos terminado, vamos a ver cómo podemos crear un gráfico de dispersión utilizando Edraw Max Online:
- Paso 1: En tu navegador, abre la página de inicio y accede con tus credenciales.
- Paso 2: En el menú ‘Gráficos y tablas’ selecciona la opción ‘Dispersión’ para que se abra una ventana de dibujo.
- Paso 3: En la parte izquierda del lienzo de dibujo, encontrarás algunas plantillas predefinidas para usar, selecciona la que prefieras con la función de arrastrar y soltar y suéltala en el lienzo.
- Paso 4: Puedes trazar manualmente cada dato, o puedes importarlo desde un archivo, para esto, pasa por encima del botón de datos situado en la parte derecha del gráfico y haz clic en la opción ’Importar’.
- Paso 5: Selecciona el archivo que quieras; es compatible con los tipos de archivo .csv, .txt, .xls, .lsx, entre otros.
- Paso 6: Mientras lo haces, verás que el gráfico de dispersión cambia en consecuencia.
- Paso 7: Puedes mostrar u ocultar la etiqueta de datos e incluso cambiarla haciendo doble clic sobre ella, para hacerlo tienes que seleccionar la misma opción desde el botón de datos que se encuentra en la parte derecha.
- Paso 8: También puedes agregar o eliminar un punto desde el botón de acción.
- Paso 9: Puedes establecer los valores mínimos y máximos desde el mismo lugar.
- Paso 10: Una vez que hayas finalizado el gráfico, guarda tu trabajo en Google cloud.
Problemas comunes a los que te puedes enfrentar
- Ocurre cuando hay demasiados valores de datos.
- Esto dificulta la comprensión de la correlación entre las variables y, por lo tanto, la medida se vuelve difícil de calcular.
Solución: Realiza un muestreo aleatorio de los valores de los datos y traza estas muestras como un subconjunto del conjunto de datos.
- Aunque podamos encontrar una correlación entre dos variables no significa que sean responsables del comportamiento de la otra; una tercera variable puede estar afectando a la acción, y puede pasar desapercibida.
Solución: En estos casos, diferentes herramientas resultan útiles, como el coeficiente de correlación de Pearson.
En esta ventana, puedes crear tu diagrama de cableado eligiendo diferentes símbolos de diagrama de cableado de la biblioteca de símbolos. Hay varios símbolos disponibles, como la ruta de transmisión, los símbolos de calificación, los dispositivos semiconductores, los interruptores y relés, y otros símbolos eléctricos necesarios.