In human & social science for women empowerment
Introducción Introducción
Sección 1: Historia breve ● Project R nació en el departamento de estadística de la Universidad de Auckland, Nueva Zelanda;
● Los fundadores del proyecto son Robert Gentleman y Ross Ihaka, ahora profesores titulares de universidad);
● El proyecto comenzó en 1991, pero la primera versión se lanzó en 1996;
● El software R ahora se considera el lenguaje de computación estadística más potente del mundo;
Sección 2: El entorno informático
●Multiplataforma (Windows, MacOS, Linux);
●Código abierto (software, manuales, tarjetas de referencia, todo descargable desde el sitio web www.r-project.org);
●Cuenta con numerosas herramientas integradas para el análisis de datos;
●Permite el cálculo matricial;
●Fácil uso; útil para el almacenamiento de datos;
●El término “entorno” pretende destacar que R es un sistema completamente planificado y coherente, no una colección de herramientas extremadamente específicas e inflexibles.
Sección 3: Técnicas de Análisis Estadístico
La mayoría de las técnicas estadísticas, desde las más clásicas hasta las más recientes, hans sido implementadas en el entorno R.
Solo algunos técnicas se integran en el entorno básico, muchas otras se ofrecen en forma de paquetes a través de la familia de sitios web denominada CRAN (Comprehensive R Archive Network). Sección 4: Comunidad ⮚ Una comunidad de más de 2 millones de usuarios y desarrolladores ofrece su tiempo y experiencia técnica para mantener, apoyar y desarrollar el lenguaje y el entorno R, las herramientas y la infraestructura.
⮚ En el corazón de la comunidad, el R Core Group, de unos 20 miembros, se encarga del mantenimiento de R y guía su evolución.
⮚ La estructura pública oficial es proporcionada por la Fundación R, una organización sin ánimo de lucro que garantiza la estabilidad financiera de R-project y administra los derechos de autor del software y la documentación.
Software R Cómo instalar el software R
●Desde el sitio https://www.r-project.org/
●Haga click en Descargar R (download R)
●Elija el CRAN que desee (es decir, el lugar físico desde el que descargar el software)
●Elija el sistema operativo en el que descargar el programa (Windows, Linux, MacO)
●Haga clic en instalar R por primera vez
●Iniciar la descarga
¿Qué aspecto tiene R?
RStudio Exploremos RStudio
⮚ La interfaz más utilizada y accesible es RStudio, que se puede descargar desde https://www.rstudio.com/
⮚ RStudio utiliza una interfaz fácil de usar para facilitar su uso;
⮚ Haga clic en Descargar (RStudio);
⮚ Elija la versión gratuita;
⮚ Iniciar la descarga;
⮚ Entorno de desarrollo integrado (IDE) para R;
⮚ El entorno de trabajo de RStudio consta de 4 ventanas:
Code (código) (escribir//ejecutar scripts) Console (consola) (Línea de comandos//Vista de salida) Object (objetos) (lista de objetos//historial de comandos) Package (paquete) (ayuda) Ventana Multitab (de pestañas múltiples)
⮚ Paquetes: para descargar paquetes que permiten realizar análisis estadísticos, como por ejemplo Análisis de Componentes Principales.
Ejemplo: haga clic en Instalar e instale el paquete ggplot2 ⮚ Help (Ayuda) : para acceder a la descripción del paquete.
Ejemplo: Escriba ggplot2 ⮚ Files (Archivos) : permite acceder rápidamente a los archivos guardados después de crear un proyecto R
Creación de un proyecto
⮚ Con RStudio puedes crear un proyecto para definir el directorio de trabajo y tener en él todos los datos, paquetes y códigos.
⮚ Para crear un nuevo proyecto hay que ir al menú en la parte superior izquierda y seleccionar File -> New Project (Archivo -> Nuevo proyecto)
⮚ Primeros pasos: carga de datos
⮚ R puede leer diferentes tipos de datos (TXT, CSV, XLS, XLSX, SPSS, STATA), pero la forma más sencilla e inmediata es el formato CSV (Comma Separated Value).
⮚ Para cargar un archivo CSV, seleccione Environment (Entorno) en el menú en la parte superior derecha -> Import Dataset (Importar conjunto de datos) -> From Text File (Desde archivo de texto), Después seleccionar el directorio y archivo.
R Notebook y R Script
⮚ Permiten hacer un seguimiento de los códigos y análisis realizados dentro del proyecto R y guardarlos en el ordenador para consultas posteriores.
R Notebook (Cuaderno R) permite crear un informe sobre un proyecto ya que incorpora todos los pasos, operaciones y gráficos creados.
R Notebook (Cuaderno R): los comandos deben escribirse dentro de un espacio especial (ALT + CTRL + I), las descripciones
Script R (Guión):
Sirve para crear un archivo donde escribir todos los códigos útiles para el análisis a realizar El botón “Run” (Ejecutar) en la parte superior derecha procesa los códigos
⮚ Es posible seleccionar todos los códigos y procesarlos simultáneamente
Cargar un conjunto de datos
Estadísticas Descriptivas "Resumen"
Se puede hacer una primera exploración de la distribución de las variables contenidas en la base de datos de los países con el comando Summary (resumen), que se tiene que escribir en la ventana CONSOLE (Consola). summary(nombre del conjunto de datos / o nombre las variables)
Otras estadísticas descriptivas Es posible asignar un nombre a cada columna de interés: Los principales índices de síntesis para variables cuantitativas son: ⮚Promedio: mean(PIL) o mean(nazioni$PIL.pro.capite) o mean(nazioni[,3])
⮚Varianza: var(PIL) o var(nazioni$PIL.pro.capite) o var(nazioni[,3])
⮚SQM (desviación estándar): sd(PIL) o (nazioni$PIL.pro.capite) o sd(nazioni[,3])
Gráficos en R
GRÁFICO DE CAJA: El box-plot (o gráfico de caja) describe una variable cuantitativa a través de la representación gráfica del mínimo, máximo, cuartiles and mediana. ⮚boxplot(nazioni$PIL.pro.capite, main = "Box-Plot del PIL pro capite")
ó ⮚boxplot (nazioni[,4], main = "Box-Plot del PIL pro capite")
ó ⮚boxplot(PIL, main = "Box-plot del PIL pro capite")
DIAGRAMA DE DISPERSIÓN:
⮚ Para realizar un análisis exploratorio sobre el tipo de relación entre dos variables
⮚ Ejemplo de la base de datos: analiza la relación entre la edad promedio y la esperanza de vida. ¿Existe algunarelación?
⮚1) Nombre variables de interés
eta<-nazioni$Et..media ⇒ edad media asp<-nazioni$Aspettativa.di.vita ⇒ esperanza de vida El comando para preparar el diagrama de dispersión es: plot(asp, eta, xlab="Aspettativa di vita", ylab="Età media")
DIAGRAMA DE DISPERSIÓN: ¿Qué puedes decir?
A partir del diagrama de dispersión observamos que puede haber una relación entre las variables Esperanza de vida (Xlab) y Edad promedio (Ylab). En concreto, a medida que aumenta la edad media, aumenta la esperanza de vida.
Análisis de correlación:
CORRELACIÓN MODERADA VARIABLES CUALITATIVAS ⮚ Cargar conjuntos de datos ANAG
⮚ Pon nombre a la columna GENDER: sesso<-ANAG$Sesso
⮚ Para las variables cualitativas, la primera descripción se refiere al análisis de distribución de frecuencias.
Crea la distribución de frecuencias para la variable “sesso”: table(sesso) GRÁFICO CIRCULAR
⮚ Un modo de representación gráfica de la distribución de una variable cualitativa es el gráfico circular (piechart), cuyos segmentos son proporcionales a las frecuencias de cada categoría.
x<-table(sesso) ⮚ Gráfico circular sin porcentajes:
pie(x, main = "Gráfico a torta sul sesso")
GRÁFICO CIRCULAR SIN PORCENTAJES
GRÁFICO CIRCULARE PIE CON PORCENTAJES etiquetas <- c("Femmina", "Maschio", "N/A") #AÑADIR ETIQUETAS n<-longitud(ANAG) #IMPORTACIÓN DE NÚMEROS DE MUESTRA pct <- round(x/n*100) #CÁLCULO DE PORCENTAJES lbls <- pegar(etiquetas, pct) # AGREGAR PORCENTAJES A LAS ETIQUETAS lbls <- paste(lbls,"%",sep="") # AGREGAR EL SIMBOL % A LAS ETIQUETAS pie(x,labels = lbls, col=rainbow(length(lbls)),main= "Grafico a torta del genere dei rispondenti")
GRÁFICO CIRCULAR CON PORCENTAJES GRÁFICO DE BARRAS ⮚ Útil para variables cualitativas y para resaltar las frecuencias absolutas de cada variable.
X<-table(sesso) barplot(x, main="Genere dei rispondenti", border="blue", ylab="Frequenze Assolute")
GRÁFICO DE BARRAS: Calcular frecuencias relativas
|
Este curso presenta el concepto de Software RStudio. Aprenderemos la historia el entorno informático, Comunidad de Técnicas de Análisis, cómo instalarlo, y exploraremos RStudio Creación de un Cuaderno de Proyecto.