1. Manuales
  2. Data Scientist y lenguaje R - Guía de autoformación para el uso de Big Data

Data Scientist y lenguaje R Guía de autoformación para el uso de Big Data

  • Acceso ilimitado 24/7
  • Todos los libros online de ENI
  • Novedades todos los meses
  • Acceso 100% online
  • Disponible
  • Envío gratis a partir de 25 € de compra
  • Versión online gratis
  • Acceso gratuito a todos nuestros libros online durante 1 hora por toda compra
  • Consulta inmediata
  • Versión HTML online
  • Acceso ilimitado 24/7

Presentación

Todos los expertos se ponen de acuerdo en afirmar que el 90 % de los usos del Big Data provienen del uso de las data sciences. El objetivo de este libro es proponer una formación completa y operacional en las data sciences que permita producir soluciones mediante el uso del lenguaje R.

De este modo, el autor plantea un recorrido didáctico y profesional que, sin más requisito previo que un nivel de enseñanza secundaria en matemáticas y una gran curiosidad, permita al lector:

- integrarse en un equipo de data scientists,
- abordar artículos de investigación con un alto nivel en matemáticas,
- llegado el caso, desarrollar en lenguaje R, incluso nuevos algoritmos y producir bonitos gráficos,
- o simplemente gestionar un equipo de proyecto en el que trabajen data scientists, siendo capaces de dialogar con ellos de manera eficaz.

El libro no se limita a los algoritmos del "machine learning", sino que aborda diversos asuntos importantes como el procesamiento del lenguaje natural, las series temporales, la lógica difusa, la manipulación de imágenes.

La dinámica del libro ayuda al lector paso a paso en su descubrimiento de las data sciences y en el desarrollo de sus competencias teóricas y prácticas. El profesional descubrirá a su vez muchas buenas prácticas que puede adquirir y el gestor podrá surfear el libro tras haber leído con atención el bestiario de las data sciences de la introducción, que sin inexactitud o excesiva banalización presenta el tema ahorrando en aspectos matemáticos o en formalismos disuasivos.

Los programas en R descritos en el libro están accesibles para su descarga en el sitio web www.ediciones-eni.com y pueden ejecutarse paso a paso.


Los capítulos del libro:
Introducción – Primeros pasos con R – Dominar los fundamentos – Técnicas y algoritmos imprescindibles – Marco metodológico del data scientist – Procesamiento del lenguaje natural – Grafos y redes – Otros problemas, otras soluciones – Feature Engineering – Complementos útiles – Anexos – Conclusión

Índice

  • Introducción
    • 1. Data scientist, una disciplina de moda
    • 2. Las data sciences
    • 3. El Big Data
    • 4. La dinámica de este libro
      • 4.1 Nuestros objetivos
      • 4.2 La estructura del libro
        • 4.2.1 Los dos recorridos complementarios
        • 4.2.2 Recursos complementarios
    • 5. Pequeño bestiario de las data sciences
      • 5.1 Los fundamentos
        • 5.1.1 Aprendizaje y clasificación
        • 5.1.2 Pequeño vocabulario gráfico del machine learning
        • 5.1.3 Regresión
        • 5.1.4 Regresión lineal generalizada
        • 5.1.5 Árboles de decisión, poda, tala
        • 5.1.6 Clustering, k-means
        • 5.1.7 k-NN
        • 5.1.8 Modelos paramétricos
        • 5.1.9 Lazy algorithm (algoritmo perezoso)
        • 5.1.10 Overfitting: sobredeterminación, sobreaprendizaje
        • 5.1.11 Validación cruzada, regularización, bagging
        • 5.1.12 Optimización, descenso por gradiente
        • 5.1.13 Algoritmo voraz (greedy algorithm)
        • 5.1.14 Programación lineal, símplex, punto interior
        • 5.1.15 Estimación mediante el método de Monte-Carlo
        • 5.1.16 Entropía, independencia e información mutua
        • 5.1.17 Discretización
      • 5.2 Métodos «conjunto»
        • 5.2.1 Random forest
        • 5.2.2 AdaBoost (adaptative boosting)
      • 5.3 Leyes de probabilidad y de distribución
        • 5.3.1 Generalidades
        • 5.3.2 Pequeño bestiario de leyes de probabilidad
      • 5.4 Los grafos
        • 5.4.1 Vocabulario básico
        • 5.4.2 Conversión de una tabla de observaciones en un grafo, semejanza
    • 6. Informática profesional y datasciences
      • 6.1 La tecnología
      • 6.2 Business Intelligence versus Big Data
        • 6.2.1 Diferencias en términos de arquitectura
        • 6.2.2 Diferencias en términos de uso
        • 6.2.3 En resumen
    • 7. Notación
      • 7.1 Notación de los parámetros
      • 7.2 Otras notaciones
        • 7.2.1 Funciones y aplicaciones ... f(x), d(x,y) ...
        • 7.2.2 Algunas posibles confusiones
    • 8. Ahora, ¡es su turno!
  • Primeros pasos con R
    • 1. Instalación de los componentes
      • 1.1 Instalación y ejecución de R
      • 1.2 Instalación y ejecución de RStudio
      • 1.3 Instalación de nuevos paquetes
      • 1.4 Instalación de paquetes: complementos
    • 2. Toma de contacto con R
      • 2.1 R, una calculadora eficaz
      • 2.2 R, un lenguaje vectorial
      • 2.3 Funciones que trabajan sobre vectores
        • 2.3.1 Un primer análisis rápido de los datos
        • 2.3.2 Algunas estadísticas sencillas sobre los vectores
        • 2.3.3 Ordenar un vector
        • 2.3.4 Diversas funciones con suma, producto, min y max
      • 2.4 Tipos de datos simples
        • 2.4.1 Los booleanos
        • 2.4.2 Conjuntos
        • 2.4.3 Listas
        • 2.4.4 Factores
        • 2.4.5 Tablas
      • 2.5 Las funciones
        • 2.5.1 Creación y uso de una función simple
        • 2.5.2 Creación de un operador a partir de una función de dos variables
        • 2.5.3 Uso de las funciones y alcance de las variables
        • 2.5.4 Aplicación de las funciones sobre las matrices: apply
        • 2.5.5 Las funciones: completamente útiles
      • 2.6 Estructuras de control
        • 2.6.1 Instrucciones comunes con otros lenguajes
        • 2.6.2 Recorrer una matriz mediante bucles for
      • 2.7 Las cadenas de caracteres
      • 2.8 El formato de los números
      • 2.9 Fechas y tiempos
      • 2.10 Mediar la duración de un algoritmo
      • 2.11 Los números complejos
        • 2.11.1 Manipulación básica de los números complejos
        • 2.11.2 Visualización de números complejos
      • 2.12 Programación orientada a objetos
        • 2.12.1 Clases y objetos, breve descripción
        • 2.12.2 Constructores
        • 2.12.3 Herencia
        • 2.12.4 Objetos mutables
        • 2.12.5 Gestión de la pila: implementación Orientada a Objetos con RC
    • 3. Manipulación de los datos
      • 3.1 Lectura de los datos: fundamentos
      • 3.2 Manipulación de las columnas de un data.frame
      • 3.3 Cálculos simples sobre un data.frame
        • 3.3.1 Cálculos sobre las columnas y las filas
        • 3.3.2 Manipulación de las filas
        • 3.3.3 Aplicación: comparación de elementos de clases y Khi-2
        • 3.3.4 Creación de columnas calculadas
        • 3.3.5 Ordenar un data.frame mediante order()
      • 3.4 Análisis visual de los datos
        • 3.4.1 Visualización simple de los datos
        • 3.4.2 Visualización de variables numéricas 2 a 2 con mención de las clases
        • 3.4.3 Correlación entre variables numéricas
        • 3.4.4 Separación por clase, ggplot2, qplot
        • 3.4.5 Visualización 3D, relación entre tres variables numéricas
        • 3.4.6 Gráficos por pares
        • 3.4.7 Diagramas de caja y eliminación de outliers
        • 3.4.8 Creación de un modelo por árbol de decisión
  • Dominar los fundamentos
    • 1. Ponerse en armonía con los datos
      • 1.1 Algunas nociones fundacionales
        • 1.1.1 Fenómeno aleatorio
        • 1.1.2 Probabilidad, variable aleatoria y distribución
        • 1.1.3 Un poco de matemáticas: notaciones y definiciones útiles
        • 1.1.4 Momentos de una variable aleatoria discreta X
        • 1.1.5 Primeras consideraciones sobre los errores y estimaciones
      • 1.2 Familiarizarse con los datos
        • 1.2.1 R Commander
        • 1.2.2 Rattle
    • 2. Matrices y vectores
      • 2.1 Convenciones, notaciones, usos básicos
      • 2.2 Matrices, vectores: una introducción a la noción de aprendizaje supervisado
      • 2.3 Ir más lejos en la manipulación de matrices con R
        • 2.3.1 Operaciones básicas
        • 2.3.2 Algunos trucos útiles sobre las matrices de R
        • 2.3.3 Normas de vectores y normas de matrices
        • 2.3.4 Matrices y vectores: diversas sintaxis útiles
    • 3. Estimaciones
      • 3.1 Planteamiento del problema de estimación
        • 3.1.1 Formulación general del problema
        • 3.1.2 Aplicación y reformulación del problema de estimación
      • 3.2 Indicadores de desviación utilizados en machine learning
        • 3.2.1 MSE, RMSE, SSE, SST
        • 3.2.2 MAE, ME
        • 3.2.3 NRMSE/NRMSD, CV_MRSE
        • 3.2.4 SDR
        • 3.2.5 Accuracy, R2
    • 4. Puesta en práctica: aprendizaje supervisado
      • 4.1 Preparación
      • 4.2 Comprobar las hipótesis, p_value
        • 4.2.1 Análisis gráfico interactivo con iplots
        • 4.2.2 Test de Breush-Pagan y zoom sobre p_value
      • 4.3 Creación de un modelo (regresión lineal múltiple)
      • 4.4 Establecer una predicción
      • 4.5 Estudio de los resultados y representación gráfica
      • 4.6 Indicadores habituales - cálculos
      • 4.7 Estudio del modelo lineal generado
      • 4.8 Conclusión sobre el modelo lineal
      • 4.9 Uso de un modelo «Random Forest»
  • Técnicas y algoritmos imprescindibles
    • 1. Construir la caja de herramientas
    • 2. Representación gráfica de los datos
      • 2.1 Un gráfico «simple»
      • 2.2 Histogramas avanzados
        • 2.2.1 Distribución multiclase
        • 2.2.2 Mezcla de varias distribuciones por clase
        • 2.2.3 Visualización de la densidad de una distribución
        • 2.2.4 Otra mezcla por clase
        • 2.2.5 Una variable, pero un histograma para cada clase
        • 2.2.6 Gráfico con una densidad por clase
      • 2.3 Diagrama de pares y de facetas
        • 2.3.1 Diagrama por pares, versión simple
        • 2.3.2 Clases en configuración XOR
        • 2.3.3 Diagrama por pares con «factores»
        • 2.3.4 Facetas y escala logarítmica
    • 3. Machine learning: prácticas corrientes
      • 3.1 Recorrido teórico acelerado
        • 3.1.1 Linealidad
        • 3.1.2 Errores in y out, noción de dimensión VC
        • 3.1.3 Hiperplanos, separabilidad con márgenes
        • 3.1.4 Kernel Trick, núcleos, transformaciones, feature space
        • 3.1.5 Problemas de la regresión: introducción a la regularización
      • 3.2 Práctica por práctica
        • 3.2.1 Cross validation: k-fold CV
        • 3.2.2 Naive Bayes
        • 3.2.3 C4.5 y C5.0
        • 3.2.4 Support Vector Machines (SVM)
        • 3.2.5 Clusterización, k-means
    • 4. ¿ Dónde nos encontramos en nuestro aprendizaje ?
      • 4.1 Sus conocimientos operacionales
      • 4.2 Las posibles lagunas que es preciso cubrir ahora
  • Marco metodológico del data scientist
    • 1. El problema metodológico a nivel del proyecto
      • 1.1 La expresión de una necesidad
      • 1.2 La gestión del proyecto
    • 2. El ciclo interno de data sciences
      • 2.1 Revisión detallada del problema planteado
      • 2.2 Trabajos previos sobre los datos
        • 2.2.1 Exigencias sobre los datos
        • 2.2.2 Recogida, limpieza y comprensión de los datos
      • 2.3 El ciclo de modelado
        • 2.3.1 Feature engineering
        • 2.3.2 Modelado y evaluación
        • 2.3.3 Escoger el mejor modelo
        • 2.3.4 Test, interpretación y confrontación con negocio
      • 2.4 Preparación de la industrialización y despliegue
      • 2.5 Preparación de las siguientes iteraciones
        • 2.5.1 Elementos que es preciso tener en cuenta
        • 2.5.2 Documentación gestionada por los data scientists
    • 3. Complementos metodológicos
      • 3.1 Clasificar sus objetivos
      • 3.2 Trucos y argucias
  • Procesamiento del lenguaje natural
    • 1. Definición del problema
    • 2. Análisis semántico latente y SVD
      • 2.1 Aspectos teóricos
        • 2.1.1 SVD: generalidades
        • 2.1.2 Una justificación de la descomposición SVD
        • 2.1.3 SVD en el contexto LSA
        • 2.1.4 Interpretación
        • 2.1.5 Alternativa no lineal, Isomap (MDS, geodésico, variedad, manifold)
      • 2.2 Puesta en práctica
        • 2.2.1 Inicialización
        • 2.2.2 En el núcleo de LSA
        • 2.2.3 Resultados
        • 2.2.4 Manipulaciones, interpretaciones recreativas y no fundadas
  • Grafos y redes
    • 1. Introducción
    • 2. Primeros pasos
      • 2.1 Algunas nociones y notaciones complementarias básicas
      • 2.2 Manipulaciones simples de grafos con R
      • 2.3 Estructura de los grafos
    • 3. Grafos y redes (sociales)
      • 3.1 Análisis de las redes sociales: conceptos básicos
      • 3.2 Puesta en práctica
      • 3.3 Detección de comunidades
  • Otros problemas, otras soluciones
    • 1. Series temporales
      • 1.1 Introducción
      • 1.2 Modelo estacionario
        • 1.2.1 Proceso estacionario: los fundamentos
        • 1.2.2 Proceso autorregresivo AR: ir más lejos
        • 1.2.3 Consideraciones (muy) útiles
      • 1.3 Procesos no estacionarios
        • 1.3.1 El modelo ARIMA
        • 1.3.2 Procesos estacionales: SARIMA
        • 1.3.3 Modelos ARCH y GARCH
        • 1.3.4 Convolución y filtros lineales
      • 1.4 Puesta en práctica
        • 1.4.1 Los fundamentos de la manipulación de las series temporales en R
        • 1.4.2 Estudio de las series temporales
        • 1.4.3 Predicciones sobre ARIMA (AR MA SARIMA)
      • 1.5 Minibestiario ARIMA
    • 2. Sistemas difusos
    • 3. Enjambre (swarm)
      • 3.1 Swarm y optimización: el algoritmo PSO
        • 3.1.1 Presentación de PSO
        • 3.1.2 Descripción de PSO
      • 3.2 Puesta en práctica de PSO
  • Feature Engineering
    • 1. Feature Engineering, los fundamentos
      • 1.1 Definición del problema
      • 1.2 Sobre qué hay que estar muy atento
        • 1.2.1 La calidad de la distribución
        • 1.2.2 La naturaleza de las features
      • 1.3 Dominar la dimensionalidad
      • 1.4 Una solución práctica: el PCA
      • 1.5 Un ejemplo simple del uso del PCA
      • 1.6 Los valores desconocidos y las features mal condicionadas
      • 1.7 Creación de nuevas features
      • 1.8 A modo de conclusión
    • 2. PCA clásico, elementos matemáticos
    • 3. Reducción de los datos (data reduction)
    • 4. Reducción de la dimensionalidad y entropía
      • 4.1 Descripción teórica del problema
      • 4.2 Implementación en R y discusión
  • Complementos útiles
    • 1. GAM: generalización de LM/GLM
    • 2. Manipulación de imágenes
      • 2.1 Creación, visualización, lectura y escritura de imágenes
      • 2.2 Transformaciones de imágenes
        • 2.2.1 Ejemplos de manipulación del color y de las intensidades
        • 2.2.2 Ejemplos de manipulación de la geometría de la imagen
        • 2.2.3 Aplicación de filtros sobre las imágenes
    • 3. Cómo crear una muestra: LHS (hipercubo latino)
    • 4. Trabajar sobre datos espaciales
      • 4.1 Variograma
        • 4.1.1 Campo y variable regionalizada
        • 4.1.2 Determinación del variograma
      • 4.2 Krigeage (kriging)
        • 4.2.1 La teoría, brevemente
        • 4.2.2 Implementación en R
    • 5. Buenas prácticas útiles
      • 5.1 Trazar una curva ROC
      • 5.2 Una red neuronal (primeros pasos hacia el deeplearning)
    • 6. Gradient Boosting y Generalized Boosted Regression
      • 6.1 Los grandes principios
      • 6.2 Los parámetros y los usos (paquete GBM)
        • 6.2.1 Covarianza
        • 6.2.2 Loss
        • 6.2.3 Optimización del algoritmo
      • 6.3 Puesta en práctica
  • Anexos
    • 1. Acerca de la utilidad de estos anexos
    • 2. Fórmulas
    • 3. Estrategias según la naturaleza de los datos
      • 3.1 Recuentos
      • 3.2 Proporciones
      • 3.3 Variable de respuesta binaria
      • 3.4 Datos que inducen un modelo mixto (mixed effect)
      • 3.5 Datos espaciales
      • 3.6 Grafos
      • 3.7 Análisis de supervivencia (survival analysis)
    • 4. Filtros (sobre imágenes)
    • 5. Distancias
    • 6. Trucos y pequeños consejos
      • 6.1 Acerca de los tests
      • 6.2 Gestión de las variables
      • 6.3 Análisis y manipulación de resultados
        • 6.3.1 Residuos
        • 6.3.2 Manipulación de los modelos
    • 7. Paquetes y temas para estudiar
      • 7.1 Creación de gráficos JavaScript con R
      • 7.2 Crear uniones como en SQL
      • 7.3 Reglas de asociación
      • 7.4 Exportar un modelo
      • 7.5 Tensores
      • 7.6 SVM para la detección de novedades (novelty detection)
    • 8. Vocabulario y «tricks of the trade»
      • 8.1 Complementos sobre las bases del machine learning
      • 8.2 Complementos sobre los aspectos bayesianos
      • 8.3 Vocabulario (en inglés) de los modelos gaussianos
    • 9. Algoritmos para estudiar
    • 10. Algunas formulaciones de álgebra lineal
    • Conclusión
    • índice

Autor

Henri LAUDEMás información

Henri LAUDE es un reconocido profesional de las Computer Sciences. Ha afrontado numerosos proyectos de I+D relativos a las data sciences, vinculados a la inteligencia económica, a la IA, a los riesgos, a la detección de fraude y a la ciberseguridad. Presidente de la APIEC (Asociación para la Promoción de la Inteligencia Económica), Chief Data Scientist y fundador del Laboratorio de Data Sciences y Big Data BlueDsX del grupo BlueSoft, es también cofundador de la startup Advanced Research Partners, donde dirige el desarrollo de algoritmos muy novedosos implementados en R y en Python sobre plataformas Hadoop y Spark.

Es un apasionado de las data sciences y pretende transformar a todos los lectores de su libro en data geeks o, al menos, dotarlos de la suficiente cultura general en este tema para que la utilicen en alcanzar sus objetivos.

Características

  • Nivel Experto
  • Número de páginas 666 páginas
  • Publicación mayo 2017
    • Encuadernación rústica - 17 x 21 cm
    • ISBN: 978-2-409-00838-2
    • EAN: 9782409008382
    • Ref. ENI: EPTDASR
  • Nivel Experto
  • Publicación mayo 2017
    • HTML
    • ISBN: 978-2-409-00839-9
    • EAN: 9782409008399
    • Ref. ENI: LNEPTDASR

Descargas

Al completar este formulario, acepta recibir información y comunicaciones comerciales sobre nuestros productos y servicios. Puede darse de baja de nuestra newsletter en cualquier momento. Si desea conocer más información acerca de nuestra política de protección de datos, pulse aquí.
  • Descargar los ejemplos del libro (22,5 Mo)