Diego Arjona Argüelles, Director General Ángel Fierros Palacios, Director de Energías Alternas


Save this PDF as:
 WORD  PNG  TXT  JPG

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Diego Arjona Argüelles, Director General Ángel Fierros Palacios, Director de Energías Alternas"

Transcripción

1

2 unta sum Junta Directiva Presidente: Leonardo Fabio Beltrán Rodríguez, Subsecretario de Planeación y Transición Energética, Secretaría de Energía (SENER) Presidente suplente: Carlos Roberto Ortiz Gómez, Director General de Investigación, Desarrollo Tecnológico y Formación de Recursos Humanos, Secretaría de Energía (SENER) Secretario: Geovanni Anguiano Serrano, Director General Consultivo de la Unidad de Asuntos Jurídicos, Secretaría de Energía (SENER) Prosecretario: Fernando A. Kohrs Aldape, Director de Planeación, Gestión de la Estrategia y Comercialización, Instituto Nacional de Electricidad y Energías Limpias (INEEL) Consejeros titulares: Guillermo Ignacio García Alcocer, Comisión Reguladora de Energía (CRE) Nemorio González Medina, Centro Nacional de Control de Energía (CENACE) Alejandro Sibaja Ríos, Secretaría de Hacienda y Crédito Público (SHCP) José Antonio Lazcano Ponce, Consejo Nacional de Ciencia y Tecnología (CONACYT) Santiago Barcón Palomar, Cámara Nacional de Manufacturas Eléctricas (CANAME) Francisco Barnés de Castro, Consejo Mundial de Energía Comisario público: Mario Alberto Cervantes García, Secretaría de la Función Pública (SFP) Representantes de Universidades y Centros de Investigación: Arturo Molina Guitiérrez, Instituto Tecnológico y de Estudios Superiores de Monterrey (ITESM) Jesús Antonio del Río Portilla, Instituto de Energías Renovables, UNAM Peter F. Green, National Renewable Energy Laboratory (NREL) Diego Arjona Argüelles, Director General Ángel Fierros Palacios, Director de Energías Alternas Comité Editorial Salvador González Castro, Director de Tecnologías Habilitadoras Rolando Nieva Gómez, Director de Sistemas Eléctricos Eduardo Preciado Delgado, Director de Sistemas Mecánicos Fernando A. Kohrs Aldape, Director de Planeación, Gestión de la Estrategia y Comercialización Alfredo Gómez Luna Maya, Director de Administración y Finanzas Gladys Dávila Núñez, Jefa del Departamento de Difusión, coordinación editorial, redacción y corrección de estilo Arturo Fragoso Malacara, diseño editorial y fotografía Alberto Ayala García, imagen de portada Verónica García Rodríguez, diagramación, formación y cuidado de la edición Wendy Lugo Sandoval, publicación electrónica Ana María Sámano Ramírez, distribución ELECTRICIDAD Y ENERGÍAS LIMPIAS, año 1, núm. 1, enero-marzo Publicación trimestral de distribución gratuita y editada por el Instituto Nacional de Electricidad y Energías Limpias (INEEL). Reforma 113, colonia Palmira, C.P , Cuernavaca, Morelos, México. Teléfono: (777) , Editora responsable: Gladys Dávila Núñez. Reservas de derechos al uso exclusivo número en trámite, ISSN: número en trámite, ambos otorgados por el Instituto Nacional del Derecho de Autor, Licitud de Título y Contenido número en trámite, otorgado por la Comisión Calificadora de Publicaciones y Revistas Ilustradas de la Secretaría de Gobernación. Los artículos firmados son responsabilidad de sus autores. El material de este boletín solo puede reproducirse parcial o totalmente con la autorización escrita del INEEL.

3 sumario Editorial Divulgación Simulación de la densidad vehicular para adaptar la optimización del transporte de energía en un modelo de competitividad asociado con una Smart City / Simulation of vehicular density to adapt the optimization of energy transport in a model of competitiveness associated with a Smart City. Carlos Alberto Ochoa Ortiz-Zezzatti, Gustavo Arroyo Figueroa, María Yasmín Hernández Pérez, José Alberto Hernández Aguilar, Peter Savier Oropeza Martínez y Diego Hurtado Olivares. Tendencia tecnológica Plataformas tecnológicas de Big Data / Big Data Technology Platforms. Guillermo Flavio Escobedo Briones, Norma Elena Jácome Grajales y Gustavo Arroyo Figueroa. Sistemas inteligentes y adaptativos para modelos mixtos de capacitación en el dominio eléctrico / Intelligent and adaptive systems for mixed models of training in the electrical domain. María Yasmín Hernández Pérez. 34 Aplicaciones tecnológicas Plataforma analítica Big Data / Big Data Analytical Platform. Benjamín Eddie Zayas Pérez, Javier Alberto Pérez Garza y Alfredo Espinosa Reza. 44 Comunidad INEEL 48 Breves técnicas Sistema inteligente para el monitoreo y prevención de ataques en redes informáticas / Intelligent System for the monitoring and prevention of attacks in computer networks. Gustavo Arroyo Figueroa y José Alberto Hernández Aguilar. 50 Artículo de investigación Framework for the development of secure web systems for electrical companies / Marco para el desarrollo de sistemas Web seguros para empresas eléctricas. Isaí Rojas González y Gabriel Sánchez Pérez. Article originally published in CIGRE SCD2 Colloquium 2015 of Conseil International des Grands Reseaux Electriques International Council on Large Electric Systems, october 08-09, 2015, Lima, Perú, Paper D2_03_03. 1

4 edito Editorial En los últimos años ha ocurrido un cambio sustancial en la manera en que las tecnologías de la información (TI) han impactado en la economía, la ciencia, la industria y la sociedad; esto ha representado una revolución que está cambiando la manera de hacer negocios, de atender la salud, de educar, de hacer política, de diseñar la mercadotecnia y de innovar. En el mundo actual casi todo dispositivo electrónico se encuentra conectado a una red informática, generando datos e información, es por ellos que han surgido paradigmas como el internet de las cosas, cómputo en la nube, dispositivos móviles, redes sociales y seguridad informática, entre otras. Informes de compañías dedicadas al manejo de datos señalan que 1.8 ZB de datos fueron creados en 2011 en todo el mundo, y se estima que esta cifra se incrementará en 50 veces en el año Nos encontramos en la era de la gestión de grandes volúmenes de datos. El sector de la energía por su carácter estratégico, no se podía quedar atrás, se están generando grandes cantidades de datos sobre la producción y el consumo de energía y se están digitalizando los sistemas energéticos con la creciente penetración de las tecnologías de la información mediante el paradigma de Red Eléctrica Inteligente (REI). La REI introdujo el concepto de flujo de información. Está diseñada para integrar el flujo de información y el flujo de energía, logrando así la recopilación de datos y la transmisión de energía al mismo tiempo. En la REI se recopilan grandes volúmenes de datos y diversos tipos de datos, como los datos de estado del dispositivo, consumo de electricidad, datos e información de interacción del usuario. Background image created 2

5 by Fanjianhua - Freepik.com editorial Basado en el análisis de grandes volúmenes de datos, la red inteligente puede detectar y restaurar rápidamente los fallos, responder de manera oportuna a la demanda de electricidad, suministrar energía más confiable y económica y permitir a los clientes tener más control sobre su uso de energía. Los grandes analíticos de datos pueden proporcionar un soporte de decisión eficaz y eficiente para todos los productores, operadores, clientes y reguladores en la red inteligente. Es por esto que el Instituto Nacional de Electricidad y Energías Limpias (INEEL) enfoca los esfuerzos para sistemas fotovoltaico y eólico para la mejor toma de ofrecer las soluciones tecnológicas decisiones. El segundo es un Sistema inteligente y en el tema de la gestión de adaptativo para modelos mixtos de capacitación en el dominio eléctrico que ofrece un modelo mixto para la capacitación mediante un ambiente virtual controlado y seguro. información masiva, para hacer frente a los diversos retos que implica el manejo de grandes datos; que genere mejores tomas de decisiones en el ámbito del sector energético; enfatizando en la aplicación de paradigmas como Big Data, analítica empresarial, ciudades inteligentes, seguridad informática, aplicaciones de Inteligencia Artificial y su impacto en el sector energía. En este número, la sección de divulgación presenta un artículo sobre la Simulación de la densidad vehicular para adaptar la optimización del transporte de energía en un modelo de competitividad asociado con una Smart City que ofrece un panorama sobre las consideraciones para la optimización del flujo vehicular en una metrópoli, como una solución tendiente a una Ciudad Inteligente. Se ofrecen dos artículos de tendencia tecnológica, el primero trata sobre la Plataformas tecnológicas de Big Data que presenta un análisis de las herramientas actuales aplicadas a la información generada por los El artículo sobre aplicaciones tecnológicas titulado Plataforma analítica de Big Data brinda los conceptos principales para implementar una plataforma de código abierto para el modelado predictivo, la analítica avanzada y la correcta interpretación para la toma de decisiones. Una breve técnica acerca de seguridad informática describe el Sistema inteligente para el monitoreo y prevención de ataques en redes informáticas que integra algoritmos de inteligencia artificial en apoyo a la seguridad cibernética en la red eléctrica inteligente. El artículo de investigación titulado Framework for the development of secure web systems for electrical companies presenta una alternativa de seguridad para el desarrollo de portales Web corporativos. Sin duda alguna, la Informática Avanzada que incluye temas como analítica empresarial, seguridad informática, Big Data, capacitación avanzada, ciudades inteligentes, es el tema de actualidad que apoyará la transformación de los diferentes sectores productivos para generar soluciones novedosas en la resolución de problemas complejos, particularmente en los asociados a los del Sistema Eléctrico Nacional, logrando su modernización, seguridad y confiabilidad, haciéndolo económicamente viable y rentable. 3

6 Simulación de la densidad vehicular para adaptar la optimización del transporte de energía en un modelo de competitividad asociado con una Smart City Carlos Alberto Ochoa Ortiz-Zezzatti, Gustavo Arroyo Figueroa, María Yasmín Hernández Pérez, José Alberto Hernández Aguilar, Peter Savier Oropeza Martínez y Diego Hurtado Olivares Abstract Background image created In this research, we present the proposal of an intelligent logistics model that helps to influence the optimization of the traffic flow in an Intelligent City, with which it is possible to reduce the traffic accidents specifically those related to the transport of any type of product to generate energy. In addition, the problem of vehicle routing (VRP) is the approach from which the logistics problem is addressed, including: organization of the vehicle fleet, management and distribution of materials from a point to a destination. This work focuses on the use of an instance with the purpose of implementing an improvement to the transport of hydrocarbons in the Metropolitan Area of Cuernavaca (AMC). This application uses the language for technical calculation MATLAB and the bio-inspired algorithm Ant Colony. INEEL, since 2016, through an ecosystem of innovation group, has proposed solutions for the Smart Cities to make life more meaningful for people. 4

7 divulgación Resumen by Fanjianhua - Freepik.com En esta investigación, se presenta la propuesta de un modelo de logística inteligente que permite ayudar a influir en la optimización del flujo vehicular en una Ciudad Inteligente (Smart City), con lo que se logra reducir los accidentes de tráfico específicamente los relacionados con el transporte de cualquier tipo de producto para generar energía. Además, el problema del enrutamiento de vehículos (VRP por sus siglas en inglés), es el enfoque desde el que se enfrenta el problema de la logística incluyendo: organización de la flota vehicular, gestión y distribución de mercancías de un punto a un destino. Cuando se requiere considerar la distribución de cargas al problema clásico, entonces se considera el VRP con la extensión de capacidad o CVRP. El presente trabajo se centra en el uso de una instancia con el propósito de implementar una mejora al transporte de hidrocarburos en el Área Metropolitana de Cuernavaca (AMC). Esta aplicación utiliza el lenguaje para cálculo técnico llamado MATLAB y utiliza el algoritmo bioinspirado llamado Ant Colony. Los resultados muestran que la ruta puede ser optimizada mediante la distribución y reordenamiento de las unidades para que todos los puntos estén cubiertos. Desde el 2016, el INEEL mediante un grupo del tipo ecosistema de innovación ha propuesto soluciones para las Smart Cities para hacer más significativa la vida de las personas. Introducción Las ciudades representan la evolución de nuestra sociedad y según los últimos informes de la ONU en 2050 concentrarán el 70% de la población mundial. Esto significa que 6,700 millones de personas, o lo que es lo mismo, toda la población mundial de hace sólo siete años, coexistirán en poco más de 35 años, en entornos urbanos. Ante esta realidad, debemos esforzarnos por convertir estos espacios urbanos en entornos eficientes y sostenibles. Estos dos grandes retos requieren acciones intensivas para apoyar y acelerar el desarrollo y la transformación de nuestras ciudades actuales en ciudades inteligentes para servir a los espacios públicos. En este contexto, el transporte de hidrocarburos representa un campo de estudio cada día más extenso para el sector académico y científico, ya que el traslado de un punto de la ciudad a otro es una actividad difícil por lo que es necesario estudiar técnicas y alternativas que contribuyan a la mejora del problema. Según el último censo denominado Conteo 2015 del Instituto Nacional de Estadística y Geografía de 2015, en Morelos existen 977,268 vehículos de motor y 547,925 transitan en el área metropolitana de la ciudad de Cuernavaca (AMC); de estas unidades 7,884 son camiones de pasajeros incluyendo transporte para llevar suplementos energéticos con un porcentaje de 7% (INEGI, 2011); 5

8 divul Electricidad y Energías Limpias enero-marzo el problema reside en el hecho de que si se considera que para ese año la población total del Estado era de 1,892,560, el porcentaje de personas que tenían un coche era de 52.7%, lo que significa que se tenía más de un coche por persona. Se destaca en segundo lugar el transporte de hidrocarburos con el 28.3% sólo por debajo de los viajes a pie con un 37.4% (Baptista, 2009). Esta investigación propone la implementación de un ejemplo para resolver el CVRP implementando datos reales de una ruta de transporte de hidrocarburos en la AMC. En la presente investigación se utilizarán algunas técnicas de Inteligencia Artificial a fin de caracterizar adecuadamente la problemática del transporte y su mejora para hacer competitivo el transporte con miras a un modelo de Smart City. Complejidad para optimizar el transporte de hidrocarburos en el área metropolitana de Cuernavaca Los problemas metropolitanos, más allá de las capacidades institucionales de los gobiernos, dado el excesivo crecimiento demográfico, aumentan la demanda de servicios públicos, por lo que la coordinación intergubernamental más deseable es intrínseca también a nivel municipal, estatal y nacional de los organismos de los que esta área es parte. Además, no existe un marco jurídico adecuado, a nivel nacional, que permita a las instituciones estar obligadas a organizarse para la ejecución de planes y programas en beneficio de los ciudadanos. Por lo tanto, la coordinación intergubernamental en el Área Metropolitana de Cuernavaca se da por acuerdo de testamentos, en lugar de hacerlo con alguna normativa vigente al respecto. La relevancia de este estudio se basa en el hecho de que la literatura sobre Logística Social atrae la coordinación intergubernamental como un mecanismo para fortalecer los niveles locales, especialmente en la búsqueda de eficiencia en la prestación de servicios públicos. Sin embargo, en las áreas metropolitanas tal coordinación se da por los acuerdos de buena voluntad entre los diversos niveles de gobierno en lugar de una institucionalización actual. Para abordar el tema es necesario analizar la evolución en la forma de interacción entre los diferentes niveles de gobierno que ha tenido lugar en México, desde los procesos de descentralización en la planificación hasta la gestión de los recursos para el transporte. Estos procesos coinciden en la década de los ochenta e implicaron la participación de niveles subnacionales para la planificación eficaz del desarrollo y Background image created by Fanjianhua - Freepik.com la aplicación de herramientas para el uso racional de los recursos públicos. Esta investigación tiene como objetivo analizar el problema del transporte desde la perspectiva de los sistemas inteligentes, utilizando específicamente la técnica de la Minería de Datos Sociales, ya que debe considerar todos los factores que influyen en este problema. Evolución y perspectivas del transporte en zonas metropolitanas Es necesario una coordinación específica para áreas metropolitanas complejas, se considera que el Área Metropolitana de Cuernavaca es complicada porque el número de elementos policiales para su vigilancia y la cantidad de parque vehicular, incluyendo autobuses de transporte, son insuficientes para la población atendida, lo que se considera es de alrededor de 871,452 personas, quedando séptimo en el Área Metropolitana de México. El estudio y análisis denominado metrópolis o megalópolis es un gran desafío para los estudiosos del modelado social debido a la complejidad que requiere temas como el federalismo, la descentralización, las relaciones intergubernamentales y cualquier nombre que desee dar a la interacción entre los diferentes actores políticos y territoriales. 6

9 divulgación La complejidad en el tratamiento Concentración de actividades secundarias y terciarias. de las áreas metropolitanas radica en las funciones superpuestas de Alta estratificación social y urbana. los diversos niveles de gobierno que conducen a alianzas y conflictos En México, el crecimiento exponencial de las ciudades entre grupos de gobierno, que puede explicarse por el crecimiento de la población y finalmente son los tomadores de la migración rural-urbana y ciudad-ciudad. Además de decisión en la prestación de servicios esto, los procesos localizadores de la economía han públicos, junto con la falta de llevado a la industrialización de las ciudades dando representación de los municipios como resultado grandes concentraciones urbanas en en los niveles de alta dirección, los pequeñas áreas territoriales. El principal reto es obtener mecanismos de financiación difíciles mejores oportunidades de ingresos para mejorar el y la distribución de los recursos escaso nivel de vida de los migrantes que llegan a públicos. Como ya se mencionó, el esta zona. Esto implica un cambio en la visión de los problema metropolitano va más allá gobiernos locales, ahora llamados metropolitanos, de las capacidades institucionales de cumplir y tratar de satisfacer las demandas de los del gobierno bajo creciente ciudadanos (incluido el transporte) que aumentarán demanda de servicios públicos. desproporcionadamente. Por lo tanto, la coordinación Según la literatura relacionada no solo es deseable para una mayor eficiencia en la con las áreas metropolitanas, se presentación de los servicios públicos municipales; pero define como el área territorial de es intrínseca en la vida cotidiana de los municipios influencia dominante de un centro metropolitanos. de población, y se centran en las competencias de los municipios y los El modelo VRP propuesto y su estados en cuanto a la coordinación implementación con un modelo de intergubernamental interestatal para bin packing la administración. Sus principales características son: Los municipios pueden pertenecer a una o más zonas metropolitanas. Afectan directamente con sus respectivas problemáticas a las demás localidades urbanas, semiurbanas y rurales establecidas en ese espacio. Una de las estrategias utilizadas para abordar el problema del transporte ha sido la VRP (Akbarzadeh-T, 2010). Esta es una propuesta hecha por G. B. Dantzig y J. H. Ramser que originalmente es una generalización del problema de Agente de Viajes (TSP), la cual establece una estrategia donde los automóviles disminuyen el consumo de gasolina, así como la distancia entre los puntos que visita el agente en nuestra investigación denominado como cada nodo o ubicación geoespacial por donde debe de recorrerse un periplo durante su recorrido a lo largo del camino de distribución (Campbell, 2011). Ejercen influencias y estado de derecho, atracción económica regional, situación política y demográfica. Mantiene la unidad territorial y/o funcional a través de varias cadenas de co-dependencia directa, cotidiana y recíproca entre sus componentes. No existe necesariamente conurbación metropolitana Descripción de la VRP La relevancia de analizar y solucionar este problema se debe a que es una parte importante del transporte y la logística, los cuales son cruciales en un modelo de negocio tradicional. Los elementos de este modelo son: producción, distribución y ventas. El costo del transporte se agrega al precio final de cualquier producto, pero en algunos casos este costo es alto. Por esta razón, se han realizado muchas investigaciones para mejorar esta situación con disciplinas como Manejo de la cadena de suministros, la cual trata de integrar los datos y los procedimientos de gestión, pero esto no es fácil 7

10 divul Electricidad y Energías Limpias enero-marzo porque requiere la integración entre Enterprise Resource Planning (ERP) y el sistema de procesamiento de datos empresariales (EDP). En la década de los noventa se comenzó a integrar ERP y DRP, implementación logística que vio la cadena de suministro como un proceso único desde el principio hasta el final, donde la mejora del costo de transporte fue la clave de esta cadena. El uso de estos sistemas permite ahorros significativos del 5% al 20%. Esto es posible, aunque el costo de minimización sea bajo, porque el proceso de distribución se lleva a cabo diariamente (Rodas, 2016). Problema de embalaje de la caja Fig. 1 El problema del embalaje de la caja es un problema de Representación de la carga de un contenedor y cómo se calculan los contenedores que se cargarán combinatoria bien conocido de NP-Hard que necesita posteriormente en el camión. encontrar la mejor manera posible de organizar artículos dentro de un compartimiento para lo cual se referirá a bin como la carga de la caja del vehículo de carga para distribuir. Muchas investigaciones han utilizado diferentes tipos de heurística para soluciones rápidas. Algunos de estos métodos son First Fit Decreasing (FDD), que tiene una entrada de capacidad C para el contenedor y un conjunto S de elementos a empaquetar. El algoritmo organiza los elementos por su peso y comienza a abrir un bin, en el momento en que este elemento está embalado, el algoritmo verifica automáticamente si el siguiente elemento puede encajar en el bin abierto actual; si el siguiente elemento no encaja en el contenedor abierto, este contenedor estará cerrado y nunca volverá a abrirse hasta que los clientes lo abran en el momento de la entrega. El siguiente paso del algoritmo es abrir otro contenedor y mantener los elementos de embalaje hasta que no queden más elementos para ser empacados. Este proceso se repetirá mientras todos los artículos están embalados. Otro método heurístico es el algoritmo BFD (Best Fit Decreasing), cuya diferencia con el FDD es el hecho de que BFD no empaqueta elementos con una lista organizada ordenada por su peso, este algoritmo verifica qué bin es el apropiado para cada elemento, incluso este algoritmo es bastante más difícil de implementar que FDD, sorprendentemente su resultado no es mejor que el resultado del algoritmo anterior, como se puede ver en la figura 1, incluyendo el uso de series de tiempo para determinar la densidad vehicular (figura 2) y la implementación de Ant Colony en un entorno de realidad virtual (figura 3). 8

11 divulgación Resultados y futura investigación La presente investigación determina la mejor ruta de transporte en una metrópoli que será un reto en el futuro, por lo que esta investigación tiene como objetivo determinar a través de la aplicación inteligente, las mejores rutas generadas a partir de instancias específicas, caracterizadas por la ciudad de Cuernavaca y su área metropolitana (Vincent, 2017). En esta investigación se observaron distancias y el número de rutas, en cuyo caso se obtuvo la mejoría a partir de la cual la distancia del ciclo completo (ida y vuelta) es menor que la mostrada. La mejora mostrada se logró en el desgaste de las unidades para no tener que solo un elemento (vehículo) visite a todos los puntos. En problemas de mayor complejidad como el transporte de pasajeros, se debe de considerar entre otros aspectos, la comodidad de los pasajeros ya que en realidad las unidades superan la capacidad máxima de 40, como se puede observar en la figura 4. Fig. 2gaci A partir del modelo propuesto, se desarrolló un mapa incluyendo en diferentes colores la densidad vehicular y su optimización del transporte de energía dentro de la ciudad. Ant Colony es utilizado en esta investigación y se describe a continuación: a) Comenzar desde el depósito. b) Examinar las salidas que no han sido servidas, las salidas pueden ser factibles e inviables para elegir las mejores salidas factibles, por ejemplo. Fig. 3 Implementación en herramienta Unity en donde se muestra un entorno 3D que representa la simulación de los vehículos durante sus rutas. Fig. 4 Resolución de instancias diversas mediante el algoritmo de Ant Colony para la distribución de energía en una Smart City. 9

12 divul Electricidad y Energías Limpias enero-marzo Fig. 5 Simulador para la toma de decisiones. c) Si hay salidas más factibles, repita desde el punto b), pero para crear una nueva ruta e iniciar el flujo desde el punto a). d) Si todas las salidas fueron cubiertas, pero al final inicia el flujo desde el punto a). A la fecha, se está desarrollando una herramienta para la toma de decisiones que permita identificar en forma gráfica la manera en cómo afectan diferentes aspectos la movilidad en la ciudad, entre ellos las zonas identificadas con signos de violencia, mediante un índice compuesto al HDI (Índice de Desarrollo Humano, por sus siglas en inglés) en las diferentes partes de la ciudad, y con diversos escenarios acorde a la perspectiva de incremento o disminución de la misma. Para ello se están construyendo tres escenarios: optimista, pesimista y avance gradual para la identificación de cambios con respecto a la temporalidad y ubicuidad de la información. El análisis e interpretación de dichos escenarios con respecto al tiempo debe de tratarse con sumo cuidado buscando realizar un equilibrio entre la predicción numérica realizada y justificada mediante la utilización de ecuaciones, pudiendo seleccionarse un índice, un índice compuesto, un factor o un rango asociado. En la figura 5 se muestra la perspectiva de la herramienta para la toma de decisiones propuesta y sus componentes principales, incluyendo un generador de escenarios asociado al año de predicción numérica el cual podrá mostrar mediante el uso de gráficos de radar 10

13 divulgación Fig. 6 Características de las Ciudades Inteligentes en la perspectiva de mejorar la competitividad en una sociedad latinoamericana. y tacómetros de variabilidad estadística, los cambios en los escenarios mostrados, el ajuste de parámetros con respecto a aspectos sociales y su relación con el año a proyectar, la visualización de un mapa mostrando en color los cambios en el HDI para cada AGEP (definida como un segmento geográfico espacial de una parte de la ciudad) asociados al incremento de la violencia y la visualización de un guion de narrativa detallando los parámetros finales más importantes de la simulación realizada (figura 6). Conclusiones Esta investigación pretende solucionar el CVRP con el algoritmo de optimización por la técnica de Inteligencia Artificial denominada Ant Colony o colonia 11

14 divul Electricidad y Energías Limpias enero-marzo de hormigas (ACO) (Yong, 2013) ya que se espera que Referencias con el paralelismo se logre mejorar la propuesta. Determinar la cadena de suministro relacionada con una Akbarzadeh-T, M. I. Intelligent water drops to new optimization emergencia o logística humanitaria será una prioridad algorithm for solving the vehicle routing problem. Systems Man and Cybernetics (SMC), IEEE International Conference, Istanbul, Torkeym, en nuestra investigación novel. Una vez formalizadas 2010, p las variantes del problema del Bin Packing (BPP), y establecido un modelo matemático, la principal labor Baptista F. y Tavares J. Bio-inspired Algorithms for the Vehicle Routing futura es la incorporación del algoritmo genético híbrido Problem, Ed. Springer, USA, 2009, p al problema del transporte de productos organizados en Campbell A. M. y Jones P. C. Prepositioning supplies in preparation for la distribución de hidrocarburos en una zona de densidad disasters. European Journal of Operational Research, 2011, 209 (2): p. de tráfico. Cuando se tiene un algoritmo competitivo con excelentes resultados para la resolución estándar de Dantzig y Ramser. The truck dispatching problem. Management science, casos problemáticos en su forma más simple, se resuelve 1959, p igualmente un problema más complejo dirigido hacia el mismo objetivo final. Por lo tanto, la incorporación de INEGI, Panorama sociodemográfico de Morelos. México sus variantes representa solo el esfuerzo para validar Rodas J., Azpeitia D., Ochoa-Zezzatti A., Camarena R. y Olivierv T. las condiciones establecidas por el nuevo modelo Use of GVRP as a Model of Two Specific Real World Problems and Its matemático, ya sea a través de condiciones o reduciendo Bioinspired Solution. Handbook of Research on Military, Aeronautical, los índices de criminalidad de la función objetivo. Para and Maritime Logistics and Operations. 2016, p Editor IGI Global. la investigación realizada se incluyó un séptimo rubro denominado Smart Environmental, el cual determina Vincent F., Yu A., Perwira A., Redi N., Yosi A., Hidayat O. y Jimat W. A entre otros aspectos la huella ecológica de una sociedad, simulated annealing heuristic for the hybrid vehicle routing problem. Appl. es decir, qué tanto afecta el progreso en el medio Soft Comput., 2017, 53: p ambiente o entorno ambiental de una sociedad. Además, es importante definir todos los espacios para que se mejoren utilizando un nuevo modelo de Smart Cities basado en la movilidad inteligente, como se muestra en la figura 6. Yong L., Sheng W., Fangmin D. y Dong R. A two stage method for VRP based on the improved ant colony algorithm. IJMIC, 2013, 18(2), p

15 gaci Carlos Alberto Ochoa Ortiz-Zezzatti Doctor en Tecnología Avanzada, por parte del CICATA-IPN (2004). Desde 2008 es Profesor-Investigador en la Universidad Autónoma de Ciudad Juárez, siendo parte del Núcleo Académico Básico de la Maestría en Cómputo Aplicado (PNPC). Formó parte de la tercera generación del programa de Adiestramiento a la Investigación Tecnológica (AIT) del INEEL en Ha publicado en diversos foros científicos y cuenta con más de 400 referencias a sus trabajos de investigación y desde septiembre de 2016 realiza un año sabático en la Gerencia de Tecnologías de la Información del INEEL, su proyecto a desarrollar tiene que ver con Ciudades Inteligentes (Smart Cities) y con la Optimización Inteligente de realidad virtual para ambientes submarino de Pemex. Actualmente es Investigador en el SNI Nivel 2. Gustavo Arroyo Figueroa Doctor en Ciencias Computacionales con especialidad en Inteligencia Artificial por el Instituto Tecnológico y de Estudios Superiores de Monterrey; Maestro en Ciencias Químicas e Ingeniero Industrial Químico por el Instituto Tecnológico de Celaya. Ingresó al INEEL en 1991, ha sido investigador y Jefe de Proyectos en el área de automatización integral de procesos industriales. Desde 2000, es Gerente de Tecnologías de la Información. Su experiencia profesional está orientada al desarrollo de sistemas inteligentes para monitoreo, diagnóstico, predicción y control de procesos de generación eléctrica y de gestión de la información para el procesamiento de datos con la finalidad de generar conocimiento para la toma de decisiones estratégicas. Investigador nacional por el SNI Nivel 2 en el área de ingeniería. Miembro de la mesa directiva de la Sociedad Mexicana de Inteligencia Artificial (SMIA); representante nacional del Comité de Estudios D2 Information Systems and Telecommunications del CIGRE; miembro de la IEEE Computer Society; autor de Advanced on Artificial Intelligence 2015 de Springer. Actualmente participa en el grupo de trabajo JWG D2/C2.41 Advanced Utility Data Management and Analytics for Improved Operation Situational Awareness of EPU Operations - EPRI USA. Autor de más de 100 artículos científicos y revisor de revistas indexadas JCR Expert Systems With Application, Engineering applications on Artificial Intelligence, Big Data Journal, entre otras y pertenece al Registro CONACYT de Evaluadores Acreditados. Encabeza el grupo de Gestión Inteligente de Información con la participación de 5 Doctores y 4 Maestros, con resultados en pronóstico de generación eólica y plataforma Big Data para la integración de energías renovables. María Yasmín Hernández Pérez Doctora en Ciencias Computacionales por el Instituto Tecnológico y de Estudios Superiores de Monterrey (ITESM). Maestra en Ciencias Computacionales por el Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET). Ingeniera en Sistemas Computacionales por el Instituto Tecnológico de Ciudad Madero. Ingresó al Instituto Nacional de Electricidad y Energías Limpias (INEEL) en Su área de especialidad es la inteligencia artificial, particularmente interacción humano-computadora, modelado de usuario, sistemas tutores inteligentes, e-learning y computación afectiva. Ha desarrollado y aplicado tecnologías para sistemas de capacitación avanzada en diversos proyectos para la industria eléctrica y energética de México. Es autora de diversas publicaciones en revistas, capítulos de libro y memorias de conferencias internacionales. Es miembro del Sistema Nacional de Investigadores, del Sistema Estatal de Investigadores de Morelos, de la Sociedad Mexicana de Inteligencia Artificial, de la Academia Mexicana de Computación. Participa en la red temática en tecnologías del lenguaje y en la red temática en inteligencia computacional aplicada del CONACYT. Currículum vítae José Alberto Hernández Aguilar Doctor en Ingeniería y Ciencias Aplicadas con especialidad en Tecnología Eléctrica, por parte del Centro de Investigación en Ingeniería y Ciencias Aplicadas (CIICAp) de la Universidad Autónoma del Estado de Morelos (UAEM) en Master in Business Administration con mención honorífica por parte de la Universidad de las Américas (2003). Ingeniero en Computación egresado de la Universidad Nacional Autónoma de México (1998). Desde 2010 es Profesor-Investigador en la Facultad de Contaduría, Administración e Informática de la UAEM, forma parte del Núcleo Académico Básico de la Maestría en Optimización y Cómputo Aplicado inscrita en el Programa Nacional de Posgrados de Calidad (PNPC). Ha publicado 3 libros en el área de Sistemas y Optimización, 23 artículos en revistas arbitradas e indexadas internacionalmente, 14 capítulos de libro, 42 memorias en Congresos Nacionales e Internacionales. Ha dirigido 3 tesis de doctorado, 4 de Maestría y 13 de Licenciatura. Así mismo ha participado como ponente y evaluador en distintos foros científicos a nivel nacional e internacional. Desde enero del 2017 realiza un año sabático en la Gerencia de Tecnologías de la Información del INEEL; sus temas de interés son: la realidad virtual, los sistemas inteligentes y las smart cities, así como el desarrollo de proyectos que incluyan aplicaciones de algoritmos de inteligencia artificial en la gestión de la información. Su proyecto a desarrollar en el INEEL es un Sistema inteligente para el monitoreo y la prevención de ataques en redes informáticas, el cual se puede aplicar a redes de computadoras y en el futuro próximo en la smart grid. Peter Savier Oropeza Martínez Estudiante de la Carrera de Ingeniería en Informática de la Universidad Politécnica del Estado de Morelos (Upemor), durante octubre 2016 a abril 2017 realizó su estancia de servicio social en la Gerencia de Tecnologías de la Información del INEEL en el proyecto titulado Optimización de la competitividad de una Smart City. Diego Hurtado Olivares Estudiante de la Carrera de Ingeniería en Informática de la Universidad Politécnica del Estado de Morelos (Upemor), durante octubre 2016 a abril 2017 realizó su estancia de servicio social en la Gerencia de Tecnologías de la Información en el proyecto titulado Optimización de la competitividad de una Smart City.

16 Plataformas tecnológicas de Big Data Guillermo Flavio Escobedo Briones, Norma Elena Jácome Grajales y Gustavo Arroyo Figueroa Abstract This paper presents the main characteristics of most outstanding Big Data s tool for its the identification and evaluation them in order to select those that best meet the needs of a project that involves the handling of large volumes of information. The tool analysis was used as a framework for the design and implementation of a Big Data technology infrastructure for real-time decision making of the information generated by photovoltaic and wind systems. 14

17 tendencia tecnológica Resumen Este trabajo presenta la identificación y evaluación de las características principales de las herramientas más destacadas de Big Data, a fin de seleccionar las que mejor convengan a las necesidades de un proyecto que involucre el manejo de grandes volúmenes de información. El análisis de las herramientas se utilizó como un marco de referencia para el diseño e implementación de una infraestructura tecnológica de Big Data para la toma de decisiones en tiempo real de la información generada por los sistemas fotovoltaicos y eólicos. Introducción Las tecnologías tradicionales para el almacenamiento y procesamiento masivo de datos pueden no ser la mejor opción para el manejo de grandes volúmenes de información, debido a que podrían estar limitadas para el procesamiento y análisis en tiempo real. Por otra parte, implementar una arquitectura tradicional de Business Intelligence (BI) puede ser un proceso complejo, con altos costos de instalación y de mantenimiento de hardware y software. Para el manejo de grandes volúmenes de información se requiere la adopción de nuevas tecnologías y herramientas como Big Data & Analytics. Estos nuevos paradigmas de tecnología incluyen la ingesta, procesamiento, almacenamiento, análisis y visualización de grandes cantidades de información, generada rápidamente y a gran escala (Escobedo Briones, 2016). Una problemática asociada con Big Data es la gran diversidad de herramientas y productos para apoyar el manejo y explotación de la información. De esta manera, el proceso de selección de herramientas se vuelve un factor clave para la viabilidad y éxito de una solución de este tipo. Este trabajo presenta la identificación y evaluación de las características principales de las herramientas más destacadas de Big Data, a fin de seleccionar las que mejor convengan a las necesidades de un proyecto que involucre el manejo de grandes volúmenes de información. El análisis de las herramientas se utilizó como un marco de referencia para el diseño e implementación de una infraestructura tecnológica de Big Data para la toma de decisiones en tiempo real de la información generada por los sistemas fotovoltaicos y eólicos. 15

18 Electricidad y Energías Limpias enero-marzo Big Data nde tecn En la sociedad digital crear datos en todo momento y en cualquier lugar se ha convertido en una tarea cotidiana y desapercibida. La era de la digitalización ha originado una explosión de datos, como ejemplo: se estima que desde el origen de la humanidad hasta el año 2003, se generaron 5 millones de gigabytes de datos. En 2011, la misma cantidad de datos fue creada casi cada dos días. Para 2013, la misma cantidad de datos fue creada cada 10 minutos (Liu, 2014). Para enfrentar la explosión de datos, Big Data surge como una plataforma para la toma de decisiones a través de la transformación de los datos en conocimiento. Se considera que el concepto de Big Data es una evolución de la tecnología de Business Intelligence, ya que incluye nuevos tipos de datos que antes eran demasiado complejos de manejar con procesos analíticos tradicionales, además de una mejor capacidad de procesamiento, almacenamiento y nuevos modelos analíticos. Esto representa un contexto más detallado para Big Data y evita una incorrecta interpretación al relacionarlo sólo con grandes volúmenes de datos. Si bien no existe una definición general aceptada para lo que es Big Data, existe un consenso para describirlo mediante palabras que inician con la letra v : volumen, velocidad y variedad. Andersson y Elf describen que el Big Data llega en grandes cantidades de datos (volumen), es actualizado, creado y recuperado a alta velocidad (velocidad) y se origina a partir de múltiples fuentes y en diferentes formatos (variedad) (Andersson y Elf, 2015). La importancia de entender qué es Big Data es comprender acerca de cómo se puede utilizar para crear valor. Algunos profesionales de las Tecnologías de la Información consideran que es una palabra de moda, esta falta de conocimiento causa confusión entre las empresas e inhibe el desarrollo de esta tecnología. Tomando en consideración las diferentes acepciones, y con el fin de unificar un criterio para los fines de este trabajo, se considera que la siguiente es una buena definición de partida: Big Data representa los activos de información caracterizados por un alto volumen, velocidad y variedad que requieren tecnología específica y métodos analíticos para su transformación en valor (De Mauro, Greco y Grimaldi, 2015). Diversos autores señalan que una solución típica de Big Data no puede ser analizada con métodos tradicionales; por lo tanto, es necesario un desarrollo de métodos y tecnologías eficientes (Chen, Mao y Liu, 2014). Esta definición se queda con la observación de que las Definición Big Data se ha convertido en un término muy popular a pesar de estar relativamente indefinido (De Mauro, Greco y Grimaldi, 2015). En la mayoría de la literatura técnica, otros autores incluyen una cuarta característica que también inicia con la letra v : veracidad (IBM, 2015), en referencia a la incertidumbre de los datos adquiridos. 16

19 ncia ológ Fig. 1 El mapa de Big Data (MammothDB, 2016). necesidades de grandes volúmenes de datos se fijarán en relación con la capacidad de una organización para generar, gestionar y hacer sentido de la información (Tableau, 2015). Ecosistema Big Data Con el surgimiento del concepto de Big Data se ha desarrollado una gran diversidad de herramientas y productos para apoyar el manejo y explotación de la información, por lo tanto, el proceso de selección de herramientas se vuelve un factor clave para la viabilidad y el éxito de una solución de Big Data (Escobedo Briones, 2016). En la figura 1 se muestra un ejemplo del mapa de herramientas de Big Data elaborado en el sitio MammothDB, en este mapa se incluyen herramientas open source. Derivado del número de herramientas existentes en el mercado, en este trabajo se analizan las plataformas más importantes, las cuales contienen una diversidad de tecnologías para las distintas necesidades que involucra Big Data. Plataformas de Big Data Hadoop Es una plataforma open source basada en estándares que soporta trabajar con miles de nodos y grandes cantidades de información. Hadoop fue construido sobre la base de los documentos de Google para MapReduce y Google File System (Schneider, 2012). Apache Software Foundation se ha encargado del mantenimiento de Hadoop. Sin embargo, Hadoop es un proyecto de alto nivel que tendencia tecnológica se construye y usa por una comunidad global de contribuyentes mediante el lenguaje de programación Java, del cual Yahoo es uno de los mayores contribuyentes. La biblioteca de software de Hadoop es un marco que permite el procesamiento distribuido de grandes conjuntos de datos a través de grupos de servidores que utilizan modelos sencillos de programación. Esta plataforma está diseñada para escalar de un servidor individual a miles de máquinas, cada una con procesamiento y almacenamiento local. En lugar de depender del hardware para ofrecer alta disponibilidad, Hadoop está diseñado para detectar y manejar las fallas en la capa de aplicación (The Apache Software Foundation, 2015). Ecosistema de Hadoop La figura 2 muestra algunas de las tecnologías que integran el ecosistema de la plataforma Hadoop. La plataforma incluye los siguientes módulos: Hadoop Common: son las utilidades comunes entre módulos. Hadoop Distributed File System (HDFS): es un sistema de archivos distribuidos que permite la replicación y el acceso a los datos de la aplicación. Hadoop YARN: es un plataforma para la planificación de tareas y gestión de recursos del cluster 1, donde se pueden implementar múltiples aplicaciones de procesamiento de datos para realizar una tarea. Hadoop MapReduce: se utiliza para el procesamiento distribuido de los datos. Permite una forma simple de paralelizar el trabajo sobre los grandes volúmenes de datos. Otros proyectos relacionados con Apache Hadoop incluyen: Flume: es un sistema distribuido para capturar de forma eficiente, agregar y mover grandes cantidades de bitácoras (logs) de diferentes orígenes a un repositorio central, con el fin de almacenarlos y analizarlos en Hadoop. 1 Es un conjunto de computadoras unidas entre sí normalmente por una red de alta velocidad, que se comportan como si fueran una única computadora. 17

20 Electricidad y Energías Limpias enero-marzo nde tecn Sqoop: es un motor de transporte de datos para la integración de Hadoop con bases de datos relacionales. ZooKeeper: proporciona una infraestructura centralizada y de servicios que permiten la sincronización del cluster. Oozie: es un sistema planificador de flujos de trabajo para administrar las tareas de Hadoop. Pig: es una plataforma que abstrae y simplifica el desarrollo de algoritmos MapReduce mediante una sintaxis parecida a SQL. Mahout: es un proyecto para crear aprendizaje automático y minería de datos. Tiene algoritmos de recomendación y clasificación. Hive: es un sistema de Data Warehouse para facilitar el uso de la agregación de los datos y análisis a través de consultas. HBase: se trata de la base de datos de Hadoop. Es una base columnar. Ambari: ofrece una interfaz gráfica de usuario basada en Web para el aprovisionamiento, administración y monitoreo de los cluster de Hadoop. Spark Es una plataforma open source para análisis y procesamiento de datos en memoria, lo que representa algunas ventajas sobre Hadoop. Spark fue diseñado para soportar en memoria algoritmos iterativos que se pudiesen desarrollar sin escribir un conjunto de resultados cada vez que se procesaba un dato. Esta habilidad para mantener todo en memoria es una técnica de computación de alto rendimiento aplicado al análisis avanzado, lo que permite que Spark tenga velocidades de procesamiento superiores a las conseguidas utilizando MapReduce (Emmett O Ryan, 2014). Fig. 2 Ecosistema Apache Hadoop (msmksocialmedia, 2015). Fig. 3 Ecosistema Apache Spark (databricks, 2015). Spark tiene una plataforma para implementar análisis avanzados y permite desarrollar aplicaciones en Java, Scala, Python y R (Apache Spark, 2016). La figura 3 muestra las tecnologías que integran el ecosistema de la plataforma Spark. 18

21 ncia ológ Ecosistema Spark Las librerías del ecosistema Spark son: Spark Streaming: se utiliza para el procesamiento de datos en tiempo real, es escalable, de alto rendimiento y tolerante a fallos. Los datos pueden enviarse a sistemas de archivos, bases de datos y tableros de control. Spark SQL: es un módulo para el procesamiento de datos estructurados. Spark MLlib: es la biblioteca de aprendizaje automático de Spark que consiste en algoritmos y utilidades de aprendizaje, incluida la clasificación, regresión, clustering 2, filtrado colaborativo y la reducción de dimensionalidad. Spark GraphX: es un sistema distribuido de procesamiento gráfico. Proporciona una API para expresar computación gráfica. Proveedores de Big Data Cloudera Cloudera es una empresa comercial que proporciona software open source basado en Apache Hadoop, así como el soporte y servicios de sus aplicaciones. Aunque el núcleo de la distribución se basa en Apache Hadoop, también proporciona una licencia (Management Suite) para automatizar el proceso de instalación y proporcionar otros servicios, por ejemplo, reducir el tiempo de implementación (Cloudera, 2015). tendencia tecnológica La descarga de la distribución de Cloudera es gratuita. No obstante, también cuenta con una versión empresarial. La distribución de Cloudera con Hadoop incluye los siguientes proyectos clave: Apache Hadoop (Core): incluye el HDFS, MapReduce y YARN. Cloudera Impala: es un motor de consultas SQL para el procesamiento en paralelo de los datos almacenados en un cluster Hadoop. Cloudera Search: desarrollado por Solr 3 para la búsqueda integrada de texto y navegación por facetas 4. Permite analizar datos en tiempo real. HUE: es una interfaz de usuario Web para la gestión de Hadoop. HortonWorks La Plataforma de HortonWorks permite el despliegue de Hadoop e incluye los proyectos de Apache y otros componentes adicionales: gestión de datos, acceso a datos, gobierno de datos, integración, seguridad y gestión de operaciones (HortonWorks, 2015). A continuación, se describen brevemente las áreas funcionales integradas en HortonWorks: Gestión de datos: utiliza YARN para procesar los datos. Acceso a datos: los casos de uso para la ciencia de datos, búsqueda y transmisión también son compatibles con Spark Apache, Solr y Storm. Seguridad: Knox es la pieza central del sistema de autenticación, autorización y protección de datos. Microsoft Microsoft utiliza la plataforma de HortonWorks para implementar soluciones de Big Data basadas en Hadoop (Microsoft, 2015). Microsoft y HortonWorks ofrecen tres soluciones distintas: 3 Solr es un motor de búsqueda open source basado en la biblioteca Java del proyecto Lucene (proyecto utilizado para la implementación de motores de búsquedas). 2 También conocido como agrupamiento, es una de las técnicas de minería de datos, el proceso consiste en la división de los datos en grupos de objetos similares. 4 Es una técnica para acceder a la información organizada de acuerdo con un sistema de clasificación, que permite explorar una colección de información mediante la aplicación de varios filtros. 19

22 Electricidad y Energías Limpias enero-marzo 20 nde tecn HDInsight: se trata de un servicio en la nube para los suscriptores de Azure. HortonWorks para Windows: es un paquete completo que se puede instalar en Windows Server para crear grupos de Big Data basados en Hadoop. Analytics Platform Microsoft System (APS): es una aplicación que ofrece una serie de herramientas para el análisis de Big Data: el procesamiento paralelo masivo (MPP) de Microsoft, el almacenamiento de datos paralelos (PDW) de SQL Server y la tecnología PolyBase, la cual sirve para la integración de almacenes de datos y fuentes diversas de información. IBM BigInsights es una plataforma con un conjunto de herramientas o componentes tecnológicos para descubrir, analizar y visualizar datos de diferentes orígenes mediante el procesamiento de los datos. Es una plataforma flexible construida sobre Apache Hadoop (IBM Knowledge Center, 2015). BigInsights ofrece algunos de los siguientes componentes y tecnologías: Tecnologías open source: se incluye IBM Open Platform con Apache Hadoop. Text Analytics: extrae información desde datos no estructurados y semiestructurados. IBM Big SQL: es un motor SQL de procesamiento en paralelo que se despliega directamente en el cluster HDFS. Interacción con InfoSphere Streams: se utiliza para el manejo de datos en tiempo real. Oracle Big Data Appliance Big Data Appliance es un sistema abierto, pero con el soporte empresarial de Oracle, orientado al procesamiento de datos con Hadoop y al almacenamiento en bases de datos NoSQL. Utiliza los componentes típicos de Hadoop e integra consultas interactivas con Oracle Big Data SQL (Oracle, 2013). Big Data Appliance utiliza: Cloudera Enterprise Data Hub y Cloudera Manager, Oracle R y Oracle NoSQL Database Community. Opcionalmente es posible obtener la licencia de los siguientes componentes adicionales: Oracle Big Data SQL: integra los datos almacenados en Hadoop (no estructurados) con los datos de las bases de datos Oracle (estructurados). Oracle Data Integrator: utiliza la herramienta ETL (Extracción, Transformación y Carga) con los Big Data Connectors (Oracle Exadata y BD Oracle) para integrar la información obtenida en el Big Data Appliance con la información estructurada de la organización. In Database Analytics: son herramientas para el análisis, descubrimiento y visualización de información. SAP HANA SAP HANA es una plataforma para procesar y analizar grandes volúmenes de datos en tiempo real, ya sea en un dispositivo local o en la nube. Esta plataforma utiliza la tecnología de procesamiento in memory 5 y su 5 Permite el procesamiento masivo de grandes volúmenes de datos en la memoria principal del servidor.

23 ncia ológ nombre proviene de High Performance Analytic Appliance. SAP HANA es un producto que integra hardware y software para el procesamiento en un servidor especializado. La arquitectura de esta plataforma se integra principalmente de los siguientes componentes (CVOSOFT, 2015): SAP HANA APPLIANCE: es el componente de hardware de SAP HANA. SAP HANA DB: es la tecnología que se encarga de manejar todo lo referente a base de datos. Utiliza el almacenamiento de tablas por columna o también llamado columnar 6, compresión hasta del 30%. SAP HANA CLOUD PLATFORM: es el componente que permite ejecutar aplicaciones desarrolladas de SAP HANA para internet. SAP Business Suite: brinda soporte a las aplicaciones de gestión de recursos empresariales (ERP). Big Data en energías renovables El análisis de las herramientas se utilizó como un marco de referencia para el diseño e implementación de una infraestructura tecnológica de Big Data del INEEL para la toma de decisiones en tiempo real de la información generada por los sistemas fotovoltaicos y eólicos. Esta infraestructura tiene la capacidad de adquirir, procesar, almacenar, analizar (analíticas descriptivas y de diagnóstico) y monitorear la información estadística en tiempo real a través de tableros de control. tendencia tecnológica Los resultados obtenidos de aplicar Big Data en la integración de las energías renovables son: Tomar mejores decisiones con información oportuna y confiable. Mostrar información detallada del proceso de generación de energía eléctrica con energías renovables a través del análisis de información histórica y en tiempo real. Permitir la entrega de datos de una manera dinámica y flexible a través de tableros de control. Tener una mejor comprensión de la integración de las energías renovables en la red eléctrica. Conclusiones Con el surgimiento del concepto de Big Data existe una diversidad de tecnologías, herramientas y productos para apoyar el manejo y explotación de grandes volúmenes de información. Una inadecuada selección de herramientas puede llevar a un eventual fracaso en la implementación de una solución de Big Data, por lo tanto, el proceso de selección se vuelve un factor clave para la viabilidad y éxito de una solución de este tipo. Durante el desarrollo de este trabajo se elaboró una investigación para identificar, clasificar y describir las características principales de las tecnologías de Big Data y presentar un panorama general de las plataformas más importantes en el mercado, así como los proveedores que las ofrecen. Un aspecto importante fue la identificación de Hadoop y Spark de Apache Foundation como tecnologías clave para la implementación de proyectos de Big Data. Estas tecnologías son de tipo open source y se ofrecen en las diferentes plataformas comerciales, lo que significa que se pueden generar proyectos de gran calidad a bajo costo. Como trabajo futuro, se elaborará una evaluación más detallada con pruebas de rendimiento, usabilidad y de integración, para incrementar el conocimiento sobre las distintas plataformas de Big Data. 6 Una base de datos columnar es aquella que permite trasponer las tablas almacenándolas físicamente por columna en lugar de filas. 21

24 Guillermo Flavio Escobedo Briones Maestro en Tecnologías de Información y Administración con Mención Honorífica por el Instituto Tecnológico Autónomo de México (ITAM), Ciudad de México. Ingeniero en Sistemas Computacionales con especialidad en diseño de software por el Instituto Tecnológico de la Laguna. Ingresó al INEEL en 2003 a la Gerencia de Tecnologías de la Información. Su área de especialidad se relaciona con Big Data & Analytics. Su actividad principal es la gestión y diseño de proyectos para la toma de decisiones que involucran grandes volúmenes de información. Ha participado en el desarrollo de proyectos relacionados con los temas de seguridad industrial, capacitación y energías renovables para la CFE y PEMEX. Entre los principales proyectos destaca la implementación de una plataforma tecnológica de Big Data para energías renovables. Actualmente trabaja en el diseño de analíticas en tiempo real para la toma de decisiones en la red eléctrica nacional. Es autor de varios artículos nacionales e internacionales, así como de derechos de autor. Norma Elena Jácome Grajales Licenciada en Informática egresada de la Universidad Veracruzana. Es investigadora de la Gerencia de Tecnologías de la Información del INEEL desde 1994, siendo sus principales áreas de interés la implementación de plataformas de inteligencia de negocios y Big Data con un enfoque directivo y estratégico. Ha participado en el desarrollo de proyectos relacionados con los temas de seguridad industrial, capacitación y energías renovables para la CFE, PEMEX y otras industrias. Entre los principales proyectos en los que ha participado destacan la implementación de la plataforma de inteligencia de negocios para la toma de decisiones en materia de seguridad industrial mediante la cual se pueden inferir las causas principales que originan la accidentalidad en la CFE, la implementación de una plataforma de Big Data para el procesamiento y análisis de datos en tiempo real generados por celdas fotovoltaicas y aerogeneradores para el monitoreo y toma de decisiones en materia de energías limpias. Ha publicado artículos nacionales e internacionales, así como de derechos de autor en su área de especialidad. Currículum vítae Gustavo Arroyo Figueroa Doctor en Ciencias Computacionales con especialidad en Inteligencia Artificial por el Instituto Tecnológico y de Estudios Superiores de Monterrey; Maestro en Ciencias Químicas e Ingeniero Industrial Químico por el Instituto Tecnológico de Celaya. Ingresó al INEEL en 1991, ha sido investigador y Jefe de Proyectos en el área de automatización integral de procesos industriales. Desde 2000, es Gerente de Tecnologías de la Información. Su experiencia profesional está orientada al desarrollo de sistemas inteligentes para monitoreo, diagnóstico, predicción y control de procesos de generación eléctrica y de gestión de la información para el procesamiento de datos con la finalidad de generar conocimiento para la toma de decisiones estratégicas. Investigador nacional por el SNI Nivel 2 en el área de ingeniería. Miembro de la mesa directiva de la Sociedad Mexicana de Inteligencia Artificial (SMIA); representante nacional del Comité de Estudios D2 Information Systems and Telecommunications del CIGRE; miembro de la IEEE Computer Society; autor de Advanced on Artificial Intelligence 2015 de Springer. Actualmente participa en el grupo de trabajo JWG D2/C2.41 Advanced Utility Data Management and Analytics for Improved Operation Situational Awareness of EPU Operations - EPRI USA. Autor de más de 100 artículos científicos y revisor de revistas indexadas JCR Expert Systems With Application, Engineering applications on Artificial Intelligence, Big Data Journal, entre otras y pertenece al Registro CONACYT de Evaluadores Acreditados. Encabeza el grupo de Gestión Inteligente de Información con la participación de 5 Doctores y 4 Maestros, con resultados en pronóstico de generación eólica y plataforma Big Data para la integración de energías renovables. Bibliografía Andersson, K., y Elf, J. (2015). One Step Towards Creating Value From Big Data - A case study on E.ON Elnät. Lund School of Economics and Management, Lund University, Department of Business Administration, Sweden: Lund Institute of Technology. Apache Spark. (2016). Spark Streaming Programming Guide. Recuperado el 01 de febrero de 2016 de Spark: docs/1.4.1/streaming-programming-guide.html Chen, M., Mao, S., y Liu, Y. (2014). Big Data: A Survey. Mobile Networks and Applications, 19 (2), p Cloudera. (2015). Cloudera. Recuperado el 05 de diciembre de 2015, de Apache Hadoop: products/apache-hadoop.html CVOSOFT. (2015). Curso SAP HANA. Recuperado el 15 de febrero de 2016, de CVOSOFT IT ACADEMY: abap/recursos_tecnicos_abap/que-es-sap-hana.php databricks. (2015). Spark. Recuperado el 05 de diciembre de 2015, de databricks: De Mauro, A., Greco, M., y Grimaldi, M. (2015). What is big data? A consensual definition and a review of key research topic. AIP Conference Proceedings(1644), p Emmett O Ryan, R. (2014). Is Apache Spark the Next Big Thing in Big Data? Recuperado el 10 de febrero de 2016, de Dice: com/2014/03/12/apache-spark-next-big-thing-big-data/ Escobedo Briones, G. (2016). Infraestructura de Big Data para el procesamiento y análisis de la información de fuentes de generación distribuida con energía solar (tesis de maestría). ITAM, Ciudad de México. Hortonworks. (2015). Hortonworks Data Platform. Recuperado el 05 de diciembre de 2015, de Hortonworks: IBM Knowledge Center. (2015). Documentación Big Insights. Recuperado el 10 de Febrero de 2016, de IBM Knowledge Center: www-01.ibm.com/support/knowledgecenter/sspt3x_4.1.0/com.ibm. swg.im.infosphere.biginsights.welcome.doc/doc/welcome.html?lang=es Liu, Y. (2014). Big Data and Predictive Business Analytics. Journal of Business Forecasting, 33 (4), p. 40. MammothDB. (2016). Lanscape Big Data. Recuperado el 10 de Febrero de 2016, de MammothDB: the-big-data-landscape-by-mammothdb/ Microsoft. (2015). Understanding Microsoft big data solutions. Recuperado el 05 de Diciembre de 2015, de Microsoft: microsoft.com/en-us/library/dn aspx msmksocialmedia. (2015). Businees Analytics Data. Recuperado el 05 de diciembre de 2015, de HADOOP FOR DUMMIES: businessanalyticsdata.wordpress.com/2015/07/21/hadoop-for-dummies/ Oracle. (2013). Big Data for the Enterprise. Recuperado el 10 de febrero de 2016, de Oracle: big-data-for-enterprise pdf Schneider, R. (2012). Hadoop For Dummies. USA: John Wiley & Sons Canada, Ltd. Tableau. (2015). What s the Big Deal About Big Data? Recuperado el 15 de enero de 2016, de Tableau: whitepapers/big-deal-about-big-data#main- The Apache Software Foundation. (2015). Hadoop. Recuperado el 05 de diciembre de 2015, de Apache:

25 Capacita y entrena a tu personal en tareas de alto riesgo, cuidando su integridad Capacitación RV Sistemas para capacitación avanzada y entrenamiento con realidad virtual Con los distintos ambientes virtuales tus empleados podrán capacitarse sin riesgos y tu empresa perderá menos recursos por accidentes. Funcionamiento Sistema de realidad virtual conformado por escenarios virtuales interactivos para la capacitación y entrenamiento de tareas de alto riesgo por maniobra. Promueve la normalización de las herramientas, materiales, equipos y maniobras utilizadas por los operadores. Cuenta con modos de aprendizaje, práctica y evaluación. Beneficios Permite la auto capacitación y auto evaluación práctica asistida y no asistida. Administra el proceso de capacitación y entrenamiento de los operadores. Cuenta con un modulo administrador de usuarios. Reduce los costos por capacitación y entrenamiento. Minimiza el nivel de riesgo operativo. Estandariza los procesos de trabajo de tu empresa a nivel nacional. Nuevas tecnologías en capacitación para tareas de alto riesgo. Contacto: Dr. Ricardo López García Gerente de Comercialización y Desarrollo de Negocios ineel.mx INEEL México

26 nden tecn Sistemas inteligentes y adaptativos para modelos mixtos de capacitación en el dominio eléctrico María Yasmín Hernández Pérez Abstract This The electrical paper presents procedures the main involve characteristics danger; therefore, of most outstanding the electrical Big industry Data s requires tool for qualified its the identification electricians. and evaluation Traditionally, them training order has to been select based those on that classroom best meet the courses needs and of field a project training, that but involves it is costly the handling lengthy. of large volumes INEEL propose of information. to complement The tool traditional analysis training was used with as a framework intelligent training for the design systems and composing implementation a blended of a training Big Data model. technology The intelligent infrastructure training systems for real-time provide decision adaptive training through a student model which represents the making of the information generated by photovoltaic and affective and knowledge states of the trainees. The affect wind systems. is recognized taking into account a theoretical model of emotions. The knowledge of the student is updated as he interacts with the system. The instruction is presented in a virtual reality environment by an animated empathic agent. The virtual reality environment enables practicing in a controlled and safe environment. In this paper, the general proposal for the blended training model is presented. 24

27 cia ológ Resumen La ejecución de los procedimientos eléctricos conlleva riesgos que pueden dañar al personal electricista y al equipo, por lo tanto, la industria eléctrica requiere electricistas calificados. Tradicionalmente, la capacitación se ha basado en cursos en el aula y en el entrenamiento de campo, pero este tipo de capacitación es costosa y prolongada. El Instituto Nacional de Electricidad y Energías Limpias (INEEL) propone complementar la capacitación tradicional con sistemas inteligentes de capacitación para conformar un modelo mixto de capacitación. Los sistemas inteligentes proporcionan capacitación adaptativa a través de un modelo del estudiante que representa los estados de conocimiento y afectivo de los participantes. El conocimiento del estudiante se actualiza con base en el desempeño e interacción del participante con el sistema. El afecto se reconoce con base en un modelo teórico de emociones. Un agente empático animado presenta la instrucción en un ambiente virtual. El ambiente virtual permite practicar en un ambiente controlado y seguro. En este artículo, se presenta la propuesta general para el sistema inteligente de capacitación. Introducción La capacitación es una de las actividades estratégicas de las instituciones, es ampliamente reconocido que la eficiencia de las organizaciones depende directamente del capital humano, lo que a su vez depende de una capacitación adecuada. La alta productividad, en parte, es el resultado de una capacitación eficiente, y ésta se vuelve aún más valiosa cuando existe riesgo tendencia tecnológica de accidentes que lastimen al personal. Tal es el caso del dominio eléctrico, que implica riesgo de choque eléctrico, arco voltaico y otros peligros para los trabajadores, además puede haber daños potenciales al equipo de las instalaciones eléctricas, el cual es muy costoso. En adición, existen algunos procedimientos que no se ejecutan con regularidad, por ejemplo, los procedimientos de emergencia, por lo que los trabajadores pueden llegar a olvidar algunas partes de los procedimientos. En estos casos, se requiere de una práctica y capacitación constante para que el personal se desempeñe adecuadamente ante cualquier situación. Dadas estas necesidades, la capacitación se enfrenta con dificultades tales como la baja oferta de cursos de capacitación y la disponibilidad limitada de las instalaciones eléctricas para que el personal practique en entornos reales. Esto se debe principalmente a la falta de instructores certificados y porque las instalaciones se encuentran en producción de manera regular. Esta situación hace que la capacitación sea un proceso largo y costoso. Para avanzar en la solución de este problema, proponemos un modelo de capacitación mixto con base en las premisas del aprendizaje combinado (Blended learning). El aprendizaje combinado está conformado por la combinación eficaz de diferentes modos de enseñanza, modelos de enseñanza, estilos de aprendizaje y basado en una comunicación transparente entre todas las partes involucradas en un curso (Heinze y Procter, 2004). En un contexto de educación formal, el aprendizaje combinado es un programa educativo formal en el que un estudiante aprende una parte del conocimiento mediante la entrega de contenido e instrucción en línea con elementos de control del estudiante, y aprende otra parte del conocimiento en un salón de clases con un profesor (Staker y Horn, 2012). 25

28 Electricidad y Energías Limpias enero-marzo nde tecn En la capacitación tradicional, los participantes toman clases presenciales y tienen práctica en campo. En este contexto, la capacitación tradicional ha mostrado ser eficiente, pero, como ya se mencionó, resulta tardada y costosa. El objetivo del modelo de capacitación mixto no es reemplazar la capacitación tradicional, sino complementarla con sistemas inteligentes de capacitación. Los sistemas inteligentes de capacitación que se proponen se basan en los fundamentos de los sistemas tutores inteligentes (Woolf, 2008). La característica principal de estos sistemas es que adaptan la instrucción a las necesidades particulares de los estudiantes, de la misma manera en que lo haría un tutor humano. Entre los elementos de los Sistemas Inteligentes de Capacitación (SIC) se encuentra el modelo del estudiante y un agente animado empático. Los SIC adaptan la enseñanza con base en las necesidades de los participantes a través del modelo del estudiante que representa el conocimiento y estado de afecto de los trabajadores, entre otras características. Mientras que el agente animado empático hace las veces de un tutor presentando una cara del sistema. Los SIC integran tecnologías de realidad virtual que permiten tener una representación virtual del ambiente eléctrico. Los escenarios de capacitación se presentan como ambientes virtuales que representan las instalaciones eléctricas y que permiten una práctica valiosa antes de las destrezas requeridas en las instalaciones reales y el aprendizaje es facilitado por el agente animado. De esta manera, tenemos un modelo de aprendizaje combinado que permite una capacitación adaptativa e inteligente donde se considera el estado individual de los participantes en ambientes virtuales que representan las instalaciones eléctricas. En este artículo se presenta la propuesta general para el modelo mixto de capacitación, se describen los sistemas inteligentes de capacitación y sus principales componentes. Modelo mixto de capacitación Los programas de capacitación en el sector eléctrico son estrictos y muy detallados, e incluyen lecciones teóricas y prácticas. El personal tiene que acreditar los cursos en el aula, pero también debe tener práctica de campo bajo la supervisión estrecha de un instructor. Con este método de capacitación tradicional, los alumnos invierten mucho tiempo en la capacitación, además de los altos costos que conlleva, ya que después de que los trabajadores han asistido a los cursos apropiados (teoría y práctica) tienen que desempeñarse como electricistas auxiliares durante un periodo largo de tiempo, hasta que un electricista certificado determina que está capacitado para llevar a cabo los procedimientos, y le otorga la certificación. Con la base de estos elementos hemos desarrollado un modelo mixto de capacitación para apoyar la capacitación tradicional. El objetivo del modelo mixto de capacitación es tener una formación eficiente, rápida y segura, así como reducir los costos de capacitación. Como puede verse en la figura 1, en este modelo de capacitación, el personal aprende a través de tres elementos: i) cursos presenciales con un instructor, ii) sistemas inteligentes de capacitación y iii) práctica de campo. El nuevo elemento está conformado por sistemas inteligentes de 26

29 ncia ológ Fig. 1 Componentes del modelo mixto de capacitación. Fig. 2 Modelo mixto de capacitación. capacitación quienes permiten al personal aprender y practicar en ambientes libres de riesgo, proporcionan una capacitación personalizada para cada participante y posibilitan la capacitación a distancia. En una interacción presencial, el instructor explica los conceptos teóricos y comparte su experiencia en la realización de los tendencia tecnológica procedimientos eléctricos. Estas clases se apoyan en los SIC donde los alumnos pueden reforzar los temas teóricos, así como practicar los procedimientos eléctricos en un ambiente virtual facilitado por un agente animado. Esto permite a los trabajadores familiarizarse con las instalaciones eléctricas antes de realizar la práctica de campo en una instalación eléctrica real. De acuerdo con las necesidades de capacitación, el instructor planea el curso de capacitación, decide cuales temas se incluirán y diseña el curso en el sistema inteligente de capacitación. Previamente, un equipo de expertos diseñó los contenidos instruccionales. Los tres elementos del modelo interactúan para obtener y proveer información sobre el desempeño de los participantes, del proceso de aprendizaje y sobre los elementos del SIC (ver figura 2). En el caso del conocimiento sobre los participantes, los tres componentes registran sus apreciaciones (desempeño, estados, actividad, etc.) sobre cada uno de los participantes de manera individual; de esta manera, se conforma una representación más precisa del estudiante lo que permite una instrucción acorde con sus necesidades particulares. Esta estructura de conocimiento es el modelo del estudiante y forma parte importante de los sistemas inteligentes de capacitación. La información del modelo del estudiante es útil para los instructores durante y después del curso. Durante el curso, los instructores pueden apoyarse en el modelo del estudiante para adaptar e impartir la instrucción, así como para planificar y supervisar la práctica de campo, enfocándose en los temas y aspectos en donde los participantes tienen deficiencias. Así también el modelo del estudiante es útil para que los instructores puedan ver las necesidades de capacitación y así recomendar la asistencia a otros cursos de capacitación. También es un apoyo para otorgar la certificación a los trabajadores, sin embargo, las certificaciones se otorgan de acuerdo con las políticas de la industria eléctrica. Por otro lado, con el conocimiento sobre el desempeño de los participantes y de su interacción con los sistemas inteligentes de capacitación, los instructores pueden mejorar y diseñar nuevos materiales instruccionales para enseñar y evaluar el conocimiento, así como los propios sistemas inteligentes de capacitación. Adicionalmente, los trabajadores pueden aprender y practicar con los SIC tanto como quieran, esto les permite mantener sus habilidades y practicar aquellos 27

30 Electricidad y Energías Limpias enero-marzo nde tecn procedimientos que no se llevan a cabo con mucha frecuencia, así como aquellos que solo se utilizan en situaciones de emergencia. El modelo mixto de capacitación además de buscar una capacitación adaptativa, en donde se consideran las necesidades particulares de los participantes, apoya la autocapacitación y la capacitación a distancia. Sin embargo, para lograr el modelo es necesario hacer investigación, desarrollar y probar algunos componentes, antes de incorporar otros, tales como el comportamiento afectivo en los SIC. Como consecuencia, hemos establecido una hoja de ruta con diferentes fases para lograr dicho modelo mixto de capacitación (Hernández et al, 2016). Sistemas inteligentes de capacitación Los sistemas inteligentes de capacitación se basan en los fundamentos de una de las aplicaciones más exitosas de la inteligencia artificial, los sistemas tutores inteligentes (STI). Estos sistemas tratan de enseñar a los estudiantes de la misma manera en que lo haría un tutor humano y son una alternativa económica y con disponibilidad total para los tutores humanos expertos (González Sánchez et al, 2014). La arquitectura clásica de los STI consta del modelo del estudiante, del módulo tutor, del módulo del experto y del módulo interfaz (Woolf, 2008). Un sistema tutor es inteligente porque Fig. 3 Arquitectura de los sistemas inteligentes de capacitación. conoce al estudiante a quien le está enseñando, conoce la materia que está enseñando y sabe cómo enseñar. Este conocimiento es la base para adaptar la instrucción a las necesidades particulares de los estudiantes. En nuestra propuesta adoptamos esta arquitectura, sin embargo, hemos incorporado elementos para modelar el afecto de los participantes. La figura 3 muestra la arquitectura de los sistemas inteligentes de capacitación, y en las siguientes secciones se presentan los componentes de dicha arquitectura. Modelo pedagógico del estudiante Un elemento clave del sistema inteligente de capacitación es el modelo del estudiante. Este modelo se construye a partir de la interacción del participante con el sistema. El modelo del estudiante representa el conocimiento, el estado afectivo, así como el perfil de los participantes. La instrucción y la práctica en los SIC se adaptan 28

31 ncia ológ Fig. 4 Modelo del estudiante representado por una red bayesiana. Fig. 5 Red bayesiana representando un examen. tendencia tecnológica al conocimiento y desempeño actuales del participante. En casos específicos, es difícil adaptar la instrucción porque el procedimiento eléctrico debe realizarse secuencialmente. Sin embargo, el SIC sugiere la revisión de pasos específicos o repasar ciertos temas. El modelo pedagógico del estudiante representa el conocimiento del participante sobre los temas eléctricos incluidos en el curso. El modelo se actualiza cuando el participante practica las maniobras eléctricas y cuando resuelve los exámenes teóricos. El modelo consiste en una Red Bayesiana (Sucar, 2015). La red bayesiana se construye cuando el instructor diseña un curso. La figura 4 muestra un ejemplo de una red bayesiana para un curso con cuatro temas eléctricos. A su vez, cada tema está compuesto por una secuencia de subtemas. La red bayesiana está compuesta por un nodo para cada tema eléctrico incluido en el curso. A su vez, cada nodo de la red bayesiana que representa un tema es una red bayesiana compuesta por subtemas. Los nodos que representan los temas y subtemas tienen dos valores posibles: aprendido y no aprendido y sus probabilidades dependen condicionalmente de las probabilidades de que el trabajador haya aprendido los subtemas que se desprenden del mismo. Los nodos de los cursos también tienen dos valores: adquirido y no adquirido y sus probabilidades dependen condicionalmente de las probabilidades de conocer los temas y los subtemas. Actualmente se trabaja en la inclusión de un nodo para un examen teórico también representado por una red bayesiana compuesta por nodos que representen los reactivos del examen. Las relaciones causales entre los reactivos y las probabilidades condicionales para cada nodo se establecerán cuando el instructor diseñe el examen. Por el momento, se trabaja en la definición de la estructura completa y los valores de esta red bayesiana. La figura 5 muestra una red bayesiana para un examen con 8 elementos como ejemplo preliminar. Modelo afectivo del estudiante El modelo afectivo del estudiante utiliza el modelo OCC (Ortony, Clore y Collins, 1988) para proporcionar una evaluación causal de las emociones con base en información del contexto. El modelo OCC define el estado emocional como el resultado de la evaluación cognitiva de la situación actual con respecto a las metas del individuo. El modelo afectivo del estudiante consiste en una red bayesiana dinámica que relaciona de manera probabilística, personalidad, metas y eventos 29

32 Electricidad y Energías Limpias enero-marzo nde tecn de interacción con los estados afectivos. La figura 6 muestra una representación de alto nivel del modelo, en donde cada nodo en la red es un conjunto de nodos en el modelo detallado. El modelo se basa en la propuesta de Conati y Mclaren (Conati y Mclaren, 2009) y en nuestro trabajo anterior (Hernández, Sucar y Arroyo, 2015). La red bayesiana dinámica modela la naturaleza dinámica de las emociones. Para inferir el estado afectivo se considera el conocimiento del trabajador, la personalidad y la situación tutorial en ese momento, así como el anterior estado afectivo del aprendiz. La situación del tutorial se define con base en los resultados de las acciones del trabajador. La evaluación cognitiva del trabajador sobre la situación actual dadas sus metas está representada por la relación entre los objetivos y los nodos de la situación tutorial a través del nodo metas satisfechas. La influencia del proceso de evaluación sobre el afecto del aprendiz está representada por la relación entre el nodo metas satisfechas y el nodo estado afectivo. Del conjunto completo de emociones propuesto por el modelo OCC, el modelo afectivo incluye seis emociones: alegría, tristeza, orgullo, vergüenza, admiración y reproche. Utilizamos sólo estas emociones porque están relacionadas con los eventos que queremos evaluar: las emociones alegría y angustia son reacciones del individuo ante un evento en la sesión de capacitación. Las emociones orgullo y vergüenza surgen como consecuencia de las acciones del trabajador. Las emociones admiración y reproche surgen como consecuencia de las acciones del tutor. De acuerdo con el modelo de OCC, las metas son fundamentales para determinar el estado afectivo, pero pedir a los alumnos que expresen estas metas durante la capacitación es intrusivo. Consecuentemente, las metas en nuestra red se deducen de la personalidad y del conocimiento del trabajador. Agente animado empático Las actividades de capacitación se presentan a los trabajadores a través de un agente pedagógico animado. Estos agentes representan una tendencia importante al tener una interacción humano-computadora más natural. Los agentes pedagógicos animados interactúan cara a cara con los estudiantes a través de expresiones faciales, mirada, emociones y gestos deícticos; y conviven con los estudiantes en los ambientes de aprendizaje. Los agentes pedagógicos animados tienen un impacto significativo en los sistemas de capacitación, ya que dan la impresión de que alguien Fig. 6 Red bayesiana de alto nivel para el modelo afectivo del estudiante. Fig. 7 Agente pedagógico animado. 30

33 ncia ológ está del otro lado (Sagae et al, 2012). Así el estudiante percibe un comportamiento muy diferente al de un sistema tradicional y más parecido al comportamiento humano. Entre los comportamientos de un agente pedagógico animado están los típicos de los sistemas tutores inteligentes, pero hay algunos particulares de estos personajes, como demostraciones de tareas complejas, observar y ayudar al aprendiz a realizar sus tareas, además de guiar a los alumnos en espacios virtuales (Wang et al, 2008). En el diseño del agente se utilizan las características de los operadores, tales como usar uniforme y casco de seguridad, entre otras características. Creemos que, al representar al tutor como electricista, los instructores y los alumnos aceptarán el ambiente de capacitación. Como parte de la construcción del agente, realizamos un estudio para evaluar el diseño del agente animado y reunir tendencia tecnológica conocimiento para refinarlo. Obtuvimos resultados alentadores, ya que los electricistas recibieron bien al agente (Hernández et al, 2016). Los resultados del estudio nos dan conocimiento para refinar las expresiones faciales del agente y su diseño general. La figura 7 muestra el agente animado. Adicionalmente, el agente animado utiliza el afecto del aprendiz para presentar la capacitación de acuerdo con el mismo, mostrando empatía con el trabajador. La empatía es la capacidad de percibir, comprender y experimentar las emociones de los demás, en otras palabras, ponerse en los zapatos del otro. Este constructo ha sido incorporado en agentes animados con el objetivo de lograr credibilidad, interacción social y compromiso con los usuarios (Hone, 2006). Las expresiones faciales, consecuencia de las emociones, adoptan la teoría propuesta por Ekman y Friesen (Ekman y Friesen, 1978). Los trabajos actuales buscan lograr un comportamiento empático en el agente animado para lograr credibilidad y participación en los usuarios para mejorar el aprendizaje. 31

34 Electricidad y Energías Limpias enero-marzo Fig. 8 Ambientes virtuales para capacitación. Ambientes virtuales nde tecn Se han desarrollado diferentes sistemas de capacitación con base en tecnologías de realidad virtual: líneas eléctricas de media tensión, líneas eléctricas de alta tensión, líneas eléctricas subterráneas, mantenimiento de protecciones y pruebas de equipo primario de subestaciones. Todos estos sistemas comparten en algún grado la misma arquitectura y funcionalidad dentro de diferentes dominios de instrucción. Todavía se trabaja para integrar en estos sistemas los diferentes componentes del SIC. En la figura 8 se muestran algunos de los sistemas. Conclusiones En este trabajo el INEEL propone un modelo mixto para capacitación de electricistas. Este modelo incluye un sistema inteligente de capacitación que proporciona capacitación adaptativa, ya que reconoce el estado de afecto y conocimiento de los participantes. Un agente empático presenta la instrucción haciendo las veces de un compañero de aprendizaje para el aprendiz. Los sistemas inteligentes de capacitación integran un sistema de realidad virtual. A pesar de que se han añadido diferentes tecnologías a los modelos y a los sistemas inteligentes de capacitación, la presencia de instructores humanos juega un papel decisivo. Estas tecnologías son herramientas útiles para apoyar y mejorar la capacitación, pero no pueden sustituir al instructor humano. Al igual que en otros campos, la capacitación en el campo eléctrico a menudo implica actividades de alto riesgo donde los errores suelen ser fatales. Como trabajo futuro se plantea mostrar el modelo del estudiante al propio participante como una herramienta de autoevaluación. La autoevaluación es una de las habilidades meta-cognitivas necesarias para un aprendizaje efectivo. Los estudiantes deben ser capaces de evaluar de manera crítica sus conocimientos para decidir lo que necesitan estudiar. Referencias Conati, C. and Mclaren, H. Empirically Building and Evaluating a Probabilistic Model of User Affect. User Modeling and User-Adapted Interaction, vol. 19, núm. 3, 2009, p Ekman, P. y Friesen, W. Facial Action Coding System: A technique for the measurement of facial movement. Consulting Psychologists Press, Palo Alto, González-Sánchez, J., Chavez-Echeagaray, M.E., VanLehn, K., Burleson, W., Girard, S., Hidalgo-Pontet, Y., y Zhang, L. A System Architecture for Affective Meta Intelligent Tutoring Systems. 12th International Conference on Intelligent Tutoring Systems, 2014, p

35 ncia ológ Heinze, A. y Procter, C. Reflections on the Use of Blended Learning. Conference Proceedings, Education in a Changing Environment Conference, Hernández, Y., Pérez-Ramírez, M., Zatarain- Cabada, R., Barrón-Estrada, L. y Alor- Hernández, G. Designing empathetic animated agents for a b-learning training environment within the electrical domain. Educational Technology & Society, 2016, vol. 19, núm. 2, p Hernández, Y., Sucar, L. E. y Arroyo-Figueroa, G. A Model of Affect and Learning for Intelligent Tutors, Journal of Universal Computer Science, 2015, vol. 21, núm. 7, p Hone, K. Empathic agents to reduce user frustration: The effects of varying agent characteristics. Interacting with Computers, 2016, vol. 18, núm. 2, p Ortony, A., Clore, G.L. y Collins, A. The Cognitive Structure of Emotions. Cambridge University Press, 1988.Staker, H. y Horn, M.B. Classifying K-12 Blended Learning. Innosight Institute, Sucar, E. Probabilistic Graphical Models: Principles and Applications. Springer, Sagae, A., Hobbs, J. R., Wertheim, S., Agar, M., Ho, E. y Johnson, W.L. Efficient Cultural Models of Verbal Behavior for Communicative Agents. 12th International Conference on Intelligent Virtual Agents, Santa Cruz, EU, 2012, p Wang, N., Johnson, W. L., Mayer, R. E., Rizzo, P., Shaw, E. y Collins H. The politeness effect: Pedagogical agents and learning outcomes. International Journal on Human-Computer Studies, 2008, vol. 66, núm. 2 p Woolf, B. P. Building Intelligent Interactive Tutors, Morgan Kaufmann, Currículum vítae María Yasmín Hernández Pérez Doctora en Ciencias Computacionales por el Instituto Tecnológico y de Estudios Superiores de Monterrey (ITESM). Maestra en Ciencias Computacionales por el Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET). Ingeniera en Sistemas Computacionales por el Instituto Tecnológico de Ciudad Madero. Ingresó al Instituto Nacional de Electricidad y Energías Limpias (INEEL) en Su área de especialidad es la inteligencia artificial, particularmente interacción humano-computadora, modelado de usuario, sistemas tutores inteligentes, e-learning y computación afectiva. Ha desarrollado y aplicado tecnologías para sistemas de capacitación avanzada en diversos proyectos para la industria eléctrica y energética de México. Es autora de diversas publicaciones en revistas, capítulos de libro y memorias de conferencias internacionales. Es miembro del Sistema Nacional de Investigadores, del Sistema Estatal de Investigadores de Morelos, de la Sociedad Mexicana de Inteligencia Artificial, de la Academia Mexicana de Computación. Participa en la red temática en tecnologías del lenguaje y en la red temática en inteligencia computacional aplicada del CONACYT.

36 Plataforma analítica Big Data Benjamín Eddie Zayas Pérez, Javier Alberto Pérez Garza y Alfredo Espinosa Reza Abstract Big Data Analytics is addressing the challenge of handling and leveraging the huge variety of data that is being produced by emerging technologies. Through the use of distributed systems and machine learning techniques, valuable insights can be gained to support decision making. A Big Data Analytics solution can be implemented by a third-party service or with a dedicated platform. However, preconceived analytical applications that might be inflexible to fit the analytic needs and are likely to demand intensive communication resources. In addition, for these services there still exist issues related to security, privacy and loss of control over sensitive data. In this paper, the main concepts for implementing an open-source code Big Data platform are described, including hardware architecture, software frameworks, a benchmark of the platform and prototype applications for the energy industry. 34

37 aplicaciones tecnológicas Resumen Big Data Analytics está abordando el desafío de manejar y aprovechar la enorme variedad de datos que están produciendo las tecnologías emergentes. Mediante el uso de sistemas distribuidos y técnicas de aprendizaje automático se puede obtener conocimiento valioso para apoyar la toma de decisiones. Una solución Big Data Analytics se puede implementar con un servicio de terceros o con una plataforma dedicada. Sin embargo, las aplicaciones analíticas preconcebidas pueden ser inflexibles para ajustarse a las necesidades analíticas y es probable que demanden recursos de comunicación intensivos. Además, para estos servicios todavía existen problemas relacionados con la seguridad, la privacidad y la pérdida de control sobre los datos sensibles. En este artículo se describen los principales conceptos para la implementación de una plataforma Big Data de código abierto, incluyendo arquitectura de hardware, herramientas de software, una prueba de desempeño de la plataforma y prototipos de aplicaciones para la industria energética. Introducción El Internet de las Cosas, Industria 4.0, Ciudades Inteligentes y Redes Eléctricas Inteligentes, son iniciativas tecnológicas que están impulsando la transformación digital en las industrias y las empresas, cuyo objetivo principal es crear un ecosistema de interoperabilidad entre el mundo físico y el digital para explotarlo con productos y sistemas inteligentes. Gracias al despliegue masivo de sensores y sistemas avanzados a bajo costo, se está generando una gran cantidad de datos que tienen que convertirse en información y conocimiento para obtener beneficios de las tecnologías emergentes mediante el apoyo en la toma de decisiones. La gestión y el análisis de una vasta cantidad de diversos tipos de datos es fundamental, no sólo para optimizar la eficiencia operativa, sino también para mejorar la seguridad, calidad, confiabilidad y sustentabilidad a lo largo de la cadena de valor de los procesos operativos y de negocios de las industrias y las empresas. Sin embargo, para explotar el conocimiento que apoye la toma de decisiones, se requiere de una infraestructura tecnológica capaz de recolectar, almacenar, gestionar y analizar una gran cantidad de datos de diferente naturaleza que se producen en los sistemas propios y de fuentes externas, debido a que los métodos y tecnologías convencionales no son suficientes. Para este propósito, la Gerencia de Gestión Integral de Procesos (GGIP) del Instituto Nacional de Electricidad y Energías Limpias (INEEL) cuenta con una plataforma de hardware y software de código abierto para la gestión de datos masivos (Big Data) y analítica avanzada (Analytics) con técnicas de aprendizaje automático. En este artículo se describen los conceptos básicos relacionados con las tecnologías Big Data y Analytics, así como la arquitectura de hardware y software de la plataforma de la GGIP. También se presenta el resultado de las pruebas de desempeño que muestran las ventajas del procesamiento distribuido, además de aplicaciones prototipo. Big Data Analytics Aunque no existe una definición concreta de Big Data, la mayoría de las definiciones se refieren a las aplicaciones que son capaces de recopilar, almacenar y procesar un volumen enorme de datos heterogéneos que se generan a alta velocidad y pueden proporcionar respuestas en tiempo real. A diferencia de los sistemas convencionales 35

38 plic ecno Electricidad y Energías Limpias para análisis de datos, las aplicaciones Big Data son capaces de procesar terabytes y petabytes de datos, tanto relacionales como no relacionales; datos que se generan en múltiples fuentes en formato estructurado (bases de datos relacionales, hojas de cálculo), no estructurado (correos electrónicos, documentos de texto, archivos multimedia) y semiestructurado (documentos HTML y XML). Otra diferencia es la capacidad para procesar grandes cantidades de datos que se generan en cortos periodos de tiempo y que requieren de respuesta en tiempo real. La rapidez de procesamiento se logra, entre otros factores, gracias a que los datos se almacenan en un sistema de archivos distribuido en varios servidores, en lugar de estar almacenados en forma centralizada. Esta arquitectura permite el procesamiento distribuido de una forma más ágil y eficiente debido a que las funciones de procesamiento se realizan en donde están alojados los datos, en lugar de llevar los datos a las funciones. El sistema de archivos distribuido, además, ofrece la ventaja de ser tolerante a fallos porque puede mantener una cantidad configurable de copias de los datos, por lo cual no es necesario otro sistema redundante. El término Analytics se refiere al proceso del análisis sistemático de datos utilizando una variedad de técnicas para obtener información de un conjunto de datos. Existen tres modelos analíticos principales: análisis descriptivos, análisis predictivos y análisis prescriptivos. El análisis descriptivo utiliza técnicas analíticas que proporcionan información sobre el pasado. Permite aprender de los comportamientos históricos y entender lo que ha sucedido. Los modelos descriptivos identifican diferentes relaciones y categorías entre datos, resúmenes y estadística de variables individuales o grupo de variables. La analítica predictiva, por el contrario, proporciona información para estimar la probabilidad de resultados futuros, tales como eventos y comportamientos. Esta abarca una variedad de técnicas para analizar hechos actuales e históricos para hacer predicciones sobre eventos futuros. La analítica prescriptiva utiliza algoritmos de optimización y simulación para asesorar sobre posibles resultados y ofrece un plan de acciones, de la tal manera que las acciones y los recursos pueden prepararse de antemano para responder a una probable situación (Stimmel, 2015). Los modelos predictivos y prescriptivos se clasifican como analítica avanzada. De acuerdo con Gartner (2017), la analítica avanzada es la examinación autónoma o semi-autónoma de datos que utiliza técnicas y herramientas sofisticadas, por lo general más allá de la inteligencia de negocios. Las técnicas analíticas incluyen la minería de datos, aprendizaje automático, correlación de patrones, análisis semántico, análisis de sentimientos, estadística multivariante, procesamiento de eventos complejos y redes neuronales, entre otras. La curva del valor analítico para una empresa (Utility Analytics Institute, 2014), muestra la evolución del valor de los datos cuando se extrae conocimiento de ellos, desde que se descubre que se tiene los datos, hasta la transformación del negocio en la fase avanzada con la implementación de modelos analíticos (ver figura 1). La combinación de la tecnología Big Data y las técnicas analíticas descritas anteriormente definen Big Data Analytics, también referida en la literatura como Big Data and Analytics o simplemente Big Data, cuya arquitectura y flujo de datos se representan en la figura 2. Implementación de la plataforma Big Data Actualmente la GGIP cuenta con la infraestructura para la gestión y análisis de datos masivos con software de código abierto. Seis servidores forman parte de la arquitectura de hardware; un servidor con sistema operativo Windows para la gestión temporal de fuentes de datos relacionales y cinco servidores con sistema operativo Linux forman un cluster con un nodo maestro y Fig. 1 Fig. 2 enero-marzo La curva de valor analítico de acuerdo con el Utility Analytics Institute. Arquitectura analítica para aplicaciones Big Data. 36

39 acion lógi Fig. 3 Infraestructura para la gestión y análisis de datos masivos. aplicaciones tecnológicas cuatro nodos esclavos con una capacidad conjunta de 128 núcleos, 512 GB de memoria RAM y 48 TB en discos duros para almacenamiento. La figura 3 muestra la infraestructura completa y sus características. El ecosistema de software se conforma por un conjunto de herramientas para el almacenamiento y procesamiento de datos, al tiempo que permite una visualización ágil de la información. Las herramientas de Apache Software Foundation y Google utilizadas en esta arquitectura se muestran en la figura 4, las cuales se describen brevemente a continuación: Zeppelin, para el análisis exploratorio interactivo de datos, visualización y trabajo colaborativo mediante un servicio Web. Google Charts, para la visualización de resultados en aplicaciones Web. Spark, para el procesamiento distribuido de datos, principalmente en memoria. HBase y Phoenix, proporcionan funcionalidad de base de datos no relacional y relacional, respectivamente, sobre Hadoop. 37

40 plic ecno Electricidad y Energías Limpias Fig. 4 Arquitectura de software del cluster Hadoop. Hive, es un datawarehouse para el análisis de datos mediante un lenguaje estilo SQL. Pig, para el análisis de datos con programas MapReduce creados con el lenguaje de scripting Pig Latin. Hadoop, para el almacenamiento y procesamiento distribuido. Sqoop, para transferir datos masivos entre bases de datos relacionales y Apache Hadoop. Flume, para recopilar, agregar y mover grandes cantidades de datos no estructurados en streaming para aplicaciones analíticas en línea. Apache Hadoop es un framework de código abierto diseñado para operar en un modelo de cluster conformado por hardware no especializado (commodity hardware) que se puede escalar horizontalmente a bajo costo (Loshin, 2013; Zikopoulos, Eaton, deroos, Deutsch, y Lapis, 2012). Los dos componentes principales de Apache Hadoop son el sistema de archivos distribuido (HDFS) y la implementación del modelo de programación MapReduce de Hadoop (Dean y Ghemawat, 2004). El HDFS almacena grandes cantidades de datos repartidos en bloques en varios nodos y es tolerante a fallos. Hadoop MapReduce permite el procesamiento distribuido en disco usando el modelo MapReduce con datos que se encuentran en el HDFS. Este modelo de programación fue diseñado por Google (Dean y Ghemawat, 2004) y está basado en programación funcional. Apache Spark es un modelo de procesamiento de datos con una interfaz de programación para la manipulación de datos en memoria de manera distribuida y con tolerancia a fallos que está conformado por cuatro componentes principales: Spark SQL. Permite operaciones SQL en datos representados en tablas, similares a una tabla en una base de datos relacional. Spark Streaming. Permite el análisis de datos en streaming. MLlib. Módulo conformado por múltiples algoritmos de aprendizaje automático distribuidos con algoritmos supervisados y no supervisados. GraphX. Módulo de procesamiento distribuido de grafos. enero-marzo 38

41 acion lógi Gráfica 1 Resultado de las pruebas de desempeño para ordenamiento de datos con herramientas convencionales (función Sort de Python y GNUSort) y procesamiento distribuido (Spark y MapReduce). aplicaciones tecnológicas Desarrollo de aplicaciones en el cluster Hadoop Con la finalidad de mostrar las capacidades del almacenamiento y procesamiento distribuido del cluster Hadoop comparado con herramientas tradicionales, se realizaron pruebas de desempeño para observar el tiempo de ejecución en dos algoritmos representativos que se llevan a cabo en el análisis de datos: ordenamiento y agrupamiento de datos. Las pruebas permitieron observar la diferencia que existe en el tiempo de ejecución de una tarea cuando el tamaño de los datos aumenta, así como observar los beneficios de escalabilidad horizontal que ofrecen las herramientas distribuidas. Para disminuir el efecto que otras aplicaciones y servicios del sistema operativo pudieran tener durante el procesamiento, se calculó el promedio del tiempo de tres ejecuciones para cada implementación. A continuación, se muestran los resultados en términos de Speedup de las pruebas de ejecución. Ejecución del algoritmo para ordenamiento de datos Esta tarea consistió en ordenar conjuntos de datos de 1 GB, 10 GB, 100 GB y 1 TB de registros ASCII de 10 caracteres. Las herramientas tradicionales utilizaron el lenguaje de programación Python mediante su función Sort y la herramienta especializada GNUSort que ordena datos en forma paralela hasta con 8 núcleos, ambas herramientas se ejecutaron en un sólo servidor. Para las herramientas distribuidas se utilizó Hadoop MapReduce con el algoritmo de ordenamiento TeraSort y el módulo SQL de Apache Spark con la instrucción orderby ; ambas herramientas se ejecutaron en el cluster Hadoop con un nodo maestro y tres nodos de procesamiento. La gráfica 1 muestra los resultados del tiempo de ejecución de las cuatro implementaciones con tres tamaños de datos (1 GB, 10 GB y 100 GB). Como se puede observar, para los tamaños de 1 GB y 10 GB, el tiempo de procesamiento no mostró diferencias significativas, por lo cual no es recomendable el procesamiento distribuido para una cantidad pequeña de datos. Sin embargo, la ventaja del procesamiento distribuido se muestra cuando el tamaño de los datos aumenta a 100 GB, con un desempeño de 3.69x más rápido comparado con la implementación en GNUSort. La gráfica no muestra el resultado de la implementación con la función Sort de Python debido a que se excedió la capacidad de memoria de un sólo nodo para ejecutar el algoritmo de ordenamiento para este tamaño. 39

42 plic ecno Electricidad y Energías Limpias La gráfica 2 muestra el resultado de la ejecución del algoritmo de ordenamiento sólo para Hadoop MapReduce y Apache Spark debido a que la función Sort de Python y GNUSort requieren más memoria que la disponible para procesar un 1 TB de datos. La gráfica muestra que Hadoop MapReduce es 1.91x más rápido que Apache Spark. Esto se debe a la capacidad de Hadoop MapReduce de ejecutar concurrentemente el intercambio de datos y a la forma en que opera la función Map (Shi, et al., 2008), en cambio Spark ejecuta ambas tareas en forma secuencial. Ejecución del algoritmo para agrupamiento de datos con K-Medias Esta tarea de desempeño consistió en ejecutar un algoritmo de aprendizaje automático no supervisado para la agrupación de datos. Los algoritmos de aprendizaje automático son altamente iterativos, esto es, la solución en la enésima iteración se basa en aproximaciones derivadas de las anteriores. En esta tarea se compararon tres implementaciones del algoritmo K-Medias: la implementación con el algoritmo de aprendizaje automático de la biblioteca Scikit-learn de Python; la implementación con el paquete Stats para el algoritmo de agrupamiento y el paquete data.table para agilizar la carga de datos de disco a memoria del lenguaje de programación R, especializado para cómputo estadístico; y la implementación con el módulo de la biblioteca de aprendizaje automático de Apache Spark para procesamiento distribuido. El tamaño de los datos de entrada tuvo una cantidad de filas de 10 6, 10 7 y 10 8 en un archivo CSV, cada fila contiene veinte características numéricas. Todas las implementaciones se limitaron a diez iteraciones y un número de grupos k=5. La gráfica 3 muestra una diferencia mínima entre el procesamiento distribuido y las herramientas convencionales cuando el tamaño de datos es pequeño (10 6 líneas). Para una cantidad de 10 7 filas, las herramientas tradicionales disminuyen su desempeño comparado con Spark. La ventaja de la implementación distribuida en Spark se observa aún más marcada cuando se procesan 10 8 filas, es 4.82x más rápida que la implementación en R y 11.25x más rápida que la implementación en Python. Gráfica 2 Resultado de las pruebas de desempeño de ordenamiento de 1 TB datos con Apache Spark y MapReduce. Gráfica 3 Resultado de las pruebas de desempeño para la ejecución del algoritmo K-Medias con Python, R y Apache Spark. enero-marzo La capacidad de Spark de cargar datos en memoria beneficia al procesamiento de algoritmos altamente iterativos como K-Medias. Para observar esta capacidad se comparó el procesamiento distribuido entre MapReduce y Spark con un archivo de entrada de 40

43 acion lógi Gráfica 4 Ventaja del procesamiento en memoria de Spark comparado con MapReduce en la ejecución del algoritmo altamente iterativo K-Medias. Fig. 5 Visualización de la predicción de consumo de energía eléctrica de usuarios de baja tensión y vigilancia de las desviaciones de la señal en tiempo real. aplicaciones tecnológicas 10 9 filas con veinte valores cada una, un límite máximo de cinco interacciones y un número de grupos k=10. La comparación fue realizada con la herramienta HiBench (Huang, Huang, Dai, Xie, y Huang, 2011). En la gráfica 4 se puede apreciar la capacidad de Spark para procesar datos en memoria, superando a MapReduce que efectúa el procesamiento únicamente en disco. Spark es 6.09x más rápido que MapReduce. Aplicaciones prototipo En la plataforma analítica también se han desarrollado varios prototipos que se muestran en una aplicación, los cuales se describen brevemente a continuación: Agrupamiento automático (clustering). De un conjunto de datos de 5,667 medidores inteligentes con 167 millones de registros, se encontraron 30 grupos de usuarios con patrones de consumo similar. El agrupamiento se obtuvo con el algoritmo de aprendizaje automático K-Medias. Visualización de correlaciones. En esta aplicación se muestran las gráficas de dispersión que muestran la correlación entre el consumo eléctrico de cada cluster y variables meteorológicas (temperatura, velocidad del viento, precipitación y presión atmosférica). Modelado predictivo. Muestra dinámicamente la predicción del consumo de energía eléctrica y el consumo real de energía de cada cluster de usuarios. La predicción se llevó a cabo usando el algoritmo de aprendizaje automático Random Forest considerando variables meteorológicas, día de la semana y mes del año como características para entrenar el modelo con datos de medidores inteligentes recopilados en un periodo de aproximadamente tres años (ver figura 5). Vigilancia de desbalance trifásico. Muestra las capacidades de procesamiento en streaming que es posible obtener utilizando Apache Spark. Se utilizan los datos de corriente eléctrica trifásica registrados por un sistema SCADA para simular un streaming de datos y calcular el desbalance trifásico en la corriente. Los datos son limpiados, transformados y procesados en cuanto llegan al sistema distribuido para poder ser utilizados en el monitoreo y vigilancia del sistema eléctrico de potencia, identificando anomalías en el desbalance de la corriente trifásica (ver figura 6). 41

44 plic ecno Electricidad y Energías Limpias Fig. 6 Identificación de anomalías en el desbalance de la corriente trifásica con datos en streaming. Conclusiones La integración de nuevas tecnologías de sensores, medición, monitoreo, protección, control y comunicaciones en los procesos productivos está generando una gran cantidad de datos sin precedente y su volumen, variedad y velocidad está creciendo de manera acelerada. De igual manera, en los sistemas de información, bases de datos, archivos y registros, se cuenta con mucha información histórica que no es sencillo procesar de una manera integral, a esto se agrega la información en tiempo real (streaming) que los equipos y procesos (productivos y de negocio) están entregando continuamente. Por otra parte, las fuentes de datos son muchas y variadas, las estructuras de datos, tecnologías y significado de la información están dispersos y poco documentados. Para mejorar la utilidad de los datos se requiere desarrollar modelos descriptivos que generen metadatos para su correcta interpretación sintáctica y semántica de manera unificada, y para mejorar el uso de esa información se requiere de modelado predictivo, analíticos avanzados y aplicaciones de visualización efectiva. Referencias enero-marzo Chang, F., Dean, J., Ghemawat, S., Hsieh, W. C., Wallach, D. A., Burrows, M. y Gruber, R. E. (2008). Bigtable: A Distributed Storage System for Structured Data. ACM Transactions on Computer Systems, 26 (2), p Dean, J., y Ghemawat, S. (2004). MapReduce: Simplified Data Processing on Large Clusters. In U. Association (Ed.), OSDI 04 Proceedings of the 6th conference on Symposium on Operating Systems Design & Implementation, vol. 6, p. 10. San Francisco, CA, OSDI. Gartner, Inc. ( ). Gartner IT Glossary. Obtenido de Huang, S., Huang, J., Dai, J., Xie, T. y Huang, B. (2011). The HiBench Benchmark Suite: Characterization of the MapReduce-Based Data Analysis. New Frontiers in Information and Software as Services. Lecture Notes in Business Information Processing, vol. 74, p Loshin, D. (2013). Big Data Analytics. London: Elsevier. Shi, J., Qiu, Y., Minhas, U. F., Jiao, L., Wang, C., Reinwald, B. y Özcan, F. (2008). Clash of the titans: MapReduce vs. Spark for large scale data analytics. Journal Proceedings of the Very Large Data Bases Endowment, Proceedings of the 41st International Conference on Very Large Data Bases, Kohala Coast, Hawaii, vol. 8 (13), p Stimmel, C. L. (2015). Big Data Analytics Strategies for The Smart Grid. London, CRS Press. Utility Analytics Institute. (2014). Customer Analytics Report. Aurora, CO. Zikopoulos, P. C., Eaton, C., deroos, D., Deutsch, T. y Lapis, G. (2012). Understanding Big Data. London, McGraw-Hill. La aplicación de nuevas tecnologías en el procesamiento avanzado de la información permitirá enfocar esfuerzos en el corto, mediano y largo plazo para lograr objetivos estratégicos alineados a los objetivos de negocio de cada empresa o proceso. 42

45 acion lógi Benjamín Eddie Zayas Pérez Doctor en Inteligencia Artificial y Ciencias de la Computación y Maestro en Sistema Computacionales Centrados en el Humano, ambos posgrados por la Universidad de Sussex del Reino Unido. Licenciado en Ciencias Computacionales por la Universidad Autónoma de Puebla. Ingresó al INEEL en 1990 a la Gerencia de Energía Nuclear y actualmente es investigador de la Gerencia de Gestión Integral de Procesos. Su área de especialidad incluye interacción humano-computadora y ambientes de realidad virtual para aprendizaje y capacitación. Su actividad principal se ha enfocado al desarrollo de aplicaciones CAD-BIM para el diseño de subestaciones y Big Data Analytics para el sector energético. Es autor de varios artículos nacionales e internacionales y derechos de autor. Es miembro del IEEE. Javier Alberto Pérez Garza Licenciado en Ciencias de la Computación por la Universidad Autónoma del Estado de Morelos en el año Ingresó al INEEL en noviembre del mismo año como parte del programa de Adiestramiento en Investigación Tecnológica, donde participó en un proyecto para la Gerencia de Gestión Integral de Procesos. Su área de especialidad se basa en la teoría de la computación y en el diseño e implementación de sistemas computacionales, principalmente en las áreas de estadística computacional, concurrencia, bases de datos, procesamiento de imágenes e inteligencia artificial. Actualmente implementa soluciones para almacenar y procesar grandes volúmenes de datos provenientes de fuentes heterogéneas mediante el uso de sistemas distribuidos, además desarrolla soluciones analíticas avanzadas para la extracción de información relevante para la toma de decisiones empresariales. Ha participado en múltiples eventos de divulgación científica y ha obtenido reconocimientos por su excelencia académica. Recientemente se publicó su primera aportación a la ciencia en una revista internacional e indexada. Currículum vítae Alfredo Espinosa Reza Ingeniero Mecánico Electricista en el área de electricidad y electrónica por la Universidad Nacional Autónoma de México (UNAM) en Ingresó al INEEL en 1995 como investigador de la Gerencia de Gestión Integral de Procesos (GGIP) y en 2015 fue nombrado Gerente de la misma, en donde desarrolla e integra sistemas de información en tiempo real para centrales generadoras de energía eléctrica, subestaciones y redes de distribución. Coordinó el proyecto del Simulador del Sistema Eléctrico de Distribución (SimSED) para apoyo en la toma de decisiones en Centros de Control de Distribución de la Comisión Federal de Electricidad (CFE), así como el proyecto para establecer la arquitectura e infraestructura de interoperabilidad semántica para sistemas de información de apoyo a la Gestión de la Distribución (DMS) mediante el uso del Modelo de Información Común (CIM) definido en las normas IEC e IEC con enfoque a la Red Eléctrica Inteligente. Ha publicado más de 50 artículos técnicos en diversos foros y revistas nacionales e internacionales y es participante en 10 registros de derechos de autor de software y metodologías de integración de sistemas.

46 Comunidad INEEL Comun Nombramiento del nuevo Director General del INEEL La Junta Directiva del Instituto Nacional de Electricidad y Energías Limpias (INEEL) informó que el Dr. Diego Arjona Argüelles fungirá como nuevo Director General del INEEL. El nuevo director del Instituto cuenta con una amplia trayectoria y experiencia en el sector energético público y privado, a nivel nacional e internacional, lo cual servirá de referencia para impulsar los objetivos de la institución y seguir creciendo como líderes tecnológicos. Obtiene el INEEL su primera patente en Estados Unidos INEEL participa en Iberamia 2016 en Costa Rica La patente US 9, B2 (USPTO) trata un sistema de comunicación inteligente que permite mantener comunicación y monitorear los parámetros termodinámicos y geofísicos en pozos de hidrocarburos de alta presión y alta temperatura en tiempo real basado en la caracterización de la atenuación de señales en un enlace de comunicaciones y módulos electrónicos que realizan las funciones de transmisión y recepción. Con la temática sobre diagnóstico inteligente de aerogeneradores, el INEEL participó en el Congreso Iberoamericano de Inteligencia Artificial en San José de Costa Rica con el artículo Anomalies Detection in the behavior of processes using the Sensor Validation Theory basado en los trabajos del CEMIE-Eólico que trata de la representación probabilista del comportamiento de aerogeneradores bajo diferentes contextos y que permite identificar desviaciones al comportamiento normal. 44

47 idad INEEL Powerchina busca oportunidades de colaboración con el INEEL Busca Europa oportunidades de cooperación en el INEEL El grupo internacional de construcción a gran escala en las áreas hidroeléctrica, termoeléctrica, energía renovable y red eléctrica planteó posibilidades de colaboración que incluyen un intercambio de experiencias de investigación, innovación y atracción de inversionistas México. La firma de un Memorándum de Entendimiento formalizó el inicio de la colaboración que considera la sinergia inmediata en materia de geotermia y un proyecto piloto respecto al potencial hidroeléctrico en México. Una comitiva europea integrada por la Dirección General de Investigación Científica y Técnica del Ministerio de Economía y Competitividad de España (MINECO) y la Fundación Española para la Ciencia y la Tecnología (FECYT) visitó al INEEL, buscando oportunidades de cooperación internacional para la Unión Europea y la Comunidad de Estados Latinoamericanos y Caribeños (CELAC) en el sector energético. Hydro Québec se reúne con directivos y gerentes del INEEL Buscando crear sinergias con otras empresas y contribuir en la meta nacional para que en el año 2030 más del 30% de la energía eléctrica provenga de energías limpias, el INEEL recibió la visita de representantes de Hydro Québec para conversar sobre los retos del sector energético y la importancia de las energías limpias, quienes mostraron interés en trabajar para participar en proyectos para el impulso de la generación hidroeléctrica. 45

48 Comunidad INEEL Comun Vinculación y oportunidades de cooperación internacional INEEL IFP El Instituto Francés del Petróleo (IFP), a través de sus filiales IFP Training, IFP Energies nouvelles y RSI Simcon, visitó el INEEL para conocer las actividades de I+D+i entre ambas instituciones en temas de formación de recursos humanos en procesos de la industria de hidrocarburos. Se visualizaron posibilidades de cooperación en temas de formación de capital humano certificado en sustentabilidad en procesos industriales y en un centro de entrenamiento para formar profesionales en energías limpias. GIZ, Agencia alemana de cooperación internacional, visita el INEEL Firma de Memorando de Entendimiento entre TNO y el INEEL Una comitiva de la Agencia alemana Deutsche Gesellschaft für Internationale Zusammenarbeit (GIZ) visitó el INEEL, ambas instituciones mostraron su portafolio de cooperación técnica en el sector energía. GIZ busca gestionar la vinculación entre centros de investigación con el sector privado para que se generen proyectos conjuntos en los temas de energía sustentable, aprovechamiento energético de residuos urbanos, energía solar a gran escala, redes inteligentes, generación distribuida, energía a través de mini y micro hidráulica y capacitación en los temas eólico y solar. INEEL recibió la visita de la Organización Neerlandesa para la Investigación Científica Aplicada (TNO) con quien firmó un memorándum de entendimiento para estrechar la cooperación bilateral para el desarrollo de tecnologías limpias en el sector energético de México y los Países Bajos con un impacto regional en América Latina y el Caribe. 46

49 idad INEEL Oportunidades de sinergia entre el INEEL y la empresa mexicana RENGEN ENERGY SOLUTION Representantes de la empresa RENGEN visitaron el INEEL para plantear alternativas de colaboración en proyectos integrales de investigación, innovación, desarrollo tecnológico, ingeniería, procura y construcción en generación y distribución de energía. Se identificaron de manera inmediata sinergias en materia de cogeneración, generación termoeléctrica mediante residuos sólidos urbanos (waste to energy), así como la posibilidad de realizar conjuntamente un proyecto o caso de estudio del potencial de aplicación de la tecnología TurboPhase en México y Latinoamérica. El INEEL en el Primer Congreso Internacional de Ingeniería Ambiental INEEL participó en el Primer Congreso Internacional de Ingeniería Ambiental para fomentar y difundir la investigación científica y los avances tecnológicos de la ingeniería ambiental, así como dar a conocer su programa de sustentabilidad ambiental con modernos enfoques científicos y prácticos para atender la complejidad del nexo Agua-Suelo- Alimentos-Energía-Clima, bajo condiciones de cambio climático. 47

50 reves Electricidad y Energías Limpias Breves técnicas Sistema écnicas inteligente para el monitoreo y prevención de ataques en redes informáticas En un mundo totalmente digitalizado en donde la gran mayoría de los sistemas de información están interconectados surge la necesidad de contar con metodologías y mecanismos que apoyen a la seguridad cibernética de las redes de cómputo. Al igual que otras industrias, la industria eléctrica se encuentra en un proceso de modernización basado en el uso de tecnologías de la información (TI) comúnmente referido como Red Eléctrica Inteligente (REI). Se puede definir de manera general que una REI utiliza las TI para integrar miles de dispositivos inteligentes para establecer una infraestructura dinámica, flexible e interactiva que permita la gestión inteligente de energía, incluyendo medición de avanzada generación distribuida y respuesta a la demanda. En esta infraestructura totalmente integrada, la seguridad cibernética surge como una necesidad para garantizar la operación segura y confiable de la REI. Fig. 1 Arquitectura conceptual del Sistema Inteligente de Monitoreo y detección de intrusos. Dada la importancia de la seguridad cibernética en la REI y en los procesos del sector energético, el INEEL a través de su Gerencia de Tecnologías de la Información contempla llevar a cabo los siguientes objetivos: Proporcionar una visión general del estado actual de la seguridad cibernética en redes eléctricas. Determinar las principales vulnerabilidades derivadas de un análisis de redes de comunicación y ataques cibernéticos en redes de computadoras. Implementar metodologías y herramientas para la prevención y defensa de ataques mediante la 48

51 Gustavo Arroyo Figueroa José Alberto Hernández Aguilar evaluación de las mejores prácticas y soluciones existentes de seguridad cibernética. Integrar soluciones de seguridad cibernética en combinación con arquitecturas y protocolos de comunicación robustos y confiables. En este contexto, el INEEL desarrolla un Sistema Inteligente para el monitoreo y prevención de ataques en redes informáticas, el cual actualmente está en su etapa de implementación. La propuesta integra algoritmos de inteligencia artificial en el desarrollo del sistema para el monitoreo y detección de ataques cibernéticos en redes informáticas. El objetivo es generar las acciones adecuadas y oportunas una vez que se ha detectado una anomalía en la red para evitar potenciales daños en las instalaciones, sistemas y equipos de las empresas eléctricas; mediante la preservación de la integridad, confidencialidad y disponibilidad de la información. La detección de intrusos y de ataques es un problema de investigación actual y de interés tanto para la comunidad científica como para los profesionales de seguridad, la que ha sido abordada con técnicas de inteligencia artificial como son las redes neuronales, los algoritmos genéticos y sistemas inmunes artificiales. En este mismo sentido, se han utilizado también a las redes bayesianas para la detección de ataques, y una combinación de lógica difusa y algoritmos genéticos para la generación de IDS adaptativos que actualmente se emplean para la detección de intrusos en las redes inteligentes (smart grids). La figura 1 muestra la arquitectura conceptual del sistema inteligente de monitoreo y detección de intrusos. La información proveniente de una red de cómputo es capturada por el módulo de adquisición de datos de las conexiones de red monitoreadas. El módulo de inferencia heurística inteligente contiene al motor de análisis IDS responsable de procesar la información recopilada. Este utiliza el modelo heurístico almacenado en la base de conocimientos, el cual es generado en el módulo de aprendizaje. Finalmente, el módulo de respuesta genera las alarmas y acciones a llevar a cabo una vez que se detecta una intrusión, este es alimentado por el diagnóstico generado por el módulo de inferencia. En la parte superior se muestra el proceso de obtención del modelo heurístico mediante información obtenida de la base de datos y un módulo de aprendizaje que se retroalimenta de las respuestas del módulo de inferencia. Al momento, para la obtención del modelo heurístico se realiza investigación y pruebas con dos algoritmos inteligentes: uno basado en un sistema inmune artificial y otro basado en una red bayesiana. El carácter innovador de este proyecto es la prevención de ataques mediante técnicas de inteligencia artificial adaptativas, que podrá transferirse a organizaciones sensibles, entre ellas las del sector energético como PEMEX, CENACE y la CFE que les permitirá proteger sus sistemas informáticos y sus instalaciones de ciberataques. 49

52 Artículo de investigación Framework for the development of secure web systems for electrical companies Marco para el desarrollo de sistemas Web seguros para empresas eléctricas Isaí Rojas González 1 y Gabriel Sánchez Pérez 2 Article originally published in CIGRE SCD2 Colloquium 2015 of Conseil International des Grands Reseaux Electriques International Council on Large Electric Systems, october 08-09, 2015, Lima, Perú, Paper D2_03_03 1 Instituto Nacional de Electricidad y Energías Limpias 2 Instituto Politécnico Nacional Resumen En la actualidad, cada vez más empresas están automatizando sus sistemas de información y los sistemas informáticos basados en la tecnología Web se utilizan con frecuencia en este proceso. Esto puede tener efectos indeseables porque los ataques cibernéticos se producen cada vez con más frecuencia a través de la plataforma Web, en consecuencia, un número creciente de empresas consideran la seguridad de la información como un aspecto crucial para proteger sus procesos de negocio. Las empresas dedicadas al sector eléctrico no son inmunes a este problema, por el contrario, la implementación de nuevas tecnologías como la Red Eléctrica Inteligente (Smart Grid), las pone en una posición propensa a ser objeto de ataques cibernéticos y por eso el aspecto de la seguridad informática se vuelve aún más importante. Este documento presenta una alternativa de seguridad para el desarrollo de portales Web corporativos al que se le denominó Marco de seguridad y control de acceso para el desarrollo de portales Web corporativos. El marco desarrollado es el resultado del estudio y análisis de las mejores prácticas y técnicas de desarrollo de software seguro, estándares y modelos de control de acceso, esquema Single Sign-On y la legislación mexicana sobre protección de datos personales. La solución se diseñó bajo las condiciones del entorno del ambiente de desarrollo de sistemas del Instituto Nacional de Electricidad y Energías Limpias de México relacionado con las empresas del sector eléctrico. Se consideraron premisas que además de ofrecer protección, también propician efectos favorables para fines comerciales, por ejemplo, considerar que la mitigación de problemas de seguridad es mucho menos costosa si se realiza en las primeras etapas de cualquier proceso de desarrollo de software y que el uso apropiado del modelo de control de acceso basado en roles refuerza la seguridad de los sistemas y ayuda a reducir los costos de la gestión de seguridad.

53 Summary Currently, more and more companies are automating their information systems and computer systems based on web technology are frequently used in this process. This may have undesirable effects because more and more cyber attacks occurs through the web platform, in consequence a growing number of companies consider the information security as a crucial aspect to protect their business processes. Companies dedicated to the electricity sector are not immune to this problem, by contrast, due to the implementation of new technology such as the Smart Grid puts them in a prone position to be the subject of cyber attacks and that is why the aspect of computer security becomes even more important. Corporate web portals are part of the solutions most commonly used by companies to provide services all applications that employees, partners, suppliers and others involved in the business, used within the organization as part of their daily work. This paper presents an alternative of security for the development of corporate web portals and has been called Framework of security and access control for the development of corporate web portals. The framework is a tool designed to help groups of portal development, to create products that include computer security measures to mitigate the risks of the web system can be violated. The developed framework is the result of study and analysis of best practices and techniques of secure software development, standards and models of access control, scheme Single Sign-On, and Mexican law on protection of personal data. The solution was designed to be appropriate under the conditions of the environment in which it would be applied, which in this case was the systems development environment form at Instituto Nacional de Electricidad y Energías Limpias in Mexico, so that the framework is original and suitable to the software development environment related to electricity sector companies. 51

54 Electricidad y Energías Limpias enero-marzo During the development of the solution were considered premises that in addition to offer protection, also they propitiate favorable effects for business purposes, such as that fact that the mitigation of security problems is much less expensive if performed in the early stages of any process software development, or that use proper of the access control model based on roles strengthens the security of systems and helps reduce the costs of security management. Keywords Information Security, Access Control, Secure Software Development, Corporate Web Portals, Electricity Sector Companies. 1. Introduction The energy companies do not escape the constant evolution of Information Technology. However, this momentum so impetuous towards modernization also results in new vulnerabilities and threats that jeopardize the fulfillment of the goals and objectives of the organization. Recently, cybersecurity has become more important due to increasing cyber attacks as they often affect the reputation of businesses and even causing economic losses. As a result, it has become much more important to adopt measures to ensure infrastructure Information Technology. Therefore, and in a context limited to the protection of information into computer systems in companies of the electricity sector, the need for a reference framework to point the security aspects that must be met in the creation of secure computer systems is observed, particularly in the creation of secure corporate web portals, due to the importance of strategic information that in them is concentrated. also has a scheme of Single Sign On (SSO) and compliance with the Mexican legislation for data personal protection. Against this background, the main objective is to specify minimum security guidelines required for the design, construction and implementation of such portals. To achieve this arises perform study and comparison of best practices, standards, norms and regulations concerning the following topics: Secure software development. Access Control robust. Single Sign On. Mexican laws for personal data protection. The result should be a guide to design and develop corporate web portals with robust security, in a more agile way as it is intended to eliminate the need to consult large volumes of information corresponding to each of the premises established. Fig. 1 Techniques used to development secure software. Aspect Budget allocated for security into software development Personnel involved in the software projects he has been formally trained in techniques for secure software development Formal method of software development Is there any method currently for develop secure software and building corporate web portals? Is there a way to have tools, methods, training and advisors in security even if these have a cost? Development teams are willing to invest time in security activities Policies, rules, regulations or standards of security Table 1 Features of the implementation environment. There are several models, specifications, best practices and standards in security that could be used to try to cover all requirements, however, all these elements are separately, in addition, would have to check large volumes of specialized information so that, the main problem is that there is not a reference framework, specifically to the Instituto Nacional de Electricidad y Energías Limpias in Mexico and the IT solutions developed therein. A proposed solution should combine the elements necessary to create corporate web portals that use access control based on roles and attributes, which 52

55 Artículo de investigación Actual condition Practically is null and the future budget is conditional on obtaining tangible results of the security implementation. Insufficient to cover the different security roles for software development. The organization has several software development teams using different methods for manufacturing of systems. No. Implications Implementing mechanisms and security controls of very low cost. The activities to be undertaken should be assigned to a minimum of roles specialized in security. It should use the available staff participation and foment the formation of new security specialists. The solution must be flexible and be able to be applied to different development methods. In case of using a maturity model, the starting point must be the most basic level. At the moment only be used items and services that their use is free of cost. If necessary, use support tools that are freeware, promote self-training, forums free advice and methods that are not owners. Not unless it is strictly necessary or higher order. General security policies ISMS under development Activities should be simple and quick to implement. Awareness programs should be established for all personnel involved. The reference framework should consider the current security policy The solution proposed has been named Framework of security and access control for the development of corporate web portals, all this as result of in-depth investigation about the theoretical framework of the needed concepts and the qualitative evaluation of the different options that were found, in order to obtain the necessary knowledge to define adequate solution to the established runtime environment and that meets the requirements requested. 2. Development of the proposed solution The first step was to define the characteristics of the environment in which it is proposed to implement the reference framework, to do this was important because it will allow delimiting every component of the proposed solution (table 1). Under the context previously defined, the next step was selecting a set of the most important and recognized techniques for the secure software development. Then were selected 8 techniques that are of the most used due their effectiveness and the prestige of institutions that they created them (figure 1). The characteristics of the selected techniques were observed and studied in order to identify their elements and which are their strengths and weakness (table 2 and figure 2). With the knowledge obtained were established the first concepts of the reference framework, in specific the components denominated framework and security principles. To define the security principles was used a qualitative comparison such as it was done with the framework concepts, in the comparison were considered advantages and disadvantages rescuing the most relevant concepts (table 3). 53

56 Electricidad y Energías Limpias enero-marzo Table 2 Components identified in each scheme. Scheme Development process Madurity model Security principles Framework Microsoft SDL P SAMM v P - P BSIMM 4 - P - P CbyC P - P - NIST SP P CLASP P - P - OWASP - - P - CERT - - P - Table 3 Mapping the security principles identified in each scheme. For each scheme, the principle of security related to the concept identified Concepts identified CbyC CERT OWASP CLASP Easiness principle 6 principle 4 principle 9 - Avoiding mistakes principles 1, 2, 5 principle 2 principles 5, 10 - Validate inputs - principle 1 - principle 9 Security by default - principle 5 principle 2 principle 5 Principle of least privilege - principle 6 principle 3 principle 7 Defense in depth - principle 8 principle 4 principle 6 Fig. 3 Conceptual model of the reference framework. Reduce attack surfaces - - principle 1 principle 4 Fig. 2 Minimum security activities identified in each scheme. To define de access control model were considered two existing models whose characteristics are convenient for desired model of corporate web portals in which is necessary the use of the concepts of roles and attributes, such that it was studied the model of Role Based Access Control (RBAC), and the model of Attribute Based Access Control (ABAC). The comparison was done considering the advantages and disadvantages of each model and for each possible combination between them: Using RBAC and ABAC without combination RBAC-A, Dynamic Roles RBAC-A, Attributes-Centric RBAC-A, Role-Centric 54

57 Artículo de investigación In the case of recommendations of Single Sign On were studied the premises and concepts of the model in order to take those that are the most adequate to be incorporated in the reference framework according with the defined context. Finally, the legal aspect was considered by the study of two laws of data personal protection in Mexico, they are the Ley Federal de Protección de Datos Personales en Posesión de Particulares (Federal Law on Protection of Personal Data Held by Individuals) and the Ley Federal de Transparencia y Acceso a la Información Pública Gubernamental (Federal Law of Transparency and Access to Public Government Information). From both laws were taken the precepts concerning, directly or indirectly, to the Information Technologies. 3. Results Based on the knowledge gained and preset conditions of the application environment was defined the Framework for the development of secure web systems (figure 3). 3.1 Security principles They are the premises about how to carry out the activities that integrate the security practices. Keep yourself informed. Avoiding mistakes. Keep a schema simple. Validate the data inputs. Security by default. The least privilege. Defense in Depth. Develop incrementally. Ethical perspective of attacker. 3.2 Framework It was integrated with 3 domains composed by 9 security practices that frame the activities to develop secure web systems (tables 4 and 5). This is the complete framework including the activities of each security practice Access control model After studying different strategies to combine the access control models, it was proposed, such as part of this reference framework, the combination denominated RBAC-A Role-Centric. The concept of this access control model is divided in two processes: Assignation and Execution (figure 4). Assignation process: 1. The role is defined. 2. The permissions, on operations and objects (system resources), are assigned to the corresponding roles according with definition of functions. 3. The corresponding roles are assigned to each user. Execution process: 1. The user gains a valid session to request access to the system. 2. The user with a valid session requests access to the resources through its assigned role. Table 4 Security practices grouped by domain. Intelligence Process Execution Training and guidance (TG) Initial planning (IP) Operating configuration (OC) Continuous improvement (CI) Secure design (SD) Transfer of responsibility (control and safekeeping) (TR) Knowledge retention (KR) Secure construction (SC) Obtaining knowledge (OK) 55

58 Electricidad y Energías Limpias enero-marzo Intelligence Process Execution Training and guidance (TG) TG1. Train to the staff of software development in computer security. Initial planning (IP) IP1. Include the participation of security advisors for the initial planning of the project. IP2. Identify all high-level IT assets. IP3. Classify information to be processed and stored in the portal. Operating configuration (OC) OC1. System final configuration. OC2. Identify and gather TG2 Promote culture of security recommendations. IP4. Obtain information about the threats and informatics attacks most relevant of the security. moment. Continuous improvement (CI) Secure Design (SD) CI1. Identify and document SD1. Disseminate the information obtained in the IP4 activity among members of the each opportunity of improve development team. the reference framework. SD2. Perform a quick risk analysis of IT assets identified. CI2. Periodically analyze SD3. Determine what are the security requirements improvement opportunities. SD4. Incorporate security requirements in the high-level design and architecture of the corporate portal. SD5. Define security tests for the portal in its totality. SD6. Incorporate security requirements in the detailed design. SD7. Define security tests for each module. Knowledge retention (KR) Secure construction (SC) KR1. Create knowledge SC1. Programming each module using best practices. repositories. SC2. Validate the programming of each module. KR2. Keep repositories updated. SC3. Execute the security tests of each module. SC4. Execute security tests of the portal in its totality (global tests) Table 5 Complete framework including domains, practices and activities for development process of secure web systems. Transfer of responsibility (TR) TR1. Establish formal agreements. TR2. Transfer the system control. TR3. Formally deliver the system. Obtaining knowledge (OK) OK1. Gathering empirical data. 3. If the user role is valid, then its attributes are sent to the motor of security rules ABAC together with the attributes of the operations and the objects associated with the user role and the attributes of the execution environment (ABAC s characteristic). If the user does not have a valid role the request for access to resources is denied. 4. The attributes of the user, of the environment and of the resources are all evaluated in the ABAC security motor, basing on the previously set rules of security that are applicable to the access request. 5. If the evaluation of attributes produces a response of authorized access, then a subset of the permissions assigned to the role is indirectly provided to the user through its role. If the evaluation of the attributes with security rules produces a response of unauthorized access, then the access request is denied. The considerations concerning the implementation of this model must be used into Process domain of the framework, this in order that the aspects defined here are part of the design and construction of the corporate web portal. 56

59 Artículo de investigación Fig. 4 Access control model RBAC-A, R-C Single Sing On recommendations The following aspects and recommendations of security must be considered to realize the activities Secure design and Secure construction into the Process domain of the framework for secure development. Sending credentials must be made indirectly. Sending credentials must be made on demand. Another recommendations: The user credentials must be stored in such a way as to be unintelligible. Use ciphers. Use Hash methods (It is recommended to use stronger methods than MD5) The credentials must be stored into an environment trusted and protected (Preferably at the server). You must ensure that only the authorized process can read and write to the repository user credentials. The transference of credentials between domains must always be through secure communication channels. Always use POST method instead of GET method. Whenever possible send the credential information in encrypted form. 3.3 Recommendations to comply with laws protecting personal data in Mexico After studying the content of the Federal Law on Protection of Personal Data Held by Individuals (LFPDPPP) and of the Federal Law of Transparency and Access to Public Government Information (LFTAIPG), the following basic concepts were identified that they must be considered in the framework of security for the development of corporate web portals. Into the Process domain, in the security practice denominated initial planning is very useful consider the definition and classification of data personal. Protection of information. Refer to LFTAIPG: (Article 3, part XIV), (Article 20, part III & VI), (Article 21) and LFPDPPP: (Article 2, part I & II), (Article 9, 11 & 19) Data classification and protection levels. Refer to LFTAIPG: (Article 3, part II) and LFPDPPP: (Article 3, part V & VI). Data classification by security level required: Recomendaciones del IFAI sobre medidas de seguridad Aplicables a los sistemas de datos personales (IFAI recommendations on security measures applicable to systems of personal data). The following references of the law should be considered into the security practice Transfer of responsibility of the Execution domain in order to they will be useful to issue precautions to the company that will be responsible for the corporate web portal has been developed. Misdemeanours and responsibilities. Every organization and enterprise that they have informatics systems that process data personal, they must adopt the corresponding measures to avoid committing crimes and misdemeanors to the protection data laws in México. Refer to LFTAIPG: (Article 63) and LFPDPPP: (Article 20 & 36), (Article 63, part XI) Penalties. Regarding the penalties that are applied when there is a violation of laws data personal protection, Refer to LFPDPPP: (Article 64, part III & IV), (Article 67, 68 & 69) All the information described above about the legal aspect also should be considered in the Intelligence domain in order to foment the security culture. 4. Considerations The process of selection, creation and adaptation of safety guidelines, was conducted using engineering of information security, to build the reference 57

60 Electricidad y Energías Limpias enero-marzo framework, appropriate to the needs of the company, was not reinvented anything, the best of what existed was obtained. Two of security requirements are from a previously established model for the Corporate Portals Development in the Instituto Nacional de Electricidad y Energías Limpias: Role Based Access Control and Single Sign On. It was decided not to use a maturity model for this initial version of the framework because the intention is to establish a light and agile implementation, if a maturity model is established then implementation of the framework will require a greater investment of time, effort and resources. Therefore, it must be assumed that the defined security activities are located in the most basic level of maturity like a start point The recommendations are flexible and can be included in different software development processes to get secure web applications. Both the model specification of access control as the schema Single Sign On are defined only conceptually in a high level without going into the details of a formal or mathematical specification, since for purposes of this study, it was enough to high-level conceptual model to show the reference of what is necessary as access control scheme. The framework focuses primarily on the circumstances and activities are controlled by the developer company (development environment, internal policies, internal models of development and internal infrastructure development) and left somewhat aside security activities to be performed on matters which are not within its competence such as infrastructure where reside the system: security of network operating environment, physical facilities, security policies, etc. 5. Conclusions At the end of this research we were able to obtain a framework of security and access control, for the development of corporate web portals, which concentrates a series of safety recommendations regarding the design and the construction of corporate web portals, regarding the model access control and to the legal compliance with data protection in Mexico. Using the reference framework will allow to provide extra value to corporate web portals that are developed under this scheme, its essence agile and lightweight will facilitate that the development teams incorporate the recommendations into their software development processes. Other relevant aspects were identified during the course of this work. Following are described those conclusions: In companies, it is very important to have a framework for information security which must 58

61 Artículo de investigación be integral and must have the support of senior management of the organization. Are increasingly frequent the cyber-attacks through the web and therefore businesses worldwide are investing more resources to implement security in their information systems. When software is produced, mitigating security concerns is much less expensive if done in the early stages of any software development process. Promote information security culture among people of a company contributes greatly to prevent security flaws in information systems. A combined scheme of access control based on roles and access control based on attributes, allows for a more robust model for access control. There is still much work to be done, however the result of this research is a tool that represents a step towards a stronger information security culture in the computer systems in energy sector companies in Mexico. Glosary Microsoft SDL: Security Development Lifecycle de Microsoft. SAMM v.1.0: version 1.0. Software Assurance Maturity Model BSIMM 4: Building Security in Maturity Model version 4. CbyC: Correctness by Construction. NIST SP800-64: Security Considerations in the System Development Life Cycle. 5.1 Projects for the future The following is a suggested list of research and development projects whose implementation would contribute to enriching the actual work done. Define and add a maturity model for the reference framework defined in this research. Create quick security guidelines for designing, coding, testing, configuration and implementation of a corporate web portal. Define and establish a model standardized of software creation for the development process of secure portals web for the Instituto Nacional de Electricidad y Energías Limpias. Define the detailed specification for the access control model: [RBAC-A, Role-Centric] and for the scheme: Single Sign On. CLASP: Comprehensive, Lightweight Application Security Process. OWASP: Open Web Application Security Project. CERT : Recomendaciones de seguridad del CERT del SEI de la Universidad Carnegie Mellon. RBAC: Role Based Access Control. ABAC: Attribute Based Access Control. SSO: Single Sign On. RBAC-A: Combination between RBAC with ABAC. RBAC-A, R-C: Combination between RBAC with ABAC and Role Centric. LFPDPPP: Federal Law on Protection of Personal Data Held by Individuals (initials in Spanish). Define and implement quality metrics to measure the effectiveness of the security activities and they also can be used as indicators aligned to the business strategy of the company. Add activities for the complete fulfillment of standards and policies about information security, this will allow that the reference framework to be ready for any plan of certification and accreditation. LFTAIPG: Federal Law of Transparency and Access to Public Government Information (initials in Spanish). IFAI: Instituto Federal de Acceso a la Información (Federal Institute for Access to Information). It is a Mexican government dependence that regulates the public information access and the protection of people data personals. 59

62 Currículum vítae Isai Rojas González Maestro en Ingeniería en Seguridad y Tecnologías de la Información por el Instituto Politécnico Nacional, México. Ingeniero en Sistemas Computacionales por el Instituto Tecnológico de Zacatepec. Ingresó al INEEL en el año 2003 a la Gerencia Tecnologías de la Información. Ha participado en diversos proyectos de investigación y desarrollo de sistemas informáticos corporativos, en temas tales como ciberseguridad, portales web, gestión del conocimiento, sistemas de colaboración, sistemas para la planeación y para la gestión estratégica, todos orientados al Sector Eléctrico Nacional en México. Actualmente participa en proyectos tecnológicos como especialista en seguridad de la información al frente de actividades de implementación de estrategias de ciberseguridad para empresas del Mercado Eléctrico Mayorista en México. Es coordinador de la Comunidad de Práctica de Seguridad Informática en el INEEL. Ha publicado varios artículos de divulgación tecnológica y ha presentado diversas ponencias y conferencias en materia de ciberseguridad orientada al sector eléctrico, las más recientes fueron presentadas en el CIGRÉ Tutorial & Colloquium en Lima, Perú y en el 14th Mexican International Conference on Artificial Intelligence en México. Bibliography [1] Isai Rojas González. (2012, diciembre) Marco de Referencia de Seguridad y de Control de Acceso para el Desarrollo de Portales Web Corporativos. Tesis para obtener grado de Maestría. Instituto Politécnico Nacional, México D.F. [2] NIST. (2011, october). Role Based Access Control (RBAC) and role based security. [Online]. [3] Alan C. O Connor and Ross J. Loomis, 2010, Economic Analysis of Role-Based Access Control, Research Triangle Institute International, Report prepared to the NIST. [4] Isai Rojas and Martín Santos, Arquitectura de un Portal Corporativo, Boletín IIE, no. 4, pp , octubre-diciembre [5] Microsoft. (2010, february) Security Development Lifecycle. Implementación simplificada del proceso SDL de Microsoft. [6] Pravir Chandra and Team OWASP. (2005, march). Software Assurance Maturity Model versión 1.0. Documento guía para integrar seguridad en el desarrollo de software. [7] Gary McGraw, Sammy Migues and Jacob West. (2012, september). Building Security In Maturity Model version 4. Estudio de iniciativas de seguridad. [8] Anthony Hall and Rod Chapman. (2004, january). Correctness by Construction. Método de construcción de software seguro. [9] NIST. (2008, october). Security Considerations in the System Development Life Cycle. Special Publication Revision 2. [10] OWASP. (2012, september). Proyecto CLASP. [Online]. Category:OWASP_CLASP_Project [11] OWASP. (2011) OWASP website - The Open Web Application Security Project. [Online]. [12] OWASP. (2005, july). Una guía para construir aplicaciones y servicios web seguros. Edición 2.0 Black Hat, versión en español. [13] DesarrolloWeb.com. (2012, september). Guía para el desarrollo de aplicaciones web seguras. Normas y conceptos para hacer aplicaciones web seguras. [Online]. articulos/996.php [14] CERT Software Engineering Institute Carnegie Mellon. (2012, September). Top 10 Secure Coding Practices. [Online]. Top+10+Secure+Coding+Practices [15] David F. Ferraiolo and Richard D. Kuhn. Role Based Access Control. 15th National Computer Security Conference, Baltimore, 1992, p [16] David F. Ferraiolo, Richard Kuhn, and Ravi Sandhu. RBAC Standard Rationale: Comments on a Critique of the ANSI Standard on Role Based Access Control. IEEE Security & Privacy, vol. 5, no. 6, p , [17] D. Richard Kuhn, Edward J. Coyne, and Timothy R. Weil. Adding Attributes to Role Based Access Control. IEEE Computer, vol. 43, no. 6, p , june [18] ANSI/INCITS. (2004, February). Role Based Access Control. Standard [19] InCommon. (2011, October). Single Sign-On Concept. [Online]. display/inccollaborate/single+sign-on+concept [20] The Open Group. (2011, October). Introduction to Single Sign-On. [Online]. opengroup.org/security/sso/sso_intro.htm [21] Ley Federal de Transparencia y Acceso a la Información Pública, junio 11, [22] Ley Federal de Protección de Datos Personales en Posesión de los Particulares, julio 05, [23] IFAI. Recomendaciones sobre medidas de seguridad aplicables a los sistemas de datos personales. [Online]. personales/recomendaciones_sdp.pdf

63