- ¿Qué es una base de datos? - noviembre 7, 2020
- ¿Es la programación una profesión para ti? - septiembre 3, 2020
- Temporada 2020-2021 - julio 15, 2020
Introducción
Obviamente… el primer paso que tienes que dar con Hadoop es el mismo que con cualquier software… ¡instalarlo!
En internet encontrarás muchas guías para instalarlo en Linux o Mac, y muchas de ellas son muy buenas y te explican claramente los pasos que tienes que seguir para instalarlo en esos sistemas operativos. En este artículo voy a explicarte los pasos que tienes que seguir para instalarlo en un sistema operativo Windows.
¡Empecemos!
Descargando Hadoop
Lo primero que se tiene que realizar es la descarga de Hadoop desde la página web oficial de Apache, http://hadoop.apache.org, concretamente, en este artículo, voy a enseñarte a instalar la versión 2.7.1, por lo que descargarás los binarios de dicha versión, lo resalto en amarillo en la imagen siguiente:
El fichero descargado se llama «hadoop-2.7.1.tar.gz» y debes descomprimirlo en el directorio donde vayas a instalarlo; por ejemplo en C:\. De forma automática se creará el directorio «C:\Hadoop-2.7.1» con la estructura de directorio y ficheros específicos de esta versión.
El siguiente paso es instalar el JDK, en este trabajo se ha utilizado la versión 1.7 que puede ser descargada de aquí.
Configurando las variables de entorno
Una vez tengas instalados ambos software, es el momento de configurar las variables de entorno del sistema operativo.
La primera que vas a configurar es HADOOP_HOME. Para ello entra en «Computer > Properties > Advanced System Settings > Advanced tab > Environment Variables». En la parte de «User Variables» presiona New… y crearás la variable con el directorio donde has descomprimido Hadoop, tal y como te muestro en la siguiente imagen:
Una vez tengas configurada la variable HADOOP_PATH, vas a configurar la variable JAVA_HOME; lo harás de la misma forma:
Una vez hayas configurado las dos variables de usuario, es el momento de configurar la variable Path del sistema, que se encuentra en la sección «System variables». Para ello edita su valor y añade la carpeta «bin» de la instalación de Hadoop y la carpeta «bin» de la instalación del JDK, separados por «;», te lo muestro en la siguiente imagen:
Configurando Hadoop
Una vez hayas configurado las variables de entorno del sistema operativo, es el momento de realizar la configuración de la plataforma Hadoop.
El primer fichero a configurar es «hadoop-2.7.1/etc/hadoop/core-site.xml», para ello lo tienes que editar cambiando su sección configuración como te muestro en la siguiente imagen:
El siguiente fichero a configurar es «hadoop-2.7.1/etc/hadoop/mapred-site.xml». Para ello lo tienes que editar tal y como has hecho con el fichero anterior estableciendo los valores tal y como te indico en la siguiente imagen:
El siguiente fichero a configurar es «hadoop-2.7.1/etc/hadoop/hdfs-site.xml». Para ello lo tienes que editar y establecer los valores tal y como te muestro en la siguiente imagen:
Es indispensable que crees las dos carpetas que se han especificado en ambos valores de las propiedades; por lo tanto, una vez lo edites te aconsejo que crees las carpetas para el namenode y para el datanode en las rutas donde has especificado.
El siguiente fichero a configurar es «hadoop-2.7.1/etc/hadoop/yarn-site.xml», para ello tienes que editarlo y establecer los valores según te muestro en la imagen a continuación:
Por último, tienes que editar el fichero «hadoop-2.7.1/etc/hadoop/hadoop-env-cmd», para ello tienes que modificar el valor de la variable JAVA_HOME y establecer el directorio concreto en el que instalaste el JDK, como te muestro en la siguiente imagen:
En esta ejemplo de instalación, al haber instalado el JDK en «Program Files» y tener un espacio en blanco el directorio, hay que establecer «Progra~1» como valor de ese directorio.
Una vez termines la configuración de todos los ficheros, es el momento de copiar unos ficheros de Windows necesarios para el funcionamiento de Hadoop. Para ello, descarga el fichero de aquí y descomprime su contenido en la carpeta de instalación de Hadoop.
Arrancando Hadoop
Lo primero que tienes que hacer antes del arranque, es formatear o crear el sistema de archivo, para ello abre la consola del sistema en modo administrador y ejecuta el comando «hdfs namenode -format»:
Una vez termine su ejecución, se mostrará el siguiente mensaje en la consola del sistema sobre la que has ejecutado el comando:
Una vez terminada la operación, navega desde la consola al directorio «sbin» de la instalación de Hadoop y ejecuta el comando «start-all.cmd»:
Una vez ejecutes el comando, se abrirán 4 consolas con Hadoop arrancado, tal y como te muestro en la siguiente imagen:
Los procesos que se arrancan con el comando son:
- Namenode
- Datanode
- YARN resourcemanager
- YARN nodemanager
Los servicios arrancados pueden comprobarse utilizando el comando «jps» dentro del directorio «sbin». En la imagen siguiente te muestro lo que verás en la consola al ejecutar el comando:
Puedes comprobar mediante un navegador que todo está arrancado correctamente. Para ello, entra en «http://localhost:8088» para comprobar el ResourceManager y en el «http://localhost:50070» para comprobar el Namenode. A continuación te muestro unas capturas de pantalla de ambos interfaces gráficos.
Resource Manager
Namenode
Resumen y conclusiones
En este artículo te he enseñado a instalar Hadoop en Windows y a arrancarlo. Soy consciente de que no parece un proceso de instalalación fácil, pero te aseguro que si sigues los pasos que te indico conseguirás instalarlo sin ningún tipo de problema. De todas formas, si tienes alguna duda o encuentras algún problema no dudes en ponerte en contacto conmigo, ¡intentaré ayudarte en todo lo que pueda!
En los próximos artículos voy a enseñarte a trabajar con Hadoop y a realizar pequeños desarrollos que te van a servir de base para tus desarrollos.
¡Te animo a que estés atento a los próximos artículos!