Acceso abierto al capítulo 6 del libro Introducción al aprendizaje por refuerzo profundo

https://TORRES.AI/aprendizaje-por-refuerzo

En el anterior capítulo hemos aprendido cómo un agente puede seguir una política para interactuar con el entorno durante muchos episodios y, luego, usar los resultados de esta interacción para estimar la función de valor de los pares estado-acción, es decir, la función Q. Ahora la pregunta es: ¿cómo podemos usar esta función Q en la búsqueda de una política óptima?

En este capítulo mostraremos cómo se puede obtener una política óptima usando el método Monte Carlo, solucionando así el problema de «exploración» al disponer de la estimación del valor de todos los pares estado-acción. …

Acceso abierto al capítulo 5 del libro Introducción al aprendizaje por refuerzo profundo

https://TORRES.AI/aprendizaje-por-refuerzo

Otro de los métodos clásicos de aprendizaje por refuerzo es el método Monte Carlo, que permite una solución aproximada al aprendizaje basada en el muestreo estadístico a partir de la experiencia. A diferencia de la programación dinámica, este método se puede aplicar a entornos cuya dinámica no conocemos.

En este capítulo presentaremos una aproximación Monte Carlo tanto para estimar funciones de valor como para descubrir políticas óptimas. Se mostrarán sus implementaciones en Python usando el entorno blackjack de la librería Gym.

5.1 Métodos Monte Carlo

Monte Carlo versus programación dinámica

En el capítulo anterior presentamos una solución para un MDP llamada «programación dinámica basada en la ecuación de Bellman»…

Acceso abierto al capítulo 4 del libro Introducción al aprendizaje por refuerzo profundo

https://TORRES.AI/aprendizaje-por-refuerzo

En este capítulo introducimos el algoritmo Value Iteration como máximo exponente de la programación dinámica, que pone en valor la ecuación de Bellman presentada en el capítulo anterior. Es muy conveniente empezar entendiendo los fundamentos de la programación dinámica, puesto que es la base de muchos de los algoritmos de aprendizaje por refuerzo que se aproximan a la solución del problema de forma incremental.

Empezaremos el capítulo con ejemplos que, de forma gradual, irán introduciendo las principales ideas que hay detrás de este método. Una vez explicado el algoritmo del método, pasaremos a mostrar cómo funciona en la práctica con…

Acceso abierto al capítulo 2 del libro Introducción al aprendizaje por refuerzo profundo

https://TORRES.AI/aprendizaje-por-refuerzo

En el capítulo anterior introdujimos varios conceptos fundamentales involucrados en el aprendizaje por refuerzo. En este segundo capítulo presentaremos la representación matemática y la notación de estos conceptos, que se utilizarán repetidamente en este libro. Será el mínimo formalismo necesario para empezar, e iremos introduciendo nuevas formulaciones a medida que las necesitemos a lo largo de los capítulos siguientes.

2.1 Proceso de decisión de Markov

El proceso de decisión de Markov es el marco del formalismo matemático de muchas de las ideas introducidas en el capítulo 1. Empecemos recapitulando estos conceptos y viendo cómo podemos formalizarlos.

Recapitulación de conceptos

Un agente influye en el comportamiento observado de un entorno…

Acceso abierto al capítulo 3 del libro Introducción al aprendizaje por refuerzo profundo

https://TORRES.AI/aprendizaje-por-refuerzo

En el capítulo anterior hemos visto que el agente necesita de una política para realizar la tarea encomendada. En este capítulo presentaremos las funciones de valor y la ecuación de Bellman, elementos principales de los algoritmos de aprendizaje para encontrar y comparar políticas para los agentes.

3.1 Funciones de valor

Estimar la función de valor del estado y la función de valor de la acción es un ingrediente esencial de los métodos de aprendizaje por refuerzo. En esta sección presentamos en más detalle estas dos funciones.

Visión global

Para encontrar y comparar políticas, el agente intenta evaluar el «valor» de los estados y las acciones que…

Acceso abierto al capítulo 1 del libro Introducción al aprendizaje por refuerzo profundo

https://TORRES.AI/aprendizaje-por-refuerzo

En este primer capítulo presentaremos brevemente qué es el aprendizaje por refuerzo profundo y cómo se diferencia de otras aproximaciones al Machine Learning.

También en este primer capítulo se introducirán los conceptos básicos del aprendizaje por refuerzo, y se presentará el entorno Frozen-Lake del paquete Gym, que será el ejemplo base que usaremos para poner en práctica los conceptos y algoritmos que se vayan introduciendo.

1.1 Contexto

En los últimos años se han sucedido avances notorios en inteligencia artificial. Por ejemplo, AlphaGo derrotó al mejor jugador humano profesional en el juego de Go. O hace dos años, por ejemplo, nuestro amigo Oriol…

Acceso abierto al capítulo 0 del libro Introducción al aprendizaje por refuerzo profundo

https://TORRES.AI/aprendizaje-por-refuerzo

Prefacio

La educación es el arma más poderosa que
puedes usar para cambiar el mundo.

Nelson Mandela

El aprendizaje por refuerzo, o Reinforcement Learning en inglés, es el campo de la inteligencia artificial con el mayor potencial para tener un impacto profundo en la historia de la humanidad. Porque no solo está permitiendo la automatización de tareas, sino que puede llevarnos a emular en muchos casos la inteligencia humana — aunque, a mi entender, no pueda llegar nunca a igualarla — y, por tanto, llevarnos a lugares en los que nunca antes habíamos estado como sociedad.

Sin duda, esto nos debería…

Making Sense of Big Data

Hands-on about how to scale a Deep Learning application in the BSC’s CTE-Power cluster

(Image from bsc.es)

This post will be used as documentation in the PATC course Introduction to Big Data Analytics at BSC

In a previous post, we demonstrated that supercomputers are a key component of the progress of Artificial Intelligence and what drove changes in effective compute over the last years was the increased parallelization and distribution of the algorithms.

This post will demonstrate how these supercomputers can be used; specifically, the BSC’s CTE-POWER cluster, in that each server has two CPUs IBM Power9 and four NVIDIA V100 GPUs.

In this series of posts, we will use the TensorFlow framework; however, the code in…

Este post contiene el capítulo 7 del libro “Deep Learning — Introducción práctica con Keras (SEGUNDA PARTE)” de Kindle Direct Publishing con ISBN 978–1–687–47399–8 en la colección WATCH THIS SPACE — Barcelona (Book 6).

Nota: En el proceso semiautomático de generación de esta versión HTML a partir de la versión del libro en papel, se han perdido algunos formatos de fuente de texto (por ej. diferenciar cuando nos referimos a código) o se han eliminado espacios en blanco. …

Introducción práctica con Keras (primera parte)

Acceso en abierto del contenido del libro

ISBN 978–1–687–47399–8

Editorial WHAT THIS SPACE

Fecha publicación del libro: 27 de mayo de 2018.

Esta es una obra introductoria, basada en unos apuntes para dar soporte a mi docencia en la UPC a alumnos y alumnas de ingeniería informática pero con pocos o ningún conocimiento de Machine Learning y inteligencia artificial. Pero a su vez, considero que el resultado de este libro puede ser también útil a ingenieros e ingenieras que ya dejaron las aulas y se encuentran trabajando pero requieren, o simplemente les apetece, aprender sobre este tema. …

Jordi TORRES.AI

Professor at UPC Barcelona Tech & Barcelona Supercomputing Center. Research focuses on Supercomputing & Artificial Intelligence https://torres.ai @JordiTorresAI

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store