{"id":13629,"date":"2019-01-28T09:22:47","date_gmt":"2019-01-28T15:22:47","guid":{"rendered":"http:\/\/otech.uaeh.edu.mx\/noti\/?p=13629"},"modified":"2019-01-28T09:22:52","modified_gmt":"2019-01-28T15:22:52","slug":"conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo","status":"publish","type":"post","link":"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/","title":{"rendered":"Conceptos de inteligencia artificial: qu\u00e9 es el aprendizaje por refuerzo"},"content":{"rendered":"<p>En la psicolog\u00eda conductista se hace un especial hincapi\u00e9 en describir las leyes generales que rigen nuestra conducta voluntaria.<!--more--><\/p>\n<p>Uno de los conceptos que manejan para ello es el de &#8216;condicionamiento operante&#8217;, al que definen como<span>\u00a0<\/span><strong>un proceso de aprendizaje por el cual una acci\u00f3n en particular es seguida por algo deseable<\/strong><span>\u00a0<\/span>(haciendo m\u00e1s probable que<span>\u00a0<\/span>el sujeto repita la acci\u00f3n)<span>\u00a0<\/span><strong>o por algo no deseable<\/strong>(disuadiendo de realizarla).<\/p>\n<p>As\u00ed, por ejemplo, estudiamos porque nos satisface sacar notas m\u00e1s altas, o jugamos a un videojuego porque nos satisface jugar. Y para satisfacer esos est\u00edmulos positivos (reforzamientos), estudiamos\/jugamos m\u00e1s horas y<span>\u00a0<\/span><strong>recurrimos a procesos de prueba y error para evaluar nuevas estrategias<\/strong><span>\u00a0<\/span>de estudio\/juego. Esto es, aprendemos gracias al condicionamiento operante.<\/p>\n<h5>Aplicando la psicolog\u00eda conductista a la m\u00e1quina<\/h5>\n<p>Pues bien: el aprendizaje por refuerzo (o aprendizaje reforzado) se basa en aplicar exactamente este mismo principio a las inteligencias artificiales, con el fin de que puedan aprender por s\u00ed mismas. Y es que las IAs cuentan con dos ventajas de las que nosotros los humanos no disponemos:<span>\u00a0<\/span><strong>no se cansan ni se aburren, y realizan sus tareas extraordinariamente r\u00e1pido<\/strong>.<\/p>\n<p>Ambos factores les permiten sacar<span>\u00a0<\/span><strong>un gran rendimiento al proceso de prueba\/error<\/strong>: pueden ganar y perder millones de partidas<span>\u00a0<\/span>de un videojuego, tomando nota de qu\u00e9 decisiones les llevaron en cada caso a la victoria o a la derrota, privilegiando unas y descartando otras hasta que su estrategia sea absolutamente perfecta.<\/p>\n<div class=\"desvio-container\">\n<div class=\"desvio\">\n<div class=\"desvio-figure js-desvio-figure\"><a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/deep-learning-que-es-y-por-que-va-a-ser-una-tecnologia-clave-en-el-futuro-de-la-inteligencia-artificial\"><img decoding=\"async\" src=\"https:\/\/i.blogs.es\/aae3e1\/istock_000049292286_medium\/375_142.jpg\" \/><\/a><\/div>\n<div class=\"desvio-summary\">Y donde decimos &#8216;videojuego&#8217;, podemos hablar igualmente de una amplia gama de tareas, siempre que la IA pueda recibir un feedback de lo acertado de sus decisiones.<\/div>\n<\/div>\n<\/div>\n<p>Uno de los aspectos fundamentales del aprendizaje por refuerzo es que resuelve<span>\u00a0<\/span><strong>el dif\u00edcil problema de correlacionar acciones inmediatas con sus consecuencias a largo plazo<\/strong>: como los humanos en la vida real, esta clase de algoritmos a veces tienen que operar en un entorno de retorno demorado, donde puede ser dif\u00edcil entender qu\u00e9 acci\u00f3n conduce a qu\u00e9 resultado en muchos pasos de tiempo.<\/p>\n<h5>\u00bfQu\u00e9 necesitamos para formular un problema b\u00e1sico de aprendizaje de refuerzo?<\/h5>\n<div class=\"article-asset-image article-asset-normal\">\n<div class=\"asset-content\"><img decoding=\"async\" class=\"centro_sinmarco\" src=\"https:\/\/i.blogs.es\/49b1fc\/grafico\/450_1000.jpg\" data-sf-srcset=\"https:\/\/i.blogs.es\/49b1fc\/grafico\/450_1000.jpg 450w, https:\/\/i.blogs.es\/49b1fc\/grafico\/650_1200.jpg 681w, https:\/\/i.blogs.es\/49b1fc\/grafico\/1024_2000.jpg 1024w, https:\/\/i.blogs.es\/49b1fc\/grafico\/1366_2000.jpg 1366w\" data-sf-src=\"https:\/\/i.blogs.es\/49b1fc\/grafico\/450_1000.jpg\" alt=\"Gr\u00e1fico Aprendizaje reforzado\" srcset=\"https:\/\/i.blogs.es\/49b1fc\/grafico\/450_1000.jpg 450w, https:\/\/i.blogs.es\/49b1fc\/grafico\/650_1200.jpg 681w, https:\/\/i.blogs.es\/49b1fc\/grafico\/1024_2000.jpg 1024w, https:\/\/i.blogs.es\/49b1fc\/grafico\/1366_2000.jpg 1366w\" \/><\/div>\n<\/div>\n<p>Necesitamos un<span>\u00a0<\/span><strong>agente<\/strong><span>\u00a0<\/span>(por ejemplo, Pacman) en un<span>\u00a0<\/span><strong>estado<\/strong><span>\u00a0<\/span>determinado (la ubicaci\u00f3n) dentro de un medio ambiente (el laberinto). PacMan cuenta con una u otra<span>\u00a0<\/span><strong>recompensa<\/strong><span>\u00a0<\/span>(positiva: puntos por comer; negativa: morir si se cruza con un fantasma) en base a qu\u00e9<span>\u00a0<\/span><strong>acci\u00f3n<\/strong><span>\u00a0<\/span>(desplazamiento a un nuevo estado) realice.<\/p>\n<p>Pero m\u00e1s all\u00e1 de la recompensa existe lo que llamamos<span>\u00a0<\/span><strong>recompensa acumulada esperada<\/strong><span>\u00a0<\/span>que consiste, como habr\u00e1s averiguado, en ganar el juego. El aprendizaje por refuerzo se base, de este modo, en un<span>\u00a0<\/span><strong>bucle de estado \/ acci\u00f3n \/ recompensa<\/strong>.<\/p>\n<p>Para dar forma a una pol\u00edtica \u00f3ptima, el agente se enfrenta al dilema de explorar nuevos estados (<strong>exploraci\u00f3n<\/strong>) al tiempo que maximiza su recompensa acumulada esperada (<strong>explotaci\u00f3n<\/strong>).<\/p>\n<div class=\"article-asset-video article-asset-large\">\n<div class=\"asset-content\">\n<div class=\"base-asset-video\"><iframe loading=\"lazy\" width=\"560\" height=\"315\" src=\"https:\/\/www.youtube.com\/embed\/QilHGSYbjDQ?enablejsapi=1&amp;origin=https:\/\/www.xataka.com\" frameborder=\"0\" allow=\"accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture\" allowfullscreen=\"allowfullscreen\" id=\"widget2\" data-mce-fragment=\"1\"><\/iframe><\/div>\n<\/div>\n<\/div>\n<p>Si no ha quedado claro el ejemplo de Pacman, siempre podemos intentar llevarlo al mundo real:<span>\u00a0<\/span><strong>imaginemos que tenemos un macaco en casa<\/strong>(ejemplo real donde los haya) y que est\u00e1 aburrido en nuestro sal\u00f3n, con la televisi\u00f3n apagada y el mando de la TV sobre la mesa.<\/p>\n<p>Hasta aqu\u00ed tenemos un<span>\u00a0<\/span><strong>agente<\/strong><span>\u00a0<\/span>(el simio en cuesti\u00f3n), un<span>\u00a0<\/span><strong>ambiente<\/strong><span>\u00a0<\/span>(el sal\u00f3n) y un<span>\u00a0<\/span><strong>estado<\/strong><span>\u00a0<\/span>(la tele apagada). Por curiosidad o mero aburrimiento, el macaco puede empezar a toquetear botones del mando:<span>\u00a0<\/span><strong>la acci\u00f3n, que generar\u00e1 un nuevo estado<\/strong>.<\/p>\n<p>Si este estado no le gusta (la TV permanece apagada, lo cual constituye una<span>\u00a0<\/span><strong>recompensa negativa<\/strong>) terminar\u00e1 optando por no tocar esos botones y pasar a otros (o a una secuencia concreta de los mismos) hasta que<span>\u00a0<\/span><strong>maximice su recompensa acumulada esperada<\/strong><span>\u00a0<\/span>(que la TV no s\u00f3lo se encienda, sino que muestre alg\u00fan documental sobre la vida en la selva).<\/p>\n<div class=\"article-asset-image article-asset-normal\">\n<div class=\"asset-content\">\n<div class=\"caption-img \"><img decoding=\"async\" class=\"centro_sinmarco\" src=\"https:\/\/i.blogs.es\/d6ea7b\/3051274598_028aa69b05_b\/450_1000.jpg\" data-sf-srcset=\"https:\/\/i.blogs.es\/d6ea7b\/3051274598_028aa69b05_b\/450_1000.jpg 450w, https:\/\/i.blogs.es\/d6ea7b\/3051274598_028aa69b05_b\/650_1200.jpg 681w, https:\/\/i.blogs.es\/d6ea7b\/3051274598_028aa69b05_b\/1024_2000.jpg 1024w, https:\/\/i.blogs.es\/d6ea7b\/3051274598_028aa69b05_b\/1366_2000.jpg 1366w\" data-sf-src=\"https:\/\/i.blogs.es\/d6ea7b\/3051274598_028aa69b05_b\/450_1000.jpg\" alt=\"Macaco viendo la TV\" srcset=\"https:\/\/i.blogs.es\/d6ea7b\/3051274598_028aa69b05_b\/450_1000.jpg 450w, https:\/\/i.blogs.es\/d6ea7b\/3051274598_028aa69b05_b\/650_1200.jpg 681w, https:\/\/i.blogs.es\/d6ea7b\/3051274598_028aa69b05_b\/1024_2000.jpg 1024w, https:\/\/i.blogs.es\/d6ea7b\/3051274598_028aa69b05_b\/1366_2000.jpg 1366w\" \/><span>Foto:\u00a0<a href=\"https:\/\/www.flickr.com\/photos\/eugene\/3051274598\">Eugene Wei<\/a><\/span><\/div>\n<\/div>\n<\/div>\n<h2>Cuando DeepMind populariz\u00f3 el aprendizaje por refuerzo<\/h2>\n<p>Uno de los padres fundadores de la inteligencia artificial,<span>\u00a0<\/span>Marvin Minsky, cre\u00f3 en 1951 una m\u00e1quina que imitaba a una rata a la hora de aprender a navegar por un laberinto.<\/p>\n<p>Su nombre era SNARC (Ordenador Estoc\u00e1stico de Refuerzo de Similitud Neural) y empleaba una forma simplificada de aprendizaje reforzado. La metodolog\u00eda promet\u00eda, pero<span>\u00a0<\/span><strong>durante los siguientes 65 a\u00f1os fue imposible escalarla a situaciones m\u00e1s complejas<\/strong><span>\u00a0<\/span>(y \u00fatiles).<\/p>\n<p>En 2016,<span>\u00a0<\/span><strong>DeepMind present\u00f3 ante el mundo a AlphaGo<\/strong>, una IA que, tras ser entrenada durante varios meses en el an\u00e1lisis de miles de partidas jugadas por humanos fue capaz de<span>\u00a0<\/span>batir a un campe\u00f3n humano de Go, un juego complejo al que las m\u00e1quinas nunca hab\u00edan jugado bien recurriendo a la programaci\u00f3n convencional, por la dificultad para incorporar la estrategia al c\u00f3digo.<\/p>\n<p>Pero, un a\u00f1o m\u00e1s tarde, DeepMind presentaba una nueva IA, AlphaGo Zero, que con menos de 3 d\u00edas de entrenamiento fue capaz de<span>\u00a0<\/span>ganar 100 veces seguidas a su predecesora. \u00bfResid\u00eda el secreto en una mayor potencia de procesamiento?<\/p>\n<div class=\"desvio-container\">\n<div class=\"desvio\">\n<div class=\"desvio-figure js-desvio-figure\"><a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/que-recomiendan-estudiar-expertos-inteligencia-artificial-para-trabajar-vivir-ello\"><img decoding=\"async\" src=\"https:\/\/i.blogs.es\/62713a\/portadaia\/375_142.jpg\" \/><\/a><\/div>\n<div class=\"desvio-summary\"><\/div>\n<\/div>\n<\/div>\n<p>No, la clave reside en que<span>\u00a0<\/span><strong>AlphaGo Zero aprendi\u00f3 a jugar ella sola mediante aprendizaje por refuerzo<\/strong>, jugando millones de partidas contra s\u00ed misma, hasta que aprendi\u00f3, como dec\u00edamos antes a maximizar su recompensa acumulada esperada.<\/p>\n<p>La siguiente generaci\u00f3n,<span>\u00a0<\/span>AlphaZero,<span>\u00a0<\/span><strong>tuvo resultados a\u00fan m\u00e1s impresionantes<\/strong>. Y permite atisbar, por fin, la aplicaci\u00f3n del aprendizaje por refuerzo a empresas de mayor calado para la humanidad.<\/p>\n<p><strong>Fuente: Xakata<\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"<p>En la psicolog\u00eda conductista se hace un especial hincapi\u00e9 en describir las leyes generales que rigen nuestra conducta voluntaria.<\/p>\n","protected":false},"author":1,"featured_media":13630,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[361],"tags":[],"class_list":["post-13629","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ia"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v26.7 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Conceptos de inteligencia artificial: qu\u00e9 es el aprendizaje por refuerzo - Observatorio Tecnol\u00f3gico de Hidalgo<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/\" \/>\n<meta property=\"og:locale\" content=\"en_US\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Conceptos de inteligencia artificial: qu\u00e9 es el aprendizaje por refuerzo - Observatorio Tecnol\u00f3gico de Hidalgo\" \/>\n<meta property=\"og:description\" content=\"En la psicolog\u00eda conductista se hace un especial hincapi\u00e9 en describir las leyes generales que rigen nuestra conducta voluntaria.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/\" \/>\n<meta property=\"og:site_name\" content=\"Observatorio Tecnol\u00f3gico de Hidalgo\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/observatoriouaeh\" \/>\n<meta property=\"article:published_time\" content=\"2019-01-28T15:22:47+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2019-01-28T15:22:52+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/otech.uaeh.edu.mx\/noti\/wp-content\/uploads\/2019\/01\/Notic.3-7.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"600\" \/>\n\t<meta property=\"og:image:height\" content=\"350\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"admin\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@OBSERVATORIOEH\" \/>\n<meta name=\"twitter:site\" content=\"@OBSERVATORIOEH\" \/>\n<meta name=\"twitter:label1\" content=\"Written by\" \/>\n\t<meta name=\"twitter:data1\" content=\"admin\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. reading time\" \/>\n\t<meta name=\"twitter:data2\" content=\"4 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/\"},\"author\":{\"name\":\"admin\",\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/#\/schema\/person\/95263d004158ffabcd98137e1d0abc1c\"},\"headline\":\"Conceptos de inteligencia artificial: qu\u00e9 es el aprendizaje por refuerzo\",\"datePublished\":\"2019-01-28T15:22:47+00:00\",\"dateModified\":\"2019-01-28T15:22:52+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/\"},\"wordCount\":905,\"commentCount\":0,\"publisher\":{\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/#organization\"},\"image\":{\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/otech.uaeh.edu.mx\/noti\/wp-content\/uploads\/2019\/01\/Notic.3-7.jpg\",\"articleSection\":[\"Inteligencia Artificial\"],\"inLanguage\":\"en-US\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/\",\"url\":\"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/\",\"name\":\"Conceptos de inteligencia artificial: qu\u00e9 es el aprendizaje por refuerzo - Observatorio Tecnol\u00f3gico de Hidalgo\",\"isPartOf\":{\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/otech.uaeh.edu.mx\/noti\/wp-content\/uploads\/2019\/01\/Notic.3-7.jpg\",\"datePublished\":\"2019-01-28T15:22:47+00:00\",\"dateModified\":\"2019-01-28T15:22:52+00:00\",\"breadcrumb\":{\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/#breadcrumb\"},\"inLanguage\":\"en-US\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"en-US\",\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/#primaryimage\",\"url\":\"https:\/\/otech.uaeh.edu.mx\/noti\/wp-content\/uploads\/2019\/01\/Notic.3-7.jpg\",\"contentUrl\":\"https:\/\/otech.uaeh.edu.mx\/noti\/wp-content\/uploads\/2019\/01\/Notic.3-7.jpg\",\"width\":600,\"height\":350},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Inicio\",\"item\":\"https:\/\/otech.uaeh.edu.mx\/noti\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Conceptos de inteligencia artificial: qu\u00e9 es el aprendizaje por refuerzo\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/#website\",\"url\":\"https:\/\/otech.uaeh.edu.mx\/noti\/\",\"name\":\"Observatorio Tecnol\u00f3gico de Hidalgo\",\"description\":\"\",\"publisher\":{\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/otech.uaeh.edu.mx\/noti\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"en-US\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/#organization\",\"name\":\"Observatorio Tecnol\u00f3gico de Hidalgo\",\"url\":\"https:\/\/otech.uaeh.edu.mx\/noti\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"en-US\",\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/otech.uaeh.edu.mx\/noti\/wp-content\/uploads\/2025\/11\/Logo-circulo.png\",\"contentUrl\":\"https:\/\/otech.uaeh.edu.mx\/noti\/wp-content\/uploads\/2025\/11\/Logo-circulo.png\",\"width\":250,\"height\":250,\"caption\":\"Observatorio Tecnol\u00f3gico de Hidalgo\"},\"image\":{\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/#\/schema\/logo\/image\/\"},\"sameAs\":[\"https:\/\/www.facebook.com\/observatoriouaeh\",\"https:\/\/x.com\/OBSERVATORIOEH\"]},{\"@type\":\"Person\",\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/#\/schema\/person\/95263d004158ffabcd98137e1d0abc1c\",\"name\":\"admin\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"en-US\",\"@id\":\"https:\/\/otech.uaeh.edu.mx\/noti\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/08dd17208ee6a9e87c5a01c0a5f4c96c8ed24bf05e625630929b5b6a7c1ffa5f?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/08dd17208ee6a9e87c5a01c0a5f4c96c8ed24bf05e625630929b5b6a7c1ffa5f?s=96&d=mm&r=g\",\"caption\":\"admin\"},\"url\":\"https:\/\/otech.uaeh.edu.mx\/noti\/author\/admin\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Conceptos de inteligencia artificial: qu\u00e9 es el aprendizaje por refuerzo - Observatorio Tecnol\u00f3gico de Hidalgo","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/","og_locale":"en_US","og_type":"article","og_title":"Conceptos de inteligencia artificial: qu\u00e9 es el aprendizaje por refuerzo - Observatorio Tecnol\u00f3gico de Hidalgo","og_description":"En la psicolog\u00eda conductista se hace un especial hincapi\u00e9 en describir las leyes generales que rigen nuestra conducta voluntaria.","og_url":"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/","og_site_name":"Observatorio Tecnol\u00f3gico de Hidalgo","article_publisher":"https:\/\/www.facebook.com\/observatoriouaeh","article_published_time":"2019-01-28T15:22:47+00:00","article_modified_time":"2019-01-28T15:22:52+00:00","og_image":[{"width":600,"height":350,"url":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-content\/uploads\/2019\/01\/Notic.3-7.jpg","type":"image\/jpeg"}],"author":"admin","twitter_card":"summary_large_image","twitter_creator":"@OBSERVATORIOEH","twitter_site":"@OBSERVATORIOEH","twitter_misc":{"Written by":"admin","Est. reading time":"4 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/#article","isPartOf":{"@id":"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/"},"author":{"name":"admin","@id":"https:\/\/otech.uaeh.edu.mx\/noti\/#\/schema\/person\/95263d004158ffabcd98137e1d0abc1c"},"headline":"Conceptos de inteligencia artificial: qu\u00e9 es el aprendizaje por refuerzo","datePublished":"2019-01-28T15:22:47+00:00","dateModified":"2019-01-28T15:22:52+00:00","mainEntityOfPage":{"@id":"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/"},"wordCount":905,"commentCount":0,"publisher":{"@id":"https:\/\/otech.uaeh.edu.mx\/noti\/#organization"},"image":{"@id":"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/#primaryimage"},"thumbnailUrl":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-content\/uploads\/2019\/01\/Notic.3-7.jpg","articleSection":["Inteligencia Artificial"],"inLanguage":"en-US","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/","url":"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/","name":"Conceptos de inteligencia artificial: qu\u00e9 es el aprendizaje por refuerzo - Observatorio Tecnol\u00f3gico de Hidalgo","isPartOf":{"@id":"https:\/\/otech.uaeh.edu.mx\/noti\/#website"},"primaryImageOfPage":{"@id":"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/#primaryimage"},"image":{"@id":"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/#primaryimage"},"thumbnailUrl":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-content\/uploads\/2019\/01\/Notic.3-7.jpg","datePublished":"2019-01-28T15:22:47+00:00","dateModified":"2019-01-28T15:22:52+00:00","breadcrumb":{"@id":"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/#breadcrumb"},"inLanguage":"en-US","potentialAction":[{"@type":"ReadAction","target":["https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/"]}]},{"@type":"ImageObject","inLanguage":"en-US","@id":"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/#primaryimage","url":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-content\/uploads\/2019\/01\/Notic.3-7.jpg","contentUrl":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-content\/uploads\/2019\/01\/Notic.3-7.jpg","width":600,"height":350},{"@type":"BreadcrumbList","@id":"https:\/\/otech.uaeh.edu.mx\/noti\/ia\/conceptos-de-inteligencia-artificial-que-es-el-aprendizaje-por-refuerzo\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Inicio","item":"https:\/\/otech.uaeh.edu.mx\/noti\/"},{"@type":"ListItem","position":2,"name":"Conceptos de inteligencia artificial: qu\u00e9 es el aprendizaje por refuerzo"}]},{"@type":"WebSite","@id":"https:\/\/otech.uaeh.edu.mx\/noti\/#website","url":"https:\/\/otech.uaeh.edu.mx\/noti\/","name":"Observatorio Tecnol\u00f3gico de Hidalgo","description":"","publisher":{"@id":"https:\/\/otech.uaeh.edu.mx\/noti\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/otech.uaeh.edu.mx\/noti\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"en-US"},{"@type":"Organization","@id":"https:\/\/otech.uaeh.edu.mx\/noti\/#organization","name":"Observatorio Tecnol\u00f3gico de Hidalgo","url":"https:\/\/otech.uaeh.edu.mx\/noti\/","logo":{"@type":"ImageObject","inLanguage":"en-US","@id":"https:\/\/otech.uaeh.edu.mx\/noti\/#\/schema\/logo\/image\/","url":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-content\/uploads\/2025\/11\/Logo-circulo.png","contentUrl":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-content\/uploads\/2025\/11\/Logo-circulo.png","width":250,"height":250,"caption":"Observatorio Tecnol\u00f3gico de Hidalgo"},"image":{"@id":"https:\/\/otech.uaeh.edu.mx\/noti\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/observatoriouaeh","https:\/\/x.com\/OBSERVATORIOEH"]},{"@type":"Person","@id":"https:\/\/otech.uaeh.edu.mx\/noti\/#\/schema\/person\/95263d004158ffabcd98137e1d0abc1c","name":"admin","image":{"@type":"ImageObject","inLanguage":"en-US","@id":"https:\/\/otech.uaeh.edu.mx\/noti\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/08dd17208ee6a9e87c5a01c0a5f4c96c8ed24bf05e625630929b5b6a7c1ffa5f?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/08dd17208ee6a9e87c5a01c0a5f4c96c8ed24bf05e625630929b5b6a7c1ffa5f?s=96&d=mm&r=g","caption":"admin"},"url":"https:\/\/otech.uaeh.edu.mx\/noti\/author\/admin\/"}]}},"_links":{"self":[{"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/posts\/13629","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/comments?post=13629"}],"version-history":[{"count":1,"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/posts\/13629\/revisions"}],"predecessor-version":[{"id":13631,"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/posts\/13629\/revisions\/13631"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/media\/13630"}],"wp:attachment":[{"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/media?parent=13629"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/categories?post=13629"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/otech.uaeh.edu.mx\/noti\/wp-json\/wp\/v2\/tags?post=13629"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}