Incidente 65: Reinforcement Learning Reward Functions in Video Games

Descripción: OpenAI published a post about its findings when using Universe, a software for measuring and training AI agents to conduct reinforcement learning experiments, showing that the AI agent did not act in the way intended to complete a videogame.

Herramientas

Nuevo Informe Nueva Respuesta DescubrirVer Historial

Entidades

Ver todas las entidades

Presunto: un sistema de IA desarrollado e implementado por OpenAI, perjudicó a OpenAI.

Estadísticas de incidentes

Cantidad de informes

Fecha del Incidente

2016-12-22

Editores

Sean McGregor

Applied Taxonomies

CSETv0, CSETv1, GMF, MIT

Clasificaciones de la Taxonomía CSETv0

Detalles de la Taxonomía

Problem Nature

Specification

Physical System

Software only

Level of Autonomy

Unclear/unknown

Nature of End User

Expert

Public Sector Deployment

Data Inputs

Universe software training

Clasificaciones de la Taxonomía CSETv1

Detalles de la Taxonomía

Incident Number

Special Interest Intangible Harm

Date of Incident Year

2016

Date of Incident Month

Date of Incident Day

Estimated Date

Yes

Clasificaciones de la Taxonomía MIT

Machine-Classified

Detalles de la Taxonomía

Risk Subdomain

7.1. AI pursuing its own goals in conflict with human goals or values

Risk Domain

AI system safety, failures, and limitations

Entity

Timing

Post-deployment

Intent

Unintentional

Informes del Incidente

Cronología de Informes

Funciones de recompensa defectuosas en la naturaleza

blog.openai.com

blog.openai.com · 2016

Traducido por IA

En OpenAI, recientemente comenzamos a usar Universe, nuestro software para medir y entrenar agentes de IA, para realizar nuevos experimentos de RL. A veces, estos experimentos ilustran algunos de los problemas con RL tal como se practica ac…

Variantes

Una "Variante" es un incidente que comparte los mismos factores causales, produce daños similares e involucra los mismos sistemas inteligentes que un incidente de IA conocido. En lugar de indexar las variantes como incidentes completamente separados, enumeramos las variaciones de los incidentes bajo el primer incidente similar enviado a la base de datos. A diferencia de otros tipos de envío a la base de datos de incidentes, no se requiere que las variantes tengan informes como evidencia externa a la base de datos de incidentes. Obtenga más información del trabajo de investigación.

Incidentes Similares

Por similitud de texto

Did our AI mess up? Flag the unrelated incidents

Incidentes Similares

Por similitud de texto

Did our AI mess up? Flag the unrelated incidents

Incidente 65: Reinforcement Learning Reward Functions in Video Games

Herramientas

Entidades

Estadísticas de incidentes

Clasificaciones de la Taxonomía CSETv0

Clasificaciones de la Taxonomía CSETv1

Clasificaciones de la Taxonomía MIT

Informes del Incidente

Cronología de Informes

Funciones de recompensa defectuosas en la naturaleza

Funciones de recompensa defectuosas en la naturaleza

Variantes

Incidentes Similares

Por similitud de texto

Google's sentiment analysis API is just as biased as humans

Semantics derived automatically from language corpora contain human-like biases

AI Incident Database Incidents Converted to Issues

Incidentes Similares

Por similitud de texto

Google's sentiment analysis API is just as biased as humans

Semantics derived automatically from language corpora contain human-like biases

AI Incident Database Incidents Converted to Issues