Hasta 15 mil dólares pagará por “jailbreaks” que eludan las medidas de seguridad de su IA.
Anthropic informó que, mientras trabaja en el desarrollo de la próxima generación de sus sistemas de protección de IA, amplió su programa de recompensas por errores en ciberseguridad.
Describió la iniciativa centrada en encontrar fallas en las mitigaciones que utilizan para evitar el uso indebido de sus modelos.
La firma define un ataque de jailbreak en IA como un método utilizado para eludir las medidas de seguridad integradas y las pautas éticas de un sistema de IA, lo que permite a un usuario obtener respuestas o comportamientos de la IA que normalmente estarían restringidos o prohibidos.
Al considerar que la rápida evolución de las capacidades de los modelos de IA, exige un avance igualmente veloz en los protocolos de seguridad.
La importancia de las recompensas
Explicó que los programas de recompensas por errores desempeñan un papel crucial en el fortalecimiento de la seguridad de los sistemas tecnológicos.
“Nuestra nueva iniciativa se centra en identificar y mitigar los ataques de fuga de información universal.
“Se trata de exploits que podrían permitir eludir sistemáticamente las barreras de seguridad de la IA en una amplia gama de áreas. Al centrarnos en las fugas de información universales, pretendemos abordar algunas de las vulnerabilidades más importantes en dominios críticos y de alto riesgo”, precisa el texto.
Especialmente en áreas de seguridad química, biológica, radiológica y nuclear, así como la propia ciberseguridad.
Te puede interesar leer: Surge la Coalición para una IA Segura
Cómo acceder al programa
Actualmente, para acceder al programa de recompensas por detección de errores, solo se puede acceder por invitación, en asociación con HackerOne.
Pero, la nueva iniciativa por detección de errores funcionará bajo el siguiente esquema :
- Los participantes tendrán acceso anticipado para probar el último sistema de mitigación de seguridad antes de su implementación pública y tendrán el desafío de identificar posibles vulnerabilidades o eludir las medidas de seguridad en un entorno controlado.
- Ofrece recompensas de hasta 15 mil dólares por ataques de jailbreak universales novedosos, que puedan exponer vulnerabilidades en dominios críticos y de alto riesgo.
Identificar y mitigar los jailbreaks universales es el enfoque clave de esta iniciativa de recompensas por errores. Si se explotan, estas vulnerabilidades podrían tener consecuencias de gran alcance en una variedad de áreas dañinas, poco éticas o peligrosas.
Al principio para acceder al programa serpa con invitación en asociación con HackerOne; pero planea expandir la iniciativa en el futuro.
“Esta fase inicial nos permitirá refinar nuestros procesos y responder a las presentaciones con comentarios oportunos y constructivos.
“Si eres un investigador de seguridad de IA experimentado o has demostrado experiencia en la identificación de fugas de información en modelos de lenguaje, te alentamos a que solicites una invitación a través de nuestro formulario de solicitud antes del viernes 16 de agosto.”, detalla Anthropic.