Nueva definición de IA de código abierto criticada por no abrir datos de entrenamiento

NUESTRO SITIO necesita la publicidad para costear hosting y el dominio. Por favor considera deshabilitar tu AdBlock en nuestro sitio. También puedes hacernos una donación entrando en linuxparty.es, en la columna de la derecha.

Nueva definición de IA de código abierto criticada por no abrir datos de entrenamiento

Publicado: 04 Noviembre 2024 | Escrito por Javier Orovengua | Correo electrónico | Visto: 317

hay cierta oposición a la recién publicada definición de IA de código abierto . La llama una "bifurcación" que socava la definición original de código abierto (que originalmente se derivó de las Directrices de software libre de Debian , escritas principalmente por Bruce Perens), y nos señala un nuevo dominio con una petición que declara que, en cambio, el código abierto se definirá "únicamente por la versión 1.9 de la definición de código abierto. Cualquier enmienda o nueva definición solo se reconocerá con un claro consenso de la comunidad a través de un proceso abierto y transparente".

Esta medida surge a raíz de una discusión en la lista de correo de Debian:Permitir que la "IA de código abierto" oculte sus datos de entrenamiento no es más que crear una "barrera de datos" que protege el monopolio y que impide que cualquier persona que no sea la primera en reproducir o replicar una IA. Una vez aprobada, la OSI estará cometiendo un error histórico hacia el ecosistema de software libre.

No son los únicos preocupados por los datos. Esta semana, TechCrunch señaló un estudio de agosto que "descubrió que muchos modelos de 'código abierto' son básicamente de código abierto solo de nombre. Los datos necesarios para entrenar los modelos se mantienen en secreto, la potencia de cálculo necesaria para ejecutarlos está fuera del alcance de muchos desarrolladores y las técnicas para ajustarlos son intimidantemente complejas. En lugar de democratizar la IA, estos proyectos de 'código abierto' tienden a afianzar y expandir el poder centralizado, concluyeron los autores del estudio". samj comparte la preocupación sobre los datos de entrenamiento, argumentando que los datos de entrenamiento son el código fuente y que esta nueva definición tiene consecuencias en el mundo real . (En una nota personal, dice que "representa una amenaza existencial para nuestro proyecto pAI-OS en el laboratorio de código abierto sin fines de lucro Kwaai en el que trabajo como voluntario, por lo que hemos sido muy activos en la lucha contra el cambio en las últimas semanas"). Y también se le ocurrió una respuesta detallada al preguntarle a ChatGPT . ¿Cuáles serían las implicaciones de que un Debian desautorizara la definición de IA de código abierto de OSI? ChatGPT redactó una respuesta de 7 puntos y 14 párrafos, en la que concluía que este nivel de oposición "crearía desafíos para los desarrolladores de IA en relación con las licencias. También podría conducir a una fragmentación de la comunidad de código abierto en facciones con diferentes puntos de vista sobre cómo debería regirse la IA según las reglas de código abierto". Pero "en última instancia, podría estimular la creación de definiciones alternativas o movimientos destinados a mantener una adhesión más estricta a los principios tradicionales de libertad del software en la era de la IA". Sin embargo, las preguntas frecuentes oficiales para la nueva definición de IA de código abierto argumentan que los datos de entrenamiento "no equivalen a un código fuente de software".

Los datos de entrenamiento son importantes para estudiar los sistemas de aprendizaje automático modernos, pero no son necesariamente lo que los investigadores y profesionales de la IA utilizan como parte de la forma preferida para realizar modificaciones en un modelo entrenado... [L]os trabajos podrían incluir la eliminación de datos no públicos o no abiertos del conjunto de datos de entrenamiento, con el fin de entrenar un nuevo sistema de IA de código abierto con datos totalmente públicos o abiertos...

[N]ostros queremos que la IA de código abierto exista también en campos en los que los datos no se pueden compartir legalmente, por ejemplo, la IA médica. Las leyes que permiten el entrenamiento con datos a menudo limitan la redistribución de esos mismos datos para proteger los derechos de autor u otros intereses. Las normas de privacidad también otorgan a una persona la capacidad legítima de controlar su información más sensible, como las decisiones sobre su salud. De manera similar, gran parte del conocimiento indígena del mundo está protegido a través de mecanismos que no son compatibles con los marcos desarrollados posteriormente para la exclusividad y el intercambio de derechos.

"También hay muchos casos en los que las condiciones de uso de datos disponibles públicamente pueden dar a la entidad A la confianza de que puede usarlos libremente y llamarlos "datos abiertos", pero no le dan a la entidad A la confianza que puede dar a la entidad B garantías en una jurisdicción diferente. Mientras tanto, la entidad B puede o no sentirse segura de usar esos datos en su jurisdicción. Un ejemplo son los llamados datos de dominio público, donde la definición de dominio público varía de un país a otro. Otro ejemplo son los datos de uso justo o privados donde el hallazgo de leyes de uso justo o privacidad puede requerir un buen conocimiento de la ley de una jurisdicción determinada. Esta redistribución no es tanto limitada como carente de certeza legal...

"Algunas personas creen que el acceso total sin restricciones a todos los datos de entrenamiento (sin distinción de su tipo ) es primordial, argumentando que cualquier cosa menos comprometería la reproducibilidad total de los sistemas de IA, la transparencia y la seguridad. Este enfoque relegaría la IA de código abierto a un nicho de IA entrenable solo en datos abiertos ... Ese nicho sería minúsculo, incluso en relación con el nicho ocupado por el código abierto en el ecosistema de software tradicional. Los requisitos de la Información de Datos mantienen el mismo enfoque presente en la Definición de Código Abierto que no exige reproducibilidad y transparencia totales, pero las habilita (es decir, compilaciones reproducibles ). Al mismo tiempo, establecer una línea base que requiera Información de Datos no impide que otros formulen y exijan más requisitos, como el Estándar de Bienes Públicos Digitales o las Pautas de Distribución de Sistemas Libres que agregan requisitos a la Definición de Código Abierto.

"Uno de los aspectos clave de la misión de OSI es impulsar y promover la innovación de código abierto. El enfoque que OSI adopta aquí permite una elección total del usuario con IA de código abierto. Los usuarios pueden conservar los conocimientos derivados del código de preprocesamiento de datos y entrenamiento y la descripción de los datos de entrenamiento no compartibles y aprovecharlos con sus propios datos no compartibles y brindar los conocimientos derivados de un mayor entrenamiento a todos, lo que permite la IA de código abierto en áreas como la atención médica. O los usuarios pueden obtener los datos disponibles y públicos de la información de datos y volver a entrenar su modelo sin ningún dato no compartible, lo que da como resultado una mayor transparencia de datos en el sistema de IA resultante. Al igual que con el copyleft y las licencias permisivas, este enfoque deja la elección en manos del usuario...

"Este enfoque promueve la apertura en todos los componentes del sistema de IA e impulsa una mayor IA de código abierto, es decir, en áreas privadas como la atención médica".