En la era de la IA, herramientas como ChatGPT se han convertido en una solución de referencia para muchas organizaciones, lo que brinda una mayor eficiencia y productividad. Los datos no mienten: lo más probable es que usted o sus empleados estén utilizando ChatGPT para redactar correos electrónicos, generar contenido, realizar análisis de datos e incluso ayudar en la codificación.
Sin embargo, si no se usan correctamente, estas herramientas podrían exponer inadvertidamente la propiedad intelectual (PI) de su empresa en futuros modelos generativos de IA, como GPT-3.5, GPT-4 y, finalmente, GPT-5, lo que significa que cualquier usuario de ChatGPT puede acceder a esa información.
Los ingenieros de Samsung usaron ChatGPT para ayudar con la verificación del código fuente, pero The Economist Korea informó tres casos separados de empleados de Samsung que filtraron involuntariamente información confidencial a través de la herramienta . Esto condujo a que el código fuente confidencial y los contenidos grabados de las reuniones terminaran en el dominio público, utilizable por futuras iteraciones de ChatGPT ( Fuente ).
Cuando utiliza nuestros servicios de consumidor no API ChatGPT o DALL-E, podemos usar los datos que nos proporciona para mejorar nuestros modelos.
Cómo se utilizan sus datos para mejorar el rendimiento del modelo
En esta publicación, hablaremos sobre los riesgos potenciales de usar ChatGPT y las API de OpenAI con datos internos de la empresa, y cómo puede reducir el riesgo para su empresa tanto como sea posible. También discutiremos otras opciones para su empresa, como entrenar su propio modelo de lenguaje que replique la funcionalidad de ChatGPT o usar un modelo de código abierto. Ambas opciones ofrecen vías para obtener los beneficios de productividad de ChatGPT sin enviar datos a OpenAI.
Los desarrolladores utilizan las API de finalización de OpenAI para crear aplicaciones y utilizar los modelos de lenguaje de última generación de OpenAI, como GPT-3 y GPT-4, los modelos que impulsan ChatGPT. Estas API ofrecen un nivel adicional de protección lista para usar. A diferencia de ChatGPT, sus datos solo los ve un equipo de moderación contratado y no se reciclan en futuras capacitaciones de los modelos de OpenAI. Sus API siguen una política de datos que no permite que la información enviada se use para entrenar modelos futuros (su política de uso de datos de API establece que sus datos solo se retienen durante 30 días para monitorear el abuso y el uso indebido. Luego se eliminan).
Sin embargo, según la naturaleza de los datos enviados a la API, puede decidir que usar la API de OpenAI sigue siendo demasiado arriesgado. Eventualmente, un empleado o contratista de OpenAI revisará algunos de los datos que envía a la API, y si contiene información confidencial, de identificación personal o de salud personal, eso podría significar muchos problemas.
A fines de abril de 2023, ChatGPT lanzó una forma de administrar sus datos , un botón "Historial de chat y capacitación" en la configuración de ChatGPT. Con esta función desactivada, los datos compartidos en la plataforma no se utilizan para entrenar modelos futuros. Debajo del botón, hay una nota: "Los chats no guardados se eliminarán de nuestros sistemas dentro de los 30 días". Es probable que esta nota de 30 días se refiera a la política de monitoreo de abuso y uso indebido. Esto conlleva los mismos riesgos que usar las API de OpenAI, como se indicó anteriormente.
Algunas empresas podrían considerar entrenar sus propios modelos como una alternativa, siguiendo el camino que, según los informes, emprendió Samsung después de su incidente de fuga de datos. Este enfoque puede parecer una bala de plata: mantendría un control total sobre sus datos, evitaría posibles fugas de IP y obtendría una herramienta adaptada a sus necesidades específicas.
Pero hagamos una pausa por un momento. Entrenar su propio modelo de lenguaje no es tarea fácil. Es intensivo en recursos, requiere experiencia significativa, poder computacional y datos de alta calidad. Incluso después de desarrollar un modelo, se enfrentará a los desafíos continuos de mantenerlo, mejorarlo y adaptarlo a sus necesidades cambiantes.
Además, la calidad de los modelos de lenguaje depende en gran medida de la cantidad y diversidad de datos en los que se entrenan. Dada la gran cantidad de conjuntos de datos utilizados por empresas como OpenAI para entrenar sus modelos, es un desafío para las empresas individuales igualar ese nivel de sofisticación y versatilidad. Las empresas que tienen éxito son empresas como Bloomberg, que creó BloombergGPT a partir de sus 40 años de datos y documentos financieros ( Fuente ). A veces, los datos simplemente no están al alcance de las pequeñas empresas que intentan obtener una ventaja.
El estado del arte de los modelos de código abierto avanza rápidamente. Se puede descargar un modelo de código abierto y ejecutarlo en su máquina, lo que lo hace autohospedable y elimina la necesidad de que participe una empresa como OpenAI.
Los modelos capacitados por organizaciones como Open Assistant están produciendo resultados notables y son totalmente de código abierto. Su comunidad recopila activamente datos para participar en el mismo ciclo de retroalimentación humana de aprendizaje por refuerzo (RLHF) que OpenAI utilizó con ChatGPT. El rendimiento del modelo es impresionante, especialmente teniendo en cuenta su dependencia de la comunidad de código abierto (incluidas mis propias contribuciones). Sin embargo, Open Assistant es transparente sobre las limitaciones de su modelo y reconoce que sus datos están sesgados hacia un grupo demográfico masculino de 26 años. Solo recomiendan usar su modelo en entornos de investigación, demostrando un comportamiento responsable al revelar estos datos demográficos. ¡Felicitaciones a Open Assistant!
Orca es un modelo de código abierto prometedor e inédito entrenado por Microsoft. Es más pequeño que GPT-3, pero produce resultados a la par y, a veces, mejores que GPT-3. Hay un gran video de AI explicado en Orca si estás interesado. Sin embargo, no puede usar los modelos de OpenAI para entrenar sus propios modelos, ya que esto constituiría una violación de los Términos de servicio de OpenAI. Orca está explícitamente capacitado en los resultados de GPT-3.5 y GPT-4, por lo que Microsoft afirma que lanzará este modelo solo para "investigación".
Ambos modelos están diseñados específicamente para fines de investigación, lo que los hace inadecuados para aplicaciones comerciales. Después de revisar otros modelos de código abierto como alternativas, descubrí que la mayoría de ellos se derivan del modelo LLAMA de Meta (por lo tanto, están sujetos a las mismas limitaciones de "investigación") o son demasiado grandes para ejecutarse de manera eficiente.
Una opción alentadora es aprovechar una empresa como MosaicML para alojar su inferencia de forma privada. MosaicML se destaca como uno de los pocos modelos de lenguaje de código abierto disponibles comercialmente. Afirman que su modelo MPT-30b logra una calidad comparable a GPT-3 . Si bien no brindan puntos de referencia específicos, me inclino a confiar en su afirmación, ya que un amigo y yo comenzamos a probar uno de sus modelos más pequeños (MPT-7b), ¡y los resultados iniciales son prometedores!
Dependiendo de la naturaleza de sus datos y casos de uso, el uso de ChatGPT o la API de OpenAI puede no ser adecuado para su empresa. Si su empresa no tiene políticas sobre qué datos se pueden enviar o guardar en ChatGPT, ahora es el momento de iniciar esas conversaciones.
El uso indebido de estas herramientas en entornos comerciales privados puede provocar una fuga de IP. Las implicaciones de tal exposición son enormes, y van desde la pérdida de la ventaja competitiva hasta posibles problemas legales.
Si está interesado en una mayor exploración de los modelos de MosaicML, que se encuentran entre las opciones limitadas que son tanto de código abierto como disponibles comercialmente para modelos de lenguaje grande, ¡háganoslo saber ! Compartimos el mismo interés y estamos emocionados de explorar más este tema juntos.
Si está interesado en una solución que ofrezca una generación aumentada de recuperación segura utilizando los datos de su propia empresa, estamos desarrollando una herramienta diseñada específicamente para proteger sus datos con el cumplimiento de SOC2, integrarse con sus proveedores de SSO, habilitar el intercambio de conversaciones dentro de su organización y hacer cumplir las políticas sobre las entradas de datos. Nuestro objetivo final es proporcionar calidad ChatGPT para sus datos sin ningún riesgo de fuga de IP. Si está interesado en una herramienta de este tipo, lo alentamos a completar nuestra encuesta o visitar mindfuldataai.com .
¡Gracias por tomarse el tiempo de leer esta publicación!