Este es un
libro
interesante para aquellas personas que con conocimientos de aprendizaje
automático de nivel intermedio que quieran especializarse en los grandes
modelos de lenguaje y sus aplicaciones. Prácticamente es la continuación de
otro libro de O´Reilly Media Hands On Machine
Learning...
ya que empieza donde termina el otro con la introducción a los Transformers,
por lo tanto es buena opción para aquellos que lo usaron como libro de texto para
aprender estas materias.
La peculiaridad del libro y que más llama la atención cuando se ojea es lo profusamente ilustrado que está aunque peca más de cantidad que de calidad ya que an algunos casos
los dibujos no son lo suficientemente expresivos, aunque se agradece, dado lo árido de la materia el esfuerzo de los autores en hacerlas.
No es un libro para aprender a escribir prompts para la IA generativa
exclusivamente, tiene un apartado para el tema pero no se extiende en él
dejando espacio para introducir otras aplicaciones no tan conocidas pero de
incuestionable utlidad a profesionales y organizaciones.
Contenido
El libro consta de tres secciones, una primera introductoria y las dos
siguientes sobre cómo se aplica la tecnología:
Entendiendo los Modelos de Lenguaje
Empezando en el primer capítulo con una introducción más que recomendable donde
se relata la evolución de estas tecnologías así como una somera descripción de
sus aplicaciones pasa en los siguientes a adentrarnos en los fundamentos
tecnológicos de los modelos de lenguaje, la tokenización, es decir la
transformación de los textos en números que puedan ser procesados por los
algoritmos matemáticos y termina con una exhaustiva descripción de los
transformers, la máquina matemática sobre la que se fundamenta esta revolución.
Usando Modelos de Lenguaje Preentrenados
En esta sección se tratan los casos de uso que no requieren de conocimientos de
aprendizaje profundo para poder ser aplicados, pudiendo utilizarse tanto
modelos locales como en la nube. La sección contiene temas de interés como
clasificación de textos, técnicas conversacionales de interacción con los
modelos (prompt engineering), búsqueda semántica e indexado de documentos y uso
de modelos multimodales para el proceso y generación de otro tipo de
información que no sea textual como pueden ser imágenes y sonidos.
Ajuste Fino los Modelos de Lenguaje
Esta materia ya es más compleja ya que no solo hay que comprender como funciona
un LLM por dentro si no que además hay que aprender a hackearlo matemáticamente
para poder contextualizar la generación de texto a nuestro área de interés.
Conclusiones
El libro trata de una materia que está evolucionando a gran velocidad y se nota
ya el desfase a un año de su publicación, de todas formas el contenido sigue
siendo interesante y es un buen libro de texto para quien quiera adentrarse en
estas materias con algo de bagaje prévio en el mundo del aprendizaje automático.
Nota: Si no quiere profundizar mucho en cuestiones técnicas quizás le resulte
más interesante AI
Engineering
de Chip Huyen que estoy leyendo ahora y es más descriptivo que éste.
Es común ya la idea de que la inteligencia artificial es una tecnología
disruptiva que va a cambiar la manera de la que muchos vivimos y trabajamos,
este post trata sobre la spec programming o programación por
especificaciones una tecnología desarrollada por la gente de
Microsoft y Github
que va a poner, muy probablemente, patas arriba el mundo de la programación.
La formas de programación de ordenadores han evolucionado mucho con el paso del
tiempo, esta evolución siempre ha sido parecida, se desarrolla un tipo de
sistema nuevo y mejor, la tecnología se vuelve más compleja y se desarrolla una
capa de abstracción que automatiza la forma de trabajo anterior para dar lugar
a un nuevo paradigma. Pasó cuando se pasó del código máquina al
ensamblador, del ensamblador a los lenguajes de programación modernos y
ahora toca sustituir los lenguajes de programación por el lenguaje
humano.
También han evolucionado las metodologías con las que se organizaba el trabajo
de desarrollo de software, cuando se empezaron a desarrollar los primeros
programas complejos que requerían de grupos de trabajo coordinados se implantó
el waterfall, esto duró hasta que en la era de internet la tecnología
aceleró su desarrollo y se impuso la programación ágil, ahora con la
irrupción de las máquinas pensantes parece ser que aparece un nuevo paradigma
la programación por especificaciones.
Una cuestión muy interesante es que esta nueva forma de programar la
posibilidad de integrar el desarrollo de software como una parte más de los
proyectos de otras disciplinas de ingeniería al posibilitar la especificación
de todos los detalles relevantes al desarrollo de forma extensiva y textual.
Metodología
La clave para que la IA cree un programa está en generar un contexto muy
rico para que a la hora de generar el código se deje el menor espacio posible
para la imaginación del modelo.
El trabajo de desarrollo lo lleva a cabo un agente de inteligencia artificial
que corra uno o más modelos guiados por un supervisor, normalmente un ingeniero
de software. Lo ideal es utilizar un modelo de lenguaje especializado en
escritura como ChatGPT5 o afín y luego la parte de desarrollo que la lleve
acabo una IA de programación como Claude.
Configuración del Entorno
A día de hoy la herramienta corre con todos los agentes más conocidos del mercado
siendo recomendable aquellos que permitan usar otros modelos aparte de los propios
como son Github Copilot, Cursor, Windsurf... por lo que hay que tenerlos
configurados para trabajar con los modelos de lenguaje elegidos.
A continuación invocamos el comando de configuración que nos inicia un asistente
donde se nos solicita el agente a utilizar y sobre que entorno trabajar, Unix o
Windows. Con estos datos crea la carpeta plantilla con todos los scripts y
parámetros para poder trabajar.
Desarrollo
Con el entorno configurado iniciamos el agente especificado asignamos el modelo
que más convenga y empezamos:
- Redacción de la constitución. Donde se especifican los principios
básicos de la arquitectura, si se hacen tests y si estos van antes o después
y otras cuestiones afines sin entrar en detalles de implementación. Como
suelen ser todas muy parecidas se puede dejar a la IA y luego hacer
modificaciones. (Comando
/constitution)
- Redacción de las especificaciones. Este es el trabajo inicial del
operador donde se le indica lo que se quiere y porqué se quiere en un
documento que puede ser completado por la IA. En esta parte no se incluye
detalles técnicos si no arquitectónicos. (Comando
/spec)
- Clarifciación. En este paso se analizan las especificaciones y se
eliminan los riesgos que pudieran ser perjudiciales en el plan.
(Comando
/clarify)
- Redacción del plan. Aquí ya se entra en materia tecnológica indicando
lenguajes, librerías, reglas específicas y demás. También la IA puede ser de
ayuda generando una plantilla inicial a partir de las ideas propuestas por
los operadores. (Comando
/plan)
- Generación de las tareas. A partir de las especificaciones y de acuerdo
al contexto proporcionado por la gente de Github y los operadores se genera
el documento de tareas. Que ha de indicar de forma muy pormenorizada como
se implementa todas y cada una de las partes. (Comando
/tasks)
- Análisis del proyecto. Es de buen proceder invocar un análisis previo para
encontrar incongruencias que pudieran afectar al generador de código.
(Comando
/analyze)
- Implementación. El agente escogido para llevar a cabo la implementación
de las tareas lleva a cabo su trabajo dando al final un producto prácticamente
terminado en teoría.(Comando
/implement)
El resultado puede ser variable en calidad, mis experiencias con esta técnica me
dicen que no es oro todo lo que reluce pero es sin duda un paso importante frente
al vive-coding, donde la creatividad y las alucinaciones del algoritmo pesan
mucho en el desarrollo lo que redundaba en unas pequeñas mejoras frente al
desarrollo hecho por programadores.
Conclusiones
Esta es una tecnología que viene para quedarse, hay mucho espacio para la
mejora pero sin duda es una herramienta que hay que conocer si te toca
desarrollar software ocasionalmente y sin duda dominarla en caso de que te
dedique profesionalmente a ello.
Ventajas
- Se puede generar código para cualquier plataforma.
- Se implementa a gran velocidad desde el punto de vista del proyecto
- Permite programación iterativa
- Permite integrar la informática en el cuerpo de otros proyectos de
ingeniería.
Inconvenientes
- Requiere conocimientos de ingeniería de software
- Cuesta dinero
- Es lento desde el punto de vista humano
- Impacto negativo en la demanda de programadores
Ya llevo años dándole vueltas a una idea que considero clave para el futuro
desarrollo de la labor minera y otras actividades humanas de riesgo donde
sustituir la labor personal por una máquina no solo es económica si no que es
necesaria desde la óptica de la seguridad y la salud en el trabajo, esta idea
es la del control autónomo.
La clave para entender este nuevo sistema de control y que diferencia hay con
el control automático es la diferenciación entre los datos estructurados y los
datos no estructurados.
Los datos estructurados son aquellos que tienen un formato predefinido, es
decir son valores simples o agrupados cuyo significado se entiende en cada
momento, pueden ser por ejemplo, valores de tensión eléctrica, presión,
temperatura o una agrupación de estos en el tiempo o en el espacio.
Los datos no estructurados se caracterizan por carecer de un significado a
priori más allá de una lectura dada de un sensor dado, son datos no
estructurados el audio, la fotografía, el video y todas sus variantes.
Para el proceso de datos no estructurados se utilizan eminentemente las
redes neuronales que son un algoritmo del campo del aprendizaje automático
que es una disciplina del área de la inteligencia artificial.
Yo entiendo por control autónomo como aquel proceso de automatización de las
labores industriales y mineras que utiliza el proceso de datos no estructurados
para automatizar las labores productivas y que se lleva a cabo empleando
principalmente redes neuronales.
Se contrapone con el control automático que utiliza eminentemente datos
estructurados y se caracteriza por emplear algoritmos de control como el PID.
La diferencia clave entre los sistemas de control automático y los sistemas de
control autónomo es que los segundos requieren normalmente sistemas de
computación de alta capacidad y rendimiento para poder procesar grandes
volúmentes de información empleando modelos de aprendizaje automático que
pueden llegar a ser muy grandes y requerir por ello muchos recursos.
Tal como lo veo yo, haciendo un paralelismo con las funciones cerebrales es que
el control automático es equivalente al tronco encefálico que controla por ejemplo
los latidos del corazón y por otra parte el control autónomo sería el equivalente
a la corteza cerebral responsable de los sentidos del oido y de la vista.
La cualidad de estas tecnologías es que permiten la robotización de la
maquinaria minera y a diferencia de la robotización automática, la robotización
autónoma se caracteriza porque las máqinas se programan para ser conscientes de
aquello que acontece en su entorno pudiendo escapar de las jaulas y ponerse a
trabajar mano a mano con los operarios de carne y hueso.
Así pues ya llevo unos cuantos años trabajando sobre estas ideas y con estas
tecnologías para poder hacer del control autónomo una realidad tecnológica que
mejore las condiciones de trabajo y la productividad de las labores mineras e
industriales. Por lo que quedo a vuestra disposición para todo lo relativo a
estos nuevos despliegues tecnológicos.