1. Temario
- Modelos secuenciales tipo LSTM
- Aplicaciones de modelos secuenciales en PLN
- El mecanismo de atención
- Transformadores: arquitectura básica y tokenizador
- Ajuste fino a modelos preentrenados
- Grandes modelos de lenguaje (LLM)
- prompt engineering y langchain para uso de LLM
- Ajuste fino de LLM con PERF
2. Actividades de aprendizaje
2.1. Realizar las libretas siguientes:
-
Modelo seq-to-seq con LSTM y mecanismo de atención de los ejemplos de uso de la documentación de Tensor Flow
-
Modelo seq-to-seq con transformadores, haciendo los transformadores mas o menos a pie de la guías de ejemplos de la documentación de Keras
-
Clasificación de textos con transformers. Modificación de esta libreta que ya no funciona, del curso Curso NLP de 0 a 100 de la Sesión 4: Transformers y Aprendizaje por Transferencia
Subir en forma individual las libretas resueltas (o ejecutadas, algunas son solo para ejecutar y ver como funciona) en un repositorio de GitHub.
2.2. Realizar los siguientes cursos cortos de una hora cada uno (entregan diploma)
-
ChatGPT Prompt Engineering for Developers, o Prompt Engineering with Llama 2 & 3, o Getting Started with Mistral
3. Material para el aprendizaje
3.1. Presentaciones
3.2 Explicaciones gráficas
-
The Unreasonable Effectiveness of Recurrent Neural Networks (Karpathy, 2015)
-
Using Triplet Loss and Siamese Neural Networks to Train Catalog Item Embeddings (Ramachandran, 2021)
-
BERT 101 🤗 State Of The Art NLP Model Explained (Muller, 2022)
-
A Visual Guide to Using BERT for the First Time (Alammar, 2019)
-
The Illustrated GPT-2 (Visualizing Transformer Language Models) (Alammar, 2019)
-
How GPT3 Works - Visualizations and Animations (Alammar, 2020)
3.3 Artículos seminales
-
Neural Machine Translation by Jointly Learning to Align and Translate (Bhadanau et al, 2014)
-
Deep contextualized word representations (Peters et al, 2018)
3.4. Sitios y herramientas interesantes
-
La de base si estás en tensorflow: Keras
-
Para NLP, está Keras NLP, la cual es una librería que funciona en forma nativa con Tensorflow, JAX y/o pyTorch. En general ayuda a establecer un flujo de trabajo tanto de entrenamiento como de puesta en producción de procesos de NLP. Muy pensada para el uso y ajuste fino de modelos preentrenados.
-
Si estás haciendo PLN con modelos profundos, no es posible vivir sin conocer a fondo Hugging Face. Es una compañía que mantiene un entorno de desarrollo abierto, una colección de modelos preentrenados, y una librería (la librería de transformadores mñas importante al momento), así como facilidades para poner los modelos en producción.
-
Para recursos específicos en español, Hugging Face mantiene una rama en los países que hablamos español, Somos NLP. Muy recomendable. Incluye una bolsa de trabajo (muy centrada en España por el momento, pero que esperamos crezca).
-
La Sociedad Española para el Procesamiento del Lenguage Natural (SEPLN) es una de las organizaciones científicas en el área de informñatica más antiguas de España, y mantiene una revista desde 1983. Información interesante, acceso gratuito a la revista, congresos, hackatones. Todo muy español, pero con muchos lazos en Latinoamñerica y en espacial con México.
-
LagChain: Get your LLM application from prototype to production, su documentación y si repositorio de GitHub