Grandes modelos de lenguaje

Tópicos Avanzados en Inteligencia Artificial

1. Temario

  1. Modelos secuenciales tipo LSTM
  2. Aplicaciones de modelos secuenciales en PLN
  3. El mecanismo de atención
  4. Transformadores: arquitectura básica y tokenizador
  5. Ajuste fino a modelos preentrenados
  6. Grandes modelos de lenguaje (LLM)
  7. prompt engineering y langchain para uso de LLM
  8. Ajuste fino de LLM con PERF

2. Actividades de aprendizaje

2.1. Realizar las libretas siguientes:

  1. Una RNN a pie, solo para entender la arquitectura

  2. El problema del desvanecimiento del gradiente

  3. Análisis de sentimiento con LSTM

  4. El mecanismo de atención a pie, solo para entender

  5. Modelo seq-to-seq con LSTM y mecanismo de atención de los ejemplos de uso de la documentación de Tensor Flow

  6. Modelo seq-to-seq con transformadores, haciendo los transformadores mas o menos a pie de la guías de ejemplos de la documentación de Keras

  7. Clasificación de textos con transformers. Modificación de esta libreta que ya no funciona, del curso Curso NLP de 0 a 100 de la Sesión 4: Transformers y Aprendizaje por Transferencia

Subir en forma individual las libretas resueltas (o ejecutadas, algunas son solo para ejecutar y ver como funciona) en un repositorio de GitHub.

2.2. Realizar los siguientes cursos cortos de una hora cada uno (entregan diploma)

  1. ChatGPT Prompt Engineering for Developers, o Prompt Engineering with Llama 2 & 3, o Getting Started with Mistral

  2. LangChain for LLM Application Development

  3. LangChain: Chat with Your Data

  4. Functions, Tools and Agents with LangChain

  5. Vector Databases: from Embeddings to Applications

  6. Building and Evaluating Advanced RAG Applications

  7. Red Teaming LLM Applications

3. Material para el aprendizaje

3.1. Presentaciones

3.2 Explicaciones gráficas

3.3 Artículos seminales

3.4. Sitios y herramientas interesantes

  • La de base si estás en tensorflow: Keras

  • Para NLP, está Keras NLP, la cual es una librería que funciona en forma nativa con Tensorflow, JAX y/o pyTorch. En general ayuda a establecer un flujo de trabajo tanto de entrenamiento como de puesta en producción de procesos de NLP. Muy pensada para el uso y ajuste fino de modelos preentrenados.

  • Si estás haciendo PLN con modelos profundos, no es posible vivir sin conocer a fondo Hugging Face. Es una compañía que mantiene un entorno de desarrollo abierto, una colección de modelos preentrenados, y una librería (la librería de transformadores mñas importante al momento), así como facilidades para poner los modelos en producción.

  • Para recursos específicos en español, Hugging Face mantiene una rama en los países que hablamos español, Somos NLP. Muy recomendable. Incluye una bolsa de trabajo (muy centrada en España por el momento, pero que esperamos crezca).

  • La Sociedad Española para el Procesamiento del Lenguage Natural (SEPLN) es una de las organizaciones científicas en el área de informñatica más antiguas de España, y mantiene una revista desde 1983. Información interesante, acceso gratuito a la revista, congresos, hackatones. Todo muy español, pero con muchos lazos en Latinoamñerica y en espacial con México.

  • LagChain: Get your LLM application from prototype to production, su documentación y si repositorio de GitHub

3.5. Filosofía, sociedad, implicaciones éticas y sociales