Los instructores y estudiantes de la clase CS293/EDUC473 de Stanford abordan las fallas de las tecnologías educativas actuales y describen cómo empoderar tanto a los docentes como a los estudiantes a través de la innovación colaborativa.
Más de dos años después del lanzamiento de ChatGPT, la anticipada «Revolución de la Tecnología Educativa» aún no se ha materializado. A pesar de los impresionantes avances técnicos en modelos de lenguaje de gran tamaño en los últimos años, de las sustanciales inversiones en recursos y de su amplia implementación en productos de tecnología educativa , la usabilidad de estas herramientas en las aulas de primaria y secundaria se mantiene sorprendentemente estancada y baja. Según una encuesta nacional representativa realizada a educadores en octubre de 2024, solo el 2 % del profesorado utiliza con frecuencia herramientas basadas en IA generativa en sus aulas, el 68 % nunca las ha utilizado y el 36 % ni siquiera planea empezar. Lo que resulta aún más sorprendente es que estas cifras apenas han variado entre 2023 y 2024.
¿Qué se pierde en la búsqueda de soluciones técnicas escalables para un problema profundamente social, específico (y político)? ¿Qué se necesita para que las tecnologías del lenguaje realmente empoderen a docentes y estudiantes?
Estas preguntas dieron forma a nuestro trabajo en nuestra clase de Stanford Empowering Educators Via Language Technology, o CS293/EDUC473 . A lo largo del trimestre, escuchamos a líderes de la industria en Amplify, Schoolhouse World, TeachFX y TeachingLab, así como a investigadores de Google DeepMind y universidades de investigación líderes. Leímos artículos de las principales conferencias de procesamiento del lenguaje natural (PLN) e IA, y trabajamos directamente con datos educativos que abarcan varios dominios, incluido el contenido de los libros de texto, el discurso en el aula y los ensayos de los estudiantes. Exploramos cómo los modelos de lenguaje miden la calidad de la instrucción, generan retroalimentación, evalúan ensayos, simulan estudiantes y maestros, y respaldan la tutoría basada en chat. Anotamos datos y aplicamos una variedad de métodos, desde análisis léxicos hasta indicaciones, ajuste fino y técnicas de aprendizaje de refuerzo.
Compartimos nuestras reflexiones como preguntas centrales para la investigación y la práctica en cada etapa del proceso de desarrollo del aprendizaje automático.
Reflexión 1: Definición del problema
¿Para quién estamos diseñando?
Menos del cinco por ciento de los usuarios de tecnología educativa interactúan con herramientas en la «dosis recomendada» que se debe considerar en los estudios, un fenómeno conocido como el problema del cinco por ciento . Eso significa que el 95% de las personas no están usando estas herramientas, a menudo porque las herramientas no abordan sus necesidades o son demasiado difíciles de usar. Debemos reconocer que, como tecnólogos, probablemente formamos parte del pequeño grupo para el cual la tecnología educativa se considera «efectiva». ¿Qué puntos ciegos y suposiciones, por lo tanto, se incorporan en nuestros diseños? Si no nos involucramos reflexivamente y diseñamos humildemente para el 95% (para crear tecnologías útiles y utilizables para todos los estudiantes y maestros), corremos el riesgo de desarrollar sistemas que refuercen las desigualdades existentes en lugar de abordarlas.
¿Cuál es el objetivo pedagógico?
Las tecnologías educativas suelen presentarse como herramientas de eficiencia —automatizando la calificación, la retroalimentación, la planificación de clases, la evaluación e incluso la tutoría—, pero estos sistemas no comprenden el aprendizaje de los estudiantes y corren el riesgo de producir resultados pedagógicamente deficientes. No toda automatización es útil. Redactar la retroalimentación, estructurar las lecciones y evaluar la comprensión de los estudiantes no son solo cargas logísticas, sino acciones pedagógicas personales y altamente contextuales. En lugar de maximizar la automatización, el desarrollo debe basarse en objetivos bien definidos de calidad docente.
¿Están involucradas las personas adecuadas?
Cada decisión en el desarrollo tecnológico refleja valores subyacentes sobre lo que debería ser la educación. Involucrar a las partes interesadas clave, incluyendo maestros, estudiantes, administradores y padres, es esencial para garantizar que las tecnologías del lenguaje se alineen con las necesidades y valores educativos reales. El co-diseño y la retroalimentación iterativa de expertos humanos y partes interesadas deben ocurrir a lo largo de cada etapa del desarrollo, en lugar de esperar hasta que los productos se implementen. Las metodologías de investigación del campo de la Interacción Persona-Computadora (HCI) ofrecen modelos accionables para este tipo de colaboración. Por ejemplo, en un estudio longitudinal , un investigador co-enseñó una clase con un educador de artes escénicas durante más de dos años, co-diseñando y observando iterativamente el uso de herramientas de aula en tiempo real. Este compromiso profundo y sostenido le permitió al investigador rastrear todo el ciclo de vida de las herramientas, desde el diseño hasta la implementación diaria.
Reflexión 2: Especificación de datos
¿Los datos representan fielmente nuestro mundo?
Gran parte de los datos utilizados para entrenar a la IA en educación proviene de muestras de conveniencia: reutilización de conjuntos de datos recopilados hace más de una década (como el conjunto de datos del Centro Nacional para la Efectividad Docente (NCTE) de transcripciones de aula de matemáticas o los ensayos del Premio a la Evaluación Automatizada de Estudiantes (ASAP) ) o recopilación de muestras con sesgo de selección a través de socios de datos dispuestos. Estos conjuntos de datos están vinculados a niveles de grado, materias y entornos específicos, lo que dificulta su generalización más allá de su contexto original. El uso de dichos datos corre el riesgo de sufrir daños fuera de distribución. ¿Reconocería un modelo el razonamiento de los estudiantes cuando se le presentan dialectos no dominantes o de cambio de código? ¿Un calificador automático penalizaría injustamente a aquellos cuyos estilos de escritura no se alinean con las normas del lenguaje académico? Si nuestros conjuntos de datos no representan a nuestra población objetivo de maestros y estudiantes, corremos el riesgo de crear herramientas que funcionen bien para algunos y fracasen para otros. También debemos seguir recopilando conjuntos de datos justos y diversos que capturen el espectro completo de contextos y experiencias de aprendizaje.
¿Los datos capturan suficiente complejidad?
Además, estudiamos herramientas basadas en datos textuales, pero la enseñanza y el aprendizaje son multimodales. Un chatbot de tutoría puede construirse únicamente con transcripciones, pero las interacciones de tutoría reales se moldean por el tono, las expresiones faciales, los gestos, la mirada y la visibilidad de lo que los estudiantes escriben, dibujan o señalan. Como investigadores, debemos preguntarnos con mayor sinceridad a qué intentamos aproximarnos y determinar cuándo la simplificación excesiva puede suponer un riesgo o un perjuicio. Por ejemplo, los estudiantes más jóvenes o multilingües pueden recurrir especialmente al dibujo para explicar su pensamiento, por lo que determinar si están «razonando» basándose únicamente en expresiones verbales puede resultar en falsos negativos problemáticos.
¿Cuáles son los estándares de calidad de datos?
Los datos educativos pueden ser inherentemente ruidosos. Los datos registrados pueden estar plagados de errores de transcripción y tipografía, y los momentos clave de la enseñanza y el aprendizaje que buscamos modelar pueden ocurrir en raras ocasiones. La anotación de datos a menudo implica construcciones de alta inferencia donde dos personas pueden discrepar al ejecutar la misma tarea (por ejemplo, ¿es esta retroalimentación demasiado vaga? ¿Demasiado severa?). Además, los matices contextuales de las interacciones en el aula, como el tono y la intención, a menudo se pierden en los datos sin procesar. Sin reglas fijas para gestionar estas ambigüedades, quienes trabajamos con los modelos debemos involucrarnos activamente en la limpieza y el etiquetado de datos para comprender y revelar verdaderamente las complejidades y limitaciones de los datos que subyacen al rendimiento del modelo.
Reflexión 3: Modelado
¿Es realmente necesario un LLM?
A pesar de la popularidad de los modelos de lenguaje de gran tamaño como GPT-4, sus elevados costes computacionales y ambientales inciden en el precio y la accesibilidad de las herramientas. Al considerar datos sensibles de estudiantes o profesores, estos modelos de gran tamaño pueden suponer mayores riesgos para la privacidad, ya que a menudo se accede a ellos mediante API de terceros. Por el contrario, los modelos más pequeños suelen ajustarse para tareas específicas, manteniendo un rendimiento comparable a un coste menor. Por ejemplo, RoBERTa es eficaz para la clasificación de texto, mientras que LLaMA o Mistral (7B) pueden gestionar la respuesta a preguntas de dominio cerrado, la agrupación de temas y la elaboración de resúmenes. Los algoritmos clásicos de PLN que utilizan la frecuencia de n-gramas para clasificar, predecir o agrupar texto también siguen siendo valiosos, ofreciendo una inferencia más rápida y una mayor interpretabilidad. Estas alternativas de LLM pueden ofrecer un mayor control sobre la privacidad de los datos mediante el alojamiento local; sin embargo, puede que se requiera un mayor esfuerzo de ingeniería para implementar estas técnicas a escala.
¿Qué ofrecen y limitan los paradigmas técnicos?
El modelado educativo requiere transformar algo fluido y dependiente del contexto, como el pensamiento del estudiante o las prácticas docentes, en datos estructurados. Al hacerlo, la información se pierde inevitablemente: cada etiqueta supervisada y cada resumen de texto completan detalles que importan en las aulas reales. Los LLM de propósito general tienen dificultades con estos matices, ya que la mayor parte de la pedagogía es demasiado compleja para ser captada mediante indicaciones, incluso con técnicas como la de pocos disparos o la de cadena de pensamiento. La generación aumentada por recuperación (RAG) es prometedora en contextos educativos, ya que permite a los modelos extraer una gran cantidad de textos y recursos en lugar de depender de conocimientos preentrenados. Técnicas como el aprendizaje de refuerzo mediante retroalimentación humana (RLHF) y la optimización de preferencias directas (DPO) pueden ayudar a alinear los modelos con las necesidades del aula, pero son propensas a la piratería de recompensas cuando las «preferencias del profesorado» no se comprenden bien. ¿Cuáles son las nociones de calidad que prefieren los profesores? ¿Es un resultado preferido necesariamente pedagógicamente sólido? (Nota: DPO es particularmente rentable y requiere pocos datos de capacitación. Como tarea de clase, capacitamos a un chatbot tutor bastante pasable con solo 20 ejemplos etiquetados).
¿Quién realiza el modelado?
Los docentes deben participar en cada etapa del modelado, desde el diseño de esquemas de anotación hasta la evaluación de los resultados intermedios del modelo. Las estrategias de modelado también deben permitir la personalización del profesorado, permitiéndoles especificar criterios de evaluación, ajustar los mecanismos de evaluación o refinar los resultados del modelo para que se ajusten mejor a las necesidades de su aula. Con el auge de los LLM y los editores de código basados en IA como Cursor o Replit Agent, los docentes ahora tienen la oportunidad de crear y personalizar sus propias herramientas. A medida que la IA se vuelve más accesible, los educadores pueden participar activamente en el desarrollo de estos modelos. La creación de comunidades y espacios compartidos puede facilitar este desarrollo liderado por los educadores: por ejemplo, el laboratorio EduNLP de Stanford organiza una cumbre este verano para reunir a docentes de matemáticas y contribuir a la investigación y el desarrollo de tecnologías del lenguaje en la enseñanza de las matemáticas.
Reflexión 4: Evaluación
¿Quién está calificado para evaluar qué?
Debemos considerar críticamente quién está cualificado para evaluar los resultados de los modelos. A partir de los ejemplos observados en nuestro curso, encontramos que el término «experto» tiene una definición imprecisa. Evaluar la calidad instruccional de las acciones docentes generadas o la autenticidad de las acciones simuladas de los estudiantes requiere una profunda experiencia pedagógica y un conocimiento del dominio. Los evaluadores humanos pueden carecer de los conocimientos necesarios, lo que pone de relieve la necesidad de definir las cualificaciones y credenciales que representan la «experiencia» (p. ej., experiencia docente, formación pedagógica, experiencia en la materia, comprensión sociotécnica de la IA). Aún más polémico es el uso común de otros LLM para evaluar los resultados de los modelos, lo que puede reforzar sesgos, dificultar la interpretación y generar un razonamiento epistémicamente circular.
¿Qué métricas importan?
La evaluación implica una serie de métricas descoordinadas: las empresas destacan las tasas de uso y las respuestas a las encuestas, los desarrolladores de modelos informan sobre la precisión y la latencia, y las evaluaciones humanas de los resultados de los modelos suelen basarse en preferencias de alto nivel evaluadas en entornos de laboratorio. Para priorizar la velocidad de iteración, las pruebas en contexto con aulas reales a lo largo del tiempo siguen siendo poco frecuentes. Estas discrepancias implican que muchas herramientas están optimizadas para métricas que no capturan realmente resultados de aprendizaje significativos. Una evaluación significativa de la eficacia requiere contextos educativos auténticos y métricas predefinidas que sean de suma importancia para estudiantes y docentes.
Reflexión 5: Despliegue
¿Cuáles son los costos ocultos?
La viabilidad económica es un factor clave para la adopción de tecnología educativa. El precio de los productos basados en IA es elevado, ya que las tecnologías subyacentes más potentes, como los grandes modelos de lenguaje, están cada vez más sujetas a barreras de pago. Para las escuelas, los cálculos de costos van más allá de las tarifas de licencia. Los gastos ocultos incluyen el desarrollo profesional utilizado como tiempo de capacitación, el soporte técnico, los requisitos de infraestructura y el costo de oportunidad de adoptar nuevas herramientas cuando las existentes podrían ser suficientes. También existe el riesgo de depender de empresas privadas para servicios educativos esenciales; fracasos recientes como el cierre abrupto de FEV Tutoring ponen de relieve la inestabilidad de la externalización de bienes públicos a actores privados. En la mayoría de los casos, los mayores costos de una adopción tecnológica ineficaz o fallida no recaen sobre quienes compran la herramienta (un distrito o administradores escolares), sino sobre los usuarios finales: docentes y estudiantes. Abordar la disparidad en los incentivos (los proveedores de tecnología maximizan las ganancias en lugar del impacto) podría ayudar a reducir los costos ocultos asociados a la adopción de tecnología.
¿Quién asume los riesgos?
Más allá de la equidad de acceso, existen cuestiones éticas sobre la prueba de la IA en estudiantes reales. Si bien la evaluación en contexto es importante, estas pruebas deben realizarse con cuidado, en múltiples fases, de forma análoga a los ensayos clínicos. La investigación educativa es de una importancia crucial: sus resultados medibles impactan directamente en las oportunidades futuras, las perspectivas profesionales y las trayectorias a largo plazo de los estudiantes. Sin embargo, una y otra vez, las comunidades vulnerables se convierten en el campo de pruebas de nuevas tecnologías, asumiendo los riesgos de intervenciones no probadas, mientras que los estudiantes con mayores recursos continúan aprendiendo de educadores altamente cualificados. Implementar la IA en la educación exige un análisis minucioso, no solo de sus posibles beneficios, sino también de quiénes se ven más afectados cuando falla. Un principio que adoptó nuestro curso es garantizar que la interacción de la IA con los estudiantes sea mediada por el profesorado, tanto para reducir el riesgo como para centrar la conexión humana.
¿Somos transparentes sobre las limitaciones?
Los sesgos, las alucinaciones y las tendencias aduladoras (el modelo dice lo que el usuario quiere oír) son problemas bien documentados en los modelos de lenguaje extensos. Es improbable que estas limitaciones sean solucionadas por desarrolladores que dependen de modelos predefinidos, que ofrecen poco control sobre el entrenamiento de los sistemas. La transparencia es fundamental para mitigar sus riesgos y deficiencias. En lugar de exagerar las capacidades de la IA, los desarrolladores deben comunicar claramente lo que estos modelos no pueden hacer y establecer expectativas realistas. Esto incluye proporcionar documentación detallada sobre los modos de fallo conocidos, los datos con los que se entrenó o ajustó el modelo, su evaluación y las advertencias pertinentes para mitigar el riesgo de daños.
Fuente: Mei Tan, estudiante de doctorado de la Escuela de Graduados en Educación, Profesora adjunta de Ciencia de Datos Educativos en la Escuela de Graduados en Educación Dora Demszky (instructores) y estudiantes en CS293 (ordenados alfabéticamente por apellido; indica contribución de edición): Javokhir Arifov, Philip Baillargeon, Nathanael Cadicamo, Joshua Delgadillo, Eban Ebssa, Elizabeth Gallagher, Rebecca Hao, Matías Hoyl, TJ Jefferson, Ashna Khetan, Aakriti Lakshmanan, Lucía Langlois, Daniel Lee, Samantha Liu*, Yasmine Mabene*, Chijioke Mgbahurike, Shubhra Mishra, Cameron Mohne, Alex Nam, Kaiyu Ren, Poonam Sahoo*, Yijia Shao, Mayank Sharma*, Ziqi Shu, Alexa Sparks, Nicholas Tuan-Duc Vo*, Gordon Yeung. / hai.stanford.edu