Перейти к содержимому

Q&A — каверзные вопросы и готовые ответы

После elevator pitch’а — этот раздел готовых ответов на вопросы, которые гарантированно прилетят. Цель — ничего не пропустить, не растеряться.

DKT — это LSTM, которая учится на последовательностях ответов. Для работы нужно ~10510^5 примеров обучения, у нас их нет — мы стартуем с нуля. Кроме того, DKT — чёрный ящик: невозможно объяснить учителю, почему именно эта задача.

BKT даёт 5% меньше точности на больших датасетах, но интерпретируема, работает с холодного старта на литературных дефолтах, и параметры можно подгонять EM-алгоритмом по мере накопления данных.

«Откуда у вас параметры P(L0),P(T),P(S),P(G)P(L_0), P(T), P(S), P(G)

Заголовок раздела ««Откуда у вас параметры P(L0),P(T),P(S),P(G)P(L_0), P(T), P(S), P(G)P(L0​),P(T),P(S),P(G)?»»

Литературные дефолты 0.2 / 0.1 / 0.1 / 0.2 из работ Corbett & Anderson 1995. Они работают на широком диапазоне предметов. На реальных данных подгоним через Expectation-Maximization (Baum-Welch для HMM) — у нас есть готовый ноутбук NB-3 EM fitting, который это демонстрирует на синтетических данных.

IRT моделирует «способность ученика» + «трудность задачи» — это хорошо для тестирования (SAT/GRE), но плохо для обучения, потому что не отслеживает, как ученик учится во времени. BKT моделирует состояние навыка, и это состояние явно меняется при ответе. Для образовательного adaptive learning — правильный выбор.

Сравнение в NB-4 IRT vs BKT.

Spaced Repetition (SuperMemo, SM-2 algorithm) — это другая модель: оптимизация интервала до следующего повторения, чтобы не забыть. Хороша для памяти (vocabulary), хуже для понимания (математика). Можно скомбинировать в roadmap, но это другая размерность задачи.

ChatGPT галлюцинирует в математике — путает знаки, ошибается в арифметике, не помнит уровень ученика. Мы намеренно не доверяем LLM генерацию задач. У нас курируемая база, размеченная учителем-практиком. AI выбирает задачу, но не пишет её.

На демо мы используем гибридный подход: ученик помечает финальные ответы и шаги в полях, мы распознаём цифры и крестики (это надёжный OCR). Полноценный CV для рукописной математики — отдельный R&D-кусок, в этом MVP его нет, и мы это честно признаём в roadmap.

Под капотом — Bayesian Knowledge Tracing на микро-навыках. Это классическая модель из 1995 года, четыре параметра, обновление по Байесу. Мы её используем потому, что она интерпретируема: учитель видит, почему система рекомендует именно эту задачу. На реальных данных мы планируем дофитить параметры через EM, но для MVP их достаточно зафиксировать литературными дефолтами.

На MVP — N (поставить честное число от Andri). Мы намеренно не гнались за объёмом: разметка по микро-навыкам — это самая дорогая работа, и она делается учителем, а не автоматически.

Khan Academy и Opiq — про ученика: они дают ему задачи. MATx — про учителя: мы экономим ему 10 часов в неделю на сборку дифференцированных листов и проверку, и даём картину класса целиком.

Плюс — мы делаем это по микро-навыкам, на эстонском, с описательным фидбеком. И мы признаёмся: задачи пишет учитель (Andri), AI только выбирает.

Эстонские школы. Конкретно — учителя математики 5-9 классов, у которых 20+ учеников и которые тратят 10+ часов в неделю на дифференцированную нагрузку. В Эстонии 25% выпускников основной школы не сдают экзамен по математике — есть проблема.

Данные ученика остаются у учителя/школы (single-tenant SQLite в прототипе, on-prem deployment в roadmap). Bias по микро-навыкам не возникает — это объективные навыки из программы, размеченные учителем-практиком.

«А масштабирование? Сколько учеников вы поддержите?»

Заголовок раздела ««А масштабирование? Сколько учеников вы поддержите?»»

На MVP — один класс. На SQLite + Next.js без оптимизации — до сотни школ. Для большего — миграция на Postgres + Redis cache, всё остальное (BKT, селектор) — без изменений. Модель не требует никакой ML-инфраструктуры.

Roadmap. На хаке мы не делаем — это не-MVP кусок, отвлекает от ядра. Если получим продакшн-пилот — это первая интеграция в очереди.

Понимаю. Главное отличие: мы не даём ученикам случайные задачи, мы не генерируем их AI-ом, мы не строим UI ради UI. Под капотом — настоящая адаптивная модель, которую мы можем объяснить построчно. Это отдельная категория.

Возможно. Решение — мы делаем продукт под учителя, не вокруг него. У нас в команде Andri — практикующий учитель математики, расписание частных уроков забито полностью. У него есть прямой канал к коллегам для пилота.

На surface-уровне может казаться. Под капотом — прозрачная вероятностная модель + курируемый контент + объяснения для учителя. Это другая стратегия, чем «сделать ChatGPT для школьников».

  • Не врать про точность — у нас MVP, цифр нет.
  • Не обещать продакшн через 3 месяца — у Andri расписание уроков.
  • Не использовать слова «AI», «LLM», «GPT» в основном питче — мы этим не являемся — иначе позиционирование собьёт аудиторию с толку.
  • Не открывать ChatGPT-подобный режим в демо — у нас другой подход.
  • Heatmap класса — самый заметный визуальный элемент; его часто просят показать первым.
  • Цикл «ингест → state → следующий лист» — за 30 секунд.
  • Объяснение «почему именно эта задача» — на эстонском, словами.

См. docs/03-demo-plan.md для пошагового сценария 3-минутного демо.