Проект выполняется в github-classroom. Проект разделен на чекпоинты и защиту. За все чекпоинты можно получить 85 баллов, за защиту 15 баллов. Перейти на следующий чекпоинт можно, получив проходное количество баллов на текущем чекпоинте, иначе оценка за проект = накопленной оценке за предыдущие чекпоинты. Если прошли все чекпоинты и вас устраивает ваша оценка, можете на защиту не приходить.
Максимум — 85 баллов за сам проект + 15 баллов за защиту (презентация 5 минут). Итого 100.
Сдаём поэтапно через чекпоинты:
| Чекпоинт | Выдача | Дедлайн | Макс. баллов | Проходной балл | Что именно сдаётся |
|---|---|---|---|---|---|
| CP0 | 04.04 | 11.04 | 0 | - | - Выбор проекта, внесение себя в таблицу. Проходной на следующий этап - наличие проекта. Если проект к этому времени не выбран, на следующий чекпоинт не допускаетесь и за проект получаете 0 баллов. - Регистрация в github classroom |
| CP1 | 11.04 | 25.04 | 25 | ≥ 13 | - Обработка и подготовка данных — 13 баллов - Моделирование и эксперименты — 7 баллов - Качество кода и воспроизводимость — 5 баллов |
| CP2 | 25.04 | 09.05 | 30 | ≥ 15 | - Моделирование и эксперименты оставшаяся часть 18 баллов - Качество кода и воспроизводимость — оставшаяся часть 7 баллов - Обработка данных - 5 баллов |
| CP3 | 09.05 | 23.05 | 30 | ≥ 15 | - Отчет 15 баллов - Деплой 15 баллов |
| Защита | 30.05, 06.06 | 15 | - Рассказ о проекте коротко, ответы на вопросы |
Главное правило по допускам:
| № | Категория | Баллы | Конкретные критерии проверки (что даёт полный балл) |
|---|---|---|---|
| 1 | Обработка и подготовка данных | 18 | • Поиск и источник данных (как нашли, почему выбрали) • Описание датасета: объём (строки/столбцы), если мало — обоснование • Полная очистка (пропуски, дубли, выбросы, типы) • Работа с фичами: исходное количество, новые фичи, feature engineering • Визуализации, графики, отражающие зависимости • Корректный сплит (train/val/test) и пояснение как избегали даталика, если он мог быть • Выбор метрик качества и обоснование почему именно она. Если метрик несколько, то чему отдаем предпочтение. • Самостоятельный парсинг данных (+4 балла) |
| 2 | Моделирование и эксперименты | 25 | • Baseline: простая модель «из коробки» (Linear/Logistic Regression, KNN и т.п.) без feature engineering • Минимум 4–5 моделей + ансамбли (RandomForest, XGBoost/LightGBM и др.) • Эксперименты: таблица экспериментов с разными моделями, методами, перебор гиперпараметров • Уменьшение размерности — если фич много, то эксперименты с уменьшением размерности, визуализация • Обоснование выбора финальной модели |
| 3 | Качество кода и воспроизводимость | 12 | • Чистая структура проекта, понятные названия • Наличие линтеров (ruff, flake8) • fixed seed в экспериментах • requirements.txt или pyproject.toml заполненный с версиями • docker \ docker-compose • описание структуры в README |
| 4 | Деплой | 15 | • Интерфейс, если того требует задача (тг бот, streamlit). Например, если нужно что-то предсказать по тексту или картинке • fastapi\др чтобы отправлять запросы - обязательно для всех. Можно использовать готовые инструменты для деплоя, можно самому с нуля написать • деплоить на сервер необязательно |
| 5 | Отчёт (LaTeX или Markdown → PDF) | 15 | Полноценный отчёт в latex \ markdown со следующими обязательными секциями ниже. Куча нагенеренного слопа оценивается как 0 баллов. Да, сота распознавание у меня в глазах. Не надо писать кучу текста - цель, чтобы я смогла понять, что вы делали. Опишите просто и своими словами. На работе тоже придется писать тексты так, чтобы понял даже продакт другой команды. • 1. Введение и постановка задачи. Обоснование метрики качества. • 2. Поиск и описание данных • 3. Обработка и подготовка данных • 4. Baseline-модель • 5. Эксперименты (каждый эксперимент в формате: Гипотеза → Как проверялось → Результат + метрики в таблице) • 6. Финальная модель + интерпретируемость результатов • 7. Деплой (скриншоты + ссылка на видео работы) • 8. Заключение и выводы |
Для начала проверьте, что ваш проект соответствует требованиям. Требования описаны выше.
Если проект соответствует требованиям, вам необходимо:
cp1master для удобства, но ее я проверять буду уже в самом конце.Аналогично CP1, только работаем в ветке cp2.
Аналогично CP1, только работаем в ветке cp3.
Работа с репозиторием закончена. Можете разве что загрузить презентацию в нее.
Смержите все ветки. Очно уже буду смотреть итог + презентацию.