Признаки — это не данные. Это интерпретация
Автор: IvOlga | Создан: 18 Май 2026 | 👁️ 112
Вы берёте сырые логи. Преобразуете в фичи. Запускаете модель. Получаете метрику 98%. И верите в неё. А потом модель падает в проде. Почему?
Потому что вы перепутали корреляцию с причинностью. И не учли, как данные рождаются.
Фичи не существуют в вакууме. Они — сжатая версия бизнес-логики. И если логика кривая, сжатие только усилит ошибку.
Что я проверяю перед тренировкой:
Происхождение каждого признака. Кто его генерирует? При каких условиях? Если событие логируется только при успехе операции — в датасете нет отказов. Модель никогда не научится предсказывать сбои.
Смещение во времени. Признаки, рассчитанные на будущее, не должны попадать в тренировку. Даже косвенно. Даже через агрегации. Ликвидность в ML — это не про скорость. Про честность.
Интерпретация vs. Прогноз. Модель может угадывать. Но если вы не можете объяснить, какой признак и почему повлиял на решение — вы не управляете. Вы делегируете судьбу чёрному ящику.
Данные не врут. Они просто отражают то, что мы решили измерить. А мы часто измеряем удобство, а не реальность.
Хорошая модель начинается не с алгоритма. С вопроса: «Что мы на самом деле хотим узнать?». И готовности услышать неудобный ответ.
Войдите, чтобы оставить комментарий.
← Вернуться ко всем постам
Комментарии:
Будьте первым, кто оставил комментарий!