Признаки — это не данные. Это интерпретация

Автор: IvOlga | Создан: 18 Май 2026 | 👁️ 130

Вы берёте сырые логи. Преобразуете в фичи. Запускаете модель. Получаете метрику 98%. И верите в неё. А потом модель падает в проде. Почему? Потому что вы перепутали корреляцию с причинностью. И не учли, как данные рождаются. Фичи не существуют в вакууме. Они — сжатая версия бизнес-логики. И если логика кривая, сжатие только усилит ошибку. Что я проверяю перед тренировкой: Происхождение каждого признака. Кто его генерирует? При каких условиях? Если событие логируется только при успехе операции — в датасете нет отказов. Модель никогда не научится предсказывать сбои. Смещение во времени. Признаки, рассчитанные на будущее, не должны попадать в тренировку. Даже косвенно. Даже через агрегации. Ликвидность в ML — это не про скорость. Про честность. Интерпретация vs. Прогноз. Модель может угадывать. Но если вы не можете объяснить, какой признак и почему повлиял на решение — вы не управляете. Вы делегируете судьбу чёрному ящику. Данные не врут. Они просто отражают то, что мы решили измерить. А мы часто измеряем удобство, а не реальность. Хорошая модель начинается не с алгоритма. С вопроса: «Что мы на самом деле хотим узнать?». И готовности услышать неудобный ответ.

Ольга Иванова Перейти к профилю

Признаки — это не данные. Это интерпретация

Комментарии: