Портал аспирантов - Показать сообщение отдельно - Алгоритм построения прогнозирующей модели (predictive model)

Вляпалась... · 07.03.2013, 18:35

Цитата:

Сообщение от Uzanka

Hogfather,
мне тоже эта тема интересна. Но я полный ноль. Разбираюсь.

Вот здесь вопрос. Я обычно в статьях (финансовые модели) читаю разделение на 2 множества: calibration sample and validation sample (часть данных, на которых оцениваем параметры и часть данных, на которых потом проверяем модель).

(маленькая девочка попробует написать несколько слов)

Тренировка модели подразумевает идентификацию ее параметров (например, при использовании аппарата НС) на отобранном обучающем (тестовом) множестве. Это то, что Вы назвали calibration sample, думается мне.

Валидация модели подразумевает проверку того, насколько (не)хорошо модель аппроксимирует validation sample.

Добавлено через 8 минут

Цитата:

Сообщение от Hogfather

1. Из набора данных выделяем непересекающиеся данные для тренировки модели (train set), валидации (validation set) и тестирующие данные (test set). Самый большой блок из этого - train set. Validation set и test set примерно равны.

Корректное разбиение всего множества данных на непересекающиеся подмножества есть на самом деле наибольшая проблема во всем этом деле. В случае временных рядов всегда есть риск "разрубить" данные с потерей (еще неизвестной) зависимости.

Поэтому перед тем, как разбивать данные, я бы сначала построила грубую модель на всем множестве, и уже глядя на нее соображала бы, как разбить данные таким образом, чтобы ее не испортить.

Реклама