Показать сообщение отдельно
Старый 07.03.2013, 18:35   #4
Вляпалась...
Silver Member
 
Аватар для Вляпалась...
 
Регистрация: 31.08.2012
Адрес: Туда, вверх и налево
Сообщений: 712
По умолчанию

Цитата:
Сообщение от Uzanka Посмотреть сообщение
Hogfather,
мне тоже эта тема интересна. Но я полный ноль. Разбираюсь.


Вот здесь вопрос. Я обычно в статьях (финансовые модели) читаю разделение на 2 множества: calibration sample and validation sample (часть данных, на которых оцениваем параметры и часть данных, на которых потом проверяем модель).
(маленькая девочка попробует написать несколько слов)

Тренировка модели подразумевает идентификацию ее параметров (например, при использовании аппарата НС) на отобранном обучающем (тестовом) множестве. Это то, что Вы назвали calibration sample, думается мне.

Валидация модели подразумевает проверку того, насколько (не)хорошо модель аппроксимирует validation sample.

Добавлено через 8 минут
Цитата:
Сообщение от Hogfather Посмотреть сообщение
1. Из набора данных выделяем непересекающиеся данные для тренировки модели (train set), валидации (validation set) и тестирующие данные (test set). Самый большой блок из этого - train set. Validation set и test set примерно равны.
Корректное разбиение всего множества данных на непересекающиеся подмножества есть на самом деле наибольшая проблема во всем этом деле. В случае временных рядов всегда есть риск "разрубить" данные с потерей (еще неизвестной) зависимости.

Поэтому перед тем, как разбивать данные, я бы сначала построила грубую модель на всем множестве, и уже глядя на нее соображала бы, как разбить данные таким образом, чтобы ее не испортить.
---------
и чо я, дура, научнику поверила...
Вляпалась... вне форума   Ответить с цитированием
Реклама