Портал аспирантов - Показать сообщение отдельно - Алгоритм построения прогнозирующей модели (predictive model)

Hogfather · 07.03.2013, 15:06

Некоторый поток сознания, чтобы разобраться.

Имеется некоторый набор количественных данных, от которых зависит качественный показатель (Хорошо, Плохо, Очень плохо и т.д.). Стоит задача построить прогнозирующую модель и проверить её на тестовых данных.
Алгоритм вырисовывается следующий.
1. Из набора данных выделяем непересекающиеся данные для тренировки модели (train set), валидации (validation set) и тестирующие данные (test set). Самый большой блок из этого - train set. Validation set и test set примерно равны.
2. Строим пару-тройку приличных моделей, например, случайный решающий лес (Random Forest) и модель на базе опорных векторов (SVM) на тренировочных данных. На них же настраиваем модели.
3) Модели натравливаем на данные для валидации и выбираем одну модель, дающую меньше всего ошибок.
4) Проверяем выжившую аки Горец модель на тестовых данных. Строим матрицу неточностей (confusion matrix), графики, диаграммы и прочую ерунду.
....
N) PROFIT!

Замечания, предложения?

07.03.2013, 15:06	#1
Hogfather Platinum Member Регистрация: 22.07.2010 Адрес: Санкт-Петербург Сообщений: 3,286	Алгоритм построения прогнозирующей модели (predictive model) Некоторый поток сознания, чтобы разобраться. Имеется некоторый набор количественных данных, от которых зависит качественный показатель (Хорошо, Плохо, Очень плохо и т.д.). Стоит задача построить прогнозирующую модель и проверить её на тестовых данных. Алгоритм вырисовывается следующий. 1. Из набора данных выделяем непересекающиеся данные для тренировки модели (train set), валидации (validation set) и тестирующие данные (test set). Самый большой блок из этого - train set. Validation set и test set примерно равны. 2. Строим пару-тройку приличных моделей, например, случайный решающий лес (Random Forest) и модель на базе опорных векторов (SVM) на тренировочных данных. На них же настраиваем модели. 3) Модели натравливаем на данные для валидации и выбираем одну модель, дающую меньше всего ошибок. 4) Проверяем выжившую аки Горец модель на тестовых данных. Строим матрицу неточностей (confusion matrix), графики, диаграммы и прочую ерунду. .... N) PROFIT! Замечания, предложения?
	--------- DNF is not an option

Реклама