Портал аспирантов
 

Вернуться   Портал аспирантов > Общие > Дискуссионный зал > Общенаучные дискуссии

Ответ
 
Опции темы
Старый 07.03.2013, 15:06   #1
Hogfather
Platinum Member
 
Аватар для Hogfather
 
Регистрация: 22.07.2010
Адрес: Санкт-Петербург
Сообщений: 3,281
По умолчанию Алгоритм построения прогнозирующей модели (predictive model)

Некоторый поток сознания, чтобы разобраться.

Имеется некоторый набор количественных данных, от которых зависит качественный показатель (Хорошо, Плохо, Очень плохо и т.д.). Стоит задача построить прогнозирующую модель и проверить её на тестовых данных.
Алгоритм вырисовывается следующий.
1. Из набора данных выделяем непересекающиеся данные для тренировки модели (train set), валидации (validation set) и тестирующие данные (test set). Самый большой блок из этого - train set. Validation set и test set примерно равны.
2. Строим пару-тройку приличных моделей, например, случайный решающий лес (Random Forest) и модель на базе опорных векторов (SVM) на тренировочных данных. На них же настраиваем модели.
3) Модели натравливаем на данные для валидации и выбираем одну модель, дающую меньше всего ошибок.
4) Проверяем выжившую аки Горец модель на тестовых данных. Строим матрицу неточностей (confusion matrix), графики, диаграммы и прочую ерунду.
....
N) PROFIT!

Замечания, предложения?
---------
DNF is not an option
Hogfather вне форума   Ответить с цитированием
Реклама
Старый 07.03.2013, 16:22   #2
sum
Advanced Member
 
Регистрация: 29.08.2012
Сообщений: 284
По умолчанию

а после обучения обязательно делать ещё 2 выборки (валидация и тестирование)?
sum вне форума   Ответить с цитированием
Старый 07.03.2013, 17:45   #3
Uzanka
Gold Member
 
Регистрация: 16.04.2012
Сообщений: 1,218
По умолчанию

Hogfather,
мне тоже эта тема интересна. Но я полный ноль. Разбираюсь.

Цитата:
Сообщение от Hogfather Посмотреть сообщение
Из набора данных выделяем непересекающиеся данные для тренировки модели (train set), валидации (validation set) и тестирующие данные (test set). Самый большой блок из этого - train set. Validation set и test set примерно равны.
Вот здесь вопрос. Я обычно в статьях (финансовые модели) читаю разделение на 2 множества: calibration sample and validation sample (часть данных, на которых оцениваем параметры и часть данных, на которых потом проверяем модель).

Добавлено через 2 минуты
А можно я еще спрошу.. в МатЛабе, например, оцениваем GARCH модели. Там такая табличка с полученными оценками и последний столбец - t Statistic. Вот здесь, например
http://www.mathworks.com/help/econ/f...e-returns.html

Подскажите, пожалуйста, что это значит (столбец t Statistic). Или где можно почитать.
Uzanka вне форума   Ответить с цитированием
Старый 07.03.2013, 18:35   #4
Вляпалась...
Silver Member
 
Аватар для Вляпалась...
 
Регистрация: 31.08.2012
Адрес: Туда, вверх и налево
Сообщений: 712
По умолчанию

Цитата:
Сообщение от Uzanka Посмотреть сообщение
Hogfather,
мне тоже эта тема интересна. Но я полный ноль. Разбираюсь.


Вот здесь вопрос. Я обычно в статьях (финансовые модели) читаю разделение на 2 множества: calibration sample and validation sample (часть данных, на которых оцениваем параметры и часть данных, на которых потом проверяем модель).
(маленькая девочка попробует написать несколько слов)

Тренировка модели подразумевает идентификацию ее параметров (например, при использовании аппарата НС) на отобранном обучающем (тестовом) множестве. Это то, что Вы назвали calibration sample, думается мне.

Валидация модели подразумевает проверку того, насколько (не)хорошо модель аппроксимирует validation sample.

Добавлено через 8 минут
Цитата:
Сообщение от Hogfather Посмотреть сообщение
1. Из набора данных выделяем непересекающиеся данные для тренировки модели (train set), валидации (validation set) и тестирующие данные (test set). Самый большой блок из этого - train set. Validation set и test set примерно равны.
Корректное разбиение всего множества данных на непересекающиеся подмножества есть на самом деле наибольшая проблема во всем этом деле. В случае временных рядов всегда есть риск "разрубить" данные с потерей (еще неизвестной) зависимости.

Поэтому перед тем, как разбивать данные, я бы сначала построила грубую модель на всем множестве, и уже глядя на нее соображала бы, как разбить данные таким образом, чтобы ее не испортить.
---------
и чо я, дура, научнику поверила...
Вляпалась... вне форума   Ответить с цитированием
Старый 07.03.2013, 23:04   #5
Hogfather
Platinum Member
 
Аватар для Hogfather
 
Регистрация: 22.07.2010
Адрес: Санкт-Петербург
Сообщений: 3,281
По умолчанию

Цитата:
Сообщение от Uzanka Посмотреть сообщение
Подскажите, пожалуйста, что это значит (столбец t Statistic). Или где можно почитать.
Я начинал было писать тут http://www.aspirantura.spb.ru/forum/...8&postcount=12 но на что-то отвлекся. Постараюсь членораздельно изложить в воскресенье.

Цитата:
Сообщение от Вляпалась... Посмотреть сообщение
В случае временных рядов всегда есть риск "разрубить" данные с потерей (еще неизвестной) зависимости.
С временными рядами отдельная история. Не о них сейчас речь.

Цитата:
Сообщение от sum Посмотреть сообщение
а после обучения обязательно делать ещё 2 выборки (валидация и тестирование)?
http://research.cs.tamu.edu/prism/le...ss/iss_l13.pdf
---------
DNF is not an option
Hogfather вне форума   Ответить с цитированием
Старый 08.03.2013, 00:27   #6
Uzanka
Gold Member
 
Регистрация: 16.04.2012
Сообщений: 1,218
По умолчанию

Hogfather,
спасибо. Нашла по вашей ссылке объяснение.
Uzanka вне форума   Ответить с цитированием
Ответ

Опции темы

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.



Текущее время: 18:44. Часовой пояс GMT +3.


Powered by vBulletin® Version 3.8.8
Copyright ©2000 - 2024, vBulletin Solutions, Inc. Перевод: zCarot
© 2001—2024, «Аспирантура. Портал аспирантов»
Рейтинг@Mail.ru