aspirant-ivrit, как это делается правильно.
1. Данные разделяются на три блока случайным образом. Обучение, тестирование и верификация
2. Обучение самый большой, тестирование и верификация поменьше.
3. Строите, например, обычную логистическую регрессию, классификационное дерево. случайный лес, опорные вектора и нейронную сеть.
4. Проверяете на тестирующем блоке, кто победил того и оставляем (Обычно выигрывают или опорные вектора или случайный лес, но если модель нужна для выявления закономерностей, то регрессия или классификационное дерево чаще оказывается удобнее).
5. Проверяем модель на верифицирующем блоке, делаем выводы.
Как это делается -- есть курс на Курсере для домохозяек. Вот
ссылка на дипломный проект этого курса. Sapienti Sat.