PDA

Просмотр полной версии : Обосновать выбор количества кластеров


banitl
09.04.2013, 16:15
Был проведен соц.опрос. Количество респондентов - 700. Количество вопросов (показателей) - 33. Оцениваемая шкала - от 0 до 10. Сначала был проведен факторный анализ для снижения размерности методом главных компонент. На выходе получено 5 факторов. Дальше требуется выполнить кластерный анализ по результатам факторного анализа, т.е. по 5 факторам. Предполагается применение метод k-средних. Но затрудняет вопрос с выбором (и обоснованием этого выбора) количества кластеров. Вычисления проводятся с помощью SPSS 20.
Возможно ли обосновать выбор количества кластеров с помощью псевдо-f статистики (pseudo-F statistics) и критерием кубеческой кластеризации (CCC - cubic clustering criterion) с помощью SPSS 20? И как все-таки обосновать выбор количества кластеров в данном случае?

Ink
09.04.2013, 16:25
Это какая-то ересь

banitl
09.04.2013, 16:28
Это какая-то ересь
В смысле?

Ink
09.04.2013, 16:57
Был проведен соц.опрос.
Ну и причем тут экономика? Все остальное, кстати, тож самое.

banitl
09.04.2013, 17:02
Ну и причем тут экономика? Все остальное, кстати, тож самое.
Эконометрика. Но такого не нашел

Ink
09.04.2013, 17:06
Эконометрика
ну ведь это не экономика? Тока вот соц.опросов и в эконометрике нет. Давайте подойдем с другой стороны. Для чего вам нужно обосновать это

Hogfather
09.04.2013, 17:20
banitl, гадание на дендрограмме пробовали?

banitl
09.04.2013, 17:20
Прочитал уйма материалов на счет псевдо-f статистики и критерия кубеческой кластеризации, и во всех этих материалах они использовались в процессе расчетов и только в виде формул. Так как я провожу расчеты с помощью программы SPSS, то там не существует этих критериев. И мне потребовалось хоть какое-то обоснование их использования. Еще и подумал, а может есть другой путь обоснования выбора количества кластеров.

Ink
09.04.2013, 17:24
а может есть другой путь обоснования выбора количества кластеров
ну говорю ж ересь

banitl
09.04.2013, 17:27
гадание на дендрограмме пробовали?
Неужели все-таки придется приложить руки к этому процессу?

Hogfather
09.04.2013, 17:41
Неужели все-таки придется приложить руки к этому процессу?
Понятия не имею. Простой вопрос: сколько на рисунке настоящих кластеров?
http://www.aspirantura.spb.ru/forum/picture.php?albumid=36&pictureid=1112



P.S. Вот Вам забавная статейка (http://www.biometrica.tomsk.ru/cluster_3.htm), изучайте.

banitl
09.04.2013, 18:26
P.S. Вот Вам забавная статейка, изучайте.
Из этой забавной статейки понял одно - это называется саморекламой.

Виктор2
09.04.2013, 19:50
Был проведен соц.опрос. Количество респондентов - 700. Количество вопросов (показателей) - 33. Оцениваемая шкала - от 0 до 10. Сначала был проведен факторный анализ для снижения размерности методом главных компонент. На выходе получено 5 факторов. Дальше требуется выполнить кластерный анализ по результатам факторного анализа, т.е. по 5 факторам. Предполагается применение метод k-средних. Но затрудняет вопрос с выбором (и обоснованием этого выбора) количества кластеров. Вычисления проводятся с помощью SPSS 20.
Возможно ли обосновать выбор количества кластеров с помощью псевдо-f статистики (pseudo-F statistics) и критерием кубеческой кластеризации (CCC - cubic clustering criterion) с помощью SPSS 20? И как все-таки обосновать выбор количества кластеров в данном случае?
вообще непонятен подход - зачем применять кластерный анализ к результатам факторного?

И не почитать ли найденную навскидку литературу для начала? http://tx.shu.edu.tw/~PurpleWoo/Literature/!DataAnalysis/Methods%20of%20Multivariate%20Analysis.pdf

Hogfather
09.04.2013, 20:08
это называется саморекламой.
Именно! А если учесть, что это не моя статья, то моё коварство еще сильнее. Что же касается вопроса в топике темы, то мой НР говорил мне в таких случаях: "Хогфазер, не выпендривайся". На этой радостной ноте позвольте откланяться, "учёного учить -- только портить".

Добавлено через 1 минуту
И не почитать ли найденную навскидку литературу для начала?
Спасибо, добрый человек, этой книжки в моей библиотеке пока не было. Скопировал.

banitl
09.04.2013, 20:20
зачем применять кластерный анализ к результатам факторного?
Для получения более понятных и прозрачных результатов кластеризации лучше всего вместо множества исходных переменных использовать некие обобщенные переменные, содержащие в сжатом виде информацию о связях между этими переменными.
А при итеративном методе для выбора количества кластеров во многих источниках рекомендуют использование вышеперечисленных критериев. Так как в SPSS не встретил этих критериев, возник данный вопрос.
За книгу премного благодарен!

Добавлено через 3 минуты
Дорогой, Hogfather!
Такое умозаключение пришло вот из за этой фразы в конце данного материала:
"... Все это затрудняет выбор исследователем оптимального решения. В такой ситуации наилучшим способом утвердиться в том, что найденное кластерное решение является на данном этапе исследования оптимальным, является только согласованность этого решения с выводами, полученными с помощью других методов многомерной статистики. Очевидно, что в этом случае имеет смысл обратиться за помощью к опытному биостатистику. "

banitl
26.04.2013, 10:19
все еще актуально...

phoenix367
26.04.2013, 13:20
banitl, так а вы почитайте статью в вики http://en.wikipedia.org/wiki/Cluster_analysis, особенно в части cluster evaluation. Думаю, что после этого ваши вопросы отпадут сами собой.