Показать сообщение отдельно
Старый 05.01.2012, 04:38   #22
sergey_shumow
Newbie
 
Регистрация: 03.01.2012
Адрес: Нижний Новгород
Сообщений: 9
По умолчанию

чтобы не быть голословным, выложу матрицы факторного анализа, которые можно получить с использованием программы ЛЕКТА. Посредством этих матриц как раз и возможно идентифицировать структуру изучаемой проблемы, описанной в наборе текстов.
Тексты собраны по теме информационных войн.

вот здесь файлики:
http://depositfiles.com/files/5wfydv1pn

На второй вкладке документа excel "factor loadings" интегрированы в группы переменные - единицы счёта. В данном случае, это слова, наиболее часто используемые авторами в массиве текстов. Наборы этих слов связаны между собой тематически и часто тему можно идентифицировать просто просматривая наборы этих слов. Ну, для примера, можно взять фактор 5 (столбец называется F5). Коэффициенты факторных нагрузок я выделил синим. Фактор включает в себя следующие слова, как это видно из матрицы:
Южной
Осетии
Грузии
августа
конфликта
Кавказе
агрессии

Думаю, не трудно догадаться, что речь идёт о конфликте Грузии, России и Южной Осетии в августе 2008 года. В набранных текстах авторы часто говорят о грузино-осетинском конфликте и развернувшейся информационной войне - это одна из тем (один из элементов будущей структуры, например, обзора литературы, статьи, брошюры, монографии и т.д.), которая активно освещается и анализируется атоврами статей, включённых в массив текстов.
На тетьей вкладке "factor scores" также есть столбец под названием F5. Это матрица в последнем столбце включает все фрагменты всех текстов массива. Снова перейдя на вторую закладку, мы можем увидеть, что у каждой переменной в матрице отрицательный коэффициент. ФАктор мы можем условно обозначить в качестве "отрицательного". Переходим на тертью закладку и сортируем значения в столбце F5 так, чтобы наверху оказались наименьшие по модулю коэффициенты - соответственно отсортировался и стоблец с текстами. В матрице уже проведена сортировка.
Что мы получили... Наверху оказались те тексты, которые по сравнению с другими текстовыми фрагментами содержат тесно коррелирующие (в данном случа вместе встречающиеся слова: Южной Осетии, Грузии, августа, конфликта, Кавказе, агрессии). Таким образом эти тексты тематически связаны между собой. Мы получили материал для КАЧЕСТВЕННОЙ интерпретации. Я также залил документ doc, в котором собраны воедино слова (единицы счёта) и фрагменты текстов. Что делаем дальше: вначале бегло просматриваем сами тексты - понимаем основную мысль, если она нам не знакома. Далее внимательно читаем и выделяем ключевые мысли из этого набора текстовых фрагментов, помечаем их тем или иным образом, обобщаем мысли и записываем. Так поступаем с каждым из факторов. Если фрагмент обрывается на важном месте - просто через поиск ищем эту мысль у автора в исходной статье. Чтобы понять, что за автор высказал её, в матрице на третьей закладке закодирована или приведена полностью фамилия автора.
Пропустил ещё один важный этап - нам же важно прежде всего получить структуру освещаемой проблемы... В этой связи, мы даём краткое название каждому из факторов, используя матрицы, а потом эти микро темы группируем на несколько блоков - каждому из них также даём название: структура готова и её я также отправляю вам в отдельном документе.
На этом массиве текстов я тренировался.
Вопросов может быть немало, безусловно. Но описывать их тут в одном сообщение долговато Спрашивайте, если интересно.

ну и добавлю, что хотя модель получается адекватная и материала для интерпретации и освещения море, безусловно, можно дабвалять материал, не вошедший в массив, на основе этой структуры, возможно и расширять саму структуру, опираясь на собственные умозаключения и знания.
sergey_shumow вне форума   Ответить с цитированием
Реклама