Портал аспирантов
 

Вернуться   Портал аспирантов > Компьютер для аспирантов > Software (программное обеспечение)

Ответ
 
Опции темы
Старый 03.04.2020, 00:14   #1
Аликова Ксения
Junior Member
 
Регистрация: 05.03.2019
Сообщений: 15
По умолчанию Сбор данных в интернете (data mining)

Столкнулась с очень интересной проблемой во время своих исследований - не могу выбрать инструмент для сбора данных для контент-анализа.

Идеально было бы найти что-то что может "майнить дату" (упоминания ключевых слов и сочетаний слов) из новостей с периодичностью раз в час, например.

На это дело нашла несколько инструментов от SemanticForce и youscan, которые для мониторинга упоминаний брендов написаны. До Mozdeh, brandwatch, которые, видимо, для соцсетей все-таки.

Вроде нашла что-то, что выглядит почти идеально для моих задач - https://www.clips.uantwerpen.be/pattern это модуль на питоне в котором можно почти все, что может исследователя интернета интересовать.
Но он ищет только на английском. Короче что-то я совсем запуталась...

Как это делают нормальные люди я не знаю.

Мне надо какой-то относительно простой (можно и модуль, прогать я потихоньку учусь) тул найти, которым реально можно пользоваться для задач контент-анализа: собирать упоминания, ключевые слова, сочетания слов в сети.

Посоветуйте, опытные люди. Не я одна хочу исследовать интернет, я уверена, что кто-то уже что-то написал))
Аликова Ксения вне форума   Ответить с цитированием
Реклама
Старый 03.04.2020, 08:19   #2
Старший докторенок
Platinum Member
 
Регистрация: 25.10.2012
Сообщений: 3,654
По умолчанию

Аликова Ксения, а просто глазками читатать не? Вы хотите, что бы программа за Вас все нашла? В любом же случае - вначале надо какие то страницы отбирать.
Старший докторенок вне форума   Ответить с цитированием
Старый 04.04.2020, 11:24   #3
Longtail
Gold Member
 
Аватар для Longtail
 
Регистрация: 04.05.2007
Адрес: Северное Реутово
Сообщений: 2,421
По умолчанию

Старший докторенок, глазками в наше время - это нужно быть супермашиной. Тем более в целях контент-анализа.
Цель поставлена серьезная, так бы подошла какая-нибудь Медиалогия, но она может выдать выборку за разумный период, а вы час поставили. Кстати, зачем такая интенсивность? Только если оценка скорости канала коммуникации новости.
Longtail вне форума   Ответить с цитированием
Старый 04.04.2020, 19:06   #4
Аликова Ксения
Junior Member
 
Регистрация: 05.03.2019
Сообщений: 15
По умолчанию

Цитата:
Сообщение от Старший докторенок Посмотреть сообщение
Аликова Ксения, а просто глазками читатать не? Вы хотите, что бы программа за Вас все нашла? В любом же случае - вначале надо какие то страницы отбирать.
Часть уже делаю глазками. Включенное наблюдение на форуме. Но мне нужно его дополнить статистическими данными и общим срезом по новостям и темам. Это сильно поднимет надежность исследования и его адекватность.

Безусловно " изучить весь интернет" задача амбициозная. но слабовыполнимая. Ну допустим отбор по ключевым сми, которые эти темы поднимают. Тут два этапа - отобрать источник и проанализировать инфу от источника. Мне бы хоть что-то из этого сделать автоматически - отбр сми, например по количеству упоминаний за год и дальше глазками читать или сбор в базу данных уже по моему списку сми (парсинг, если не ощибаюсь, получается). Иначе это годы, тема уйдет.
Точно существуют инструменты - иначе что продают все эти компании, которые отслеживают упоминания? Вот как искать что-то в телеграме я точно знаю. Мониторинг у меня на его стоит: @buzzim_alerts_bot.
Я указала ключевые слова и он ищет по всей открытой части телеги их. Очень удобно.

Нужно что-то подобное для сми. Или хоть для других соцсетей. Например, для твиттер я нашла кучу разных инструментов, но у всех свои подводные камни. Например мой хваленый pattern работает только с питоном 2.7, а он с начала года не поддерживается. Теперь не могу ничего на нем запустить, ищу альтернативную.

Надо что-то, что реально используют наши ресерчеры, я как в тумане мечусь - сама все ищу и изучаю.

Добавлено через 5 минут
Цитата:
Сообщение от Longtail Посмотреть сообщение
Старший докторенок, глазками в наше время - это нужно быть супермашиной. Тем более в целях контент-анализа.
Цель поставлена серьезная, так бы подошла какая-нибудь Медиалогия, но она может выдать выборку за разумный период, а вы час поставили. Кстати, зачем такая интенсивность? Только если оценка скорости канала коммуникации новости.
Интенсивность не имеет значения. Можно и за день, например. Это я просто вспомнила кейс https://www.clips.uantwerpen.be/page...amples-100days

Хотела что-то подобное сделать. Толко ключевые слова, разумеется, свои

Добавлено через 10 минут
Цитата:
Сообщение от Longtail Посмотреть сообщение
Старший докторенок, глазками в наше время - это нужно быть супермашиной. Тем более в целях контент-анализа.
Цель поставлена серьезная, так бы подошла какая-нибудь Медиалогия, но она может выдать выборку за разумный период, а вы час поставили. Кстати, зачем такая интенсивность? Только если оценка скорости канала коммуникации новости.
Так, по медиалогии - очень интересно! А как ее получить, только купить на компанию?

Пойду пробовать, очень интересно. pattern мой не пашет, но еще есть mozdeh. Буду сегодня тестировать.
Аликова Ксения вне форума   Ответить с цитированием
Старый 05.04.2020, 07:04   #5
Старший докторенок
Platinum Member
 
Регистрация: 25.10.2012
Сообщений: 3,654
По умолчанию

Аликова Ксения, я в свое время перидику 5 тыс. номеров отсмотрела без всяких там платформ. Сплошным просмотром.
Старший докторенок вне форума   Ответить с цитированием
Старый 05.04.2020, 08:55   #6
4gost
Platinum Member
 
Регистрация: 16.06.2014
Адрес: default city
Сообщений: 4,226
По умолчанию

Цитата:
Сообщение от Старший докторенок Посмотреть сообщение
я в свое время перидику 5 тыс. номеров отсмотрела без всяких там платформ. Сплошным просмотром.
"в свое время бабы в поле рожали" - в данном случае не аргумент
---------
к.х.н., 02.00.06
4gost вне форума   Ответить с цитированием
Старый 05.04.2020, 12:28   #7
Feeleen
Gold Member
 
Аватар для Feeleen
 
Регистрация: 04.04.2007
Адрес: из лесу вестимо...
Сообщений: 1,326
По умолчанию

Цитата:
Сообщение от 4gost Посмотреть сообщение
"в свое время бабы в поле рожали" - в данном случае не аргумент
Абсолютли. Даже в наигуманитарнейшем исследовании мне лично без различных приложений и ресурсов крайне тяжко.
---------
The man who never alters his opinion is like standing water & breeds
reptiles of the mind
Feeleen вне форума   Ответить с цитированием
Старый 06.04.2020, 08:48   #8
Старший докторенок
Platinum Member
 
Регистрация: 25.10.2012
Сообщений: 3,654
По умолчанию

Цитата:
Сообщение от 4gost Посмотреть сообщение
"в свое время бабы в поле рожали" - в данном случае не аргумент
Ну да, хорошо если это есть в сети.... а если нет? Нет конечно технологии вещь хорошая, но уповать на них... такое впечатление, что без них и шагу ступить не могут.
Старший докторенок вне форума   Ответить с цитированием
Старый 06.04.2020, 09:04   #9
kravets
Platinum Member
 
Аватар для kravets
 
Регистрация: 12.03.2010
Адрес: Воронеж
Сообщений: 11,753
По умолчанию

Цитата:
Сообщение от Старший докторенок Посмотреть сообщение
Ну да, хорошо если это есть в сети.... а если нет?
Исходная задача была ровно про то, что есть в сети (новости). Грифованные новости действительно придется искать в иных источниках, но это уже совсем другая история.
---------
Обычно пуська. Но иногда кое-кому доводится увидеть льва в год тигра...
"Экономика и менеджмент систем управления" - новый cписок ВАК
kravets вне форума   Ответить с цитированием
Старый 08.04.2020, 19:34   #10
Аликова Ксения
Junior Member
 
Регистрация: 05.03.2019
Сообщений: 15
По умолчанию

Цитата:
Сообщение от Старший докторенок Посмотреть сообщение
Ну да, хорошо если это есть в сети.... а если нет? Нет конечно технологии вещь хорошая, но уповать на них... такое впечатление, что без них и шагу ступить не могут.

Можем, конечно) У меня еще включенное наблюдение в закрытом сообществе. Без всяких дополнительных технологий, дневник наблюдения, Nvivo и вперед.

Но не хочу быть в вакууме. Чтобы не вышло так, что мое наблюдение отдельно - весь интернет отдельно.

Надо понимать контекст, информационную среду, а для этого по законам жанра (триангуляции) нужно провести и дополнительные исследования, напри мер контент-анализ. Интервью я уже у экспертов беру вовсю.

Надо больше данных, люблю я их. А хорошая бигдата, она только тогда биг. Понимаю, что можно сейчас на пару лет засесть за ручной мониторинг, но тогда я остальные исследования завешу. Не очень хочется писать диссер 10 лет). + Информации по моей теме столько, что, если не следить постоянно, то просто пропустишь самое интересное. Я и так каждый день собираю новости, но их слишком много.

Мой бот в телеграме собрал за 3 месяца 74 000 сообщений в телеграме об этом. Он может искать только в "открытой" части, сколько пишут об этом в закрытых чатах и каналах - подумать страшно. Не могу же я все это каждый день искать)))

Добавлено через 54 минуты
По медиалогии провела разведку боем - она страшно платная и студентам никаких послаблений.

А еще нашла форк Pattern для Python 3, но что-то он не работает. Кто нормально знает питон? Мои неофитские попытки пока очень смешные, но я пытаюсь разобраться почему он даже не видит модуль. Кто-то пробовал использовать питон в подобных целях? Знаю еще, что часть сбора данных из интерента делается на R, но этот язык для меня вообще загадка.
Аликова Ксения вне форума   Ответить с цитированием
Ответ

Опции темы

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.



Текущее время: 01:24. Часовой пояс GMT +3.


Powered by vBulletin® Version 3.8.8
Copyright ©2000 - 2024, vBulletin Solutions, Inc. Перевод: zCarot
© 2001—2024, «Аспирантура. Портал аспирантов»
Рейтинг@Mail.ru