Выбор будущей темы для 05.13.11 Математическое и программное обеспечение [Архив]

Просмотр полной версии : Выбор будущей темы для 05.13.11 Математическое и программное обеспечение

Meganerd

07.04.2012, 13:35

При поступлении в аспирантуру хочу выбрать Специальность 05.13.11 Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей.
Душа больше лежит к интеллектуальным системам и базам данных.

Моя задача найти точку входа в эту область и углубиться в неё.

Было бы супер найти людей этой же специальности и поработать вмести с ними в качестве ассистента.

Я пока студент. Москва.

ubcent

07.04.2012, 17:25

Megabotan

07.04.2012, 21:15

Meganerd, Я тоже студент пока еще) Занимаюсь примерно тем же. Рекомендую обратить внимание в сторону data-minig - это очень наукоемкая отрасль, почти наверняка найдете что-то для себя.

Уже обратил. Data Mining - это очень здорово, самая крутая тема в IT и т. д. и т. п.

Вот книги, которые я прочитал почти целиком:
Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. - Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP
Сегаран Т. - Программируем коллективный разум

Но нужна конкретика. Пробовал мучить преподов - безрезультатно.
Выпускающая кафедра не занимается подобными исследованиями.

А у меня пока только размышления (цитирую свой пост с другого форума):

Диплом я хочу выполнить как научно-исследовательскую работу (НИР). Насколько я знаю, такой тип работы предполагает публикацию статьи в научном журнале.

С областью я в целом определился: интеллектуальный анализ данных (т. е. Data Mining), организация данных.
Можно и шире: построение современных интеллектуальных систем.

Из применений Data Mining, которые мне интересны:
анализ неструктурированных данных (текст, возможно мультимедиа - в контексте распознавания / классификации визуальных и звуковых образов),
способы упорядочивания неструктурированных данных (придания структуры),
адаптация / улучшение имеющихся методом Data Mining,
применения интеллектуального анализа данных в Web 2.0 (т. е. оперирование с пользовательским контентом), Semantic Web.
Visual Mining (например, проецирование многомерного представления данных на двумерную плоскость).

С основными методами Data Mining я ознакомился по книгам:
Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. - Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP
Сегаран Т. - Программируем коллективный разум

Буду рад советам по выбору литературы.

И если это будет иметь значение, при определении темы диплома:
есть опыт работы веб-программистом (server side): C#, Microsoft SQL. Т. е. проблем с написанием запросов SQL возникнуть не должно.

Была у меня идея, которая у меня появилась благодаря моему опыту работы системным администратором (т. к. не редки просьбы от директоров предоставить им статистику по работе сотрудников за ПК):
«Система слежения за производительностью сотрудника» (т. е. строиться суточный график работы сотрудника за ПК – к каким документам он обращался, файловые операции, набранные на клавиатуре слова, движения мышью, открытые приложения и т. п.). Собирается статистика всех действий сотрудника за рабочим компьютером, и к этой статистике применяются методы Data Mining.
На компьютере сотрудника устанавливается системная служба – агент. Без пользовательского интерфейса. А, допустим, на компьютере начальника – само приложение, анализирующие статистику. Связь между программой-агентом и приложением осуществляется по TCP. Агент работает как СЕРВЕР, приложение начальника как клиент (запрашивает данные у агента).
Статистика будет собираться с помощью драйверов-фильтров: например, драйвер файловой системы, драйвер клавиатуры. Можно использовать хуки.
Можно сделать вариант системы без начальника, т. е. работник получает подсказки от системы как оптимизировать своё рабочее время, может просматривать историю своих действий за сутки, за месяц. Это, кстати, может пригодиться любому пользователю.
Предполагается реализация системы только в среде Windows, т. к. в офисах всегда стоят системы Windows (не встречал, чтобы было по-другому).

Но на рынке уже присутствуют программы вроде StaffCop, Active Spy и прочие Spy.

Касаемо мультимедиа: в этой области для меня всё совсем непонятно (распознавание визуальных и звуковых образов).
Сейчас я смотрю в сторону методов анализа данных в биологии, химии.

Кто бы мне идейку подкинул...

ubcent

07.04.2012, 22:17

Megabotan, идеи - всегда самое сложное=) Конкретную идею Вам вряд ли кто-то подкинет. Покопайтесь в зарубежных источниках, лично у меня идея родилась почти сразу после начала изучения литературы по сабжу.

avz

09.04.2012, 11:04

>>> Была у меня идея, которая у меня появилась благодаря моему опыту работы системным администратором

Это хороший диплом по ИВТ или АСОиУ, но вряд ли может быть развернуто в диссертацию, тем более, по 11й.

techni

09.04.2012, 12:29

К сожалению поздновато заметил данную тему, но на будущее настоятельно рекомендую попробовать свои силы в Google Summer of Code: https://www.google-melange.com/gsoc/document/show/gsoc_program/google/gsoc2012/faqs
заодно и незаменимый для 05.13.11 язык подтяните :)

Megabotan

09.04.2012, 17:44

Megabotan

09.04.2012, 19:47

заодно и незаменимый для 05.13.11 язык подтяните :)
Python? ;)

Добавлено через 5 минут
Только не говорите, что Вы имели ввиду C++... :eek:

techni

09.04.2012, 19:51

Python? ;)

Окститесь, юноша :D
Если уж терпеть синтаксически-зачимую индентацию, то в чём-нибудь типа Haskell ;)

avz

09.04.2012, 21:48

Конечно. Только я бы какое-то управление или поддержку принятия решений сделал на основе получаемой с компов пользователей информации

Amok

10.04.2012, 20:26

Направление, в принципе, хорошее. И диссертации я похожие видел, например, в Стэндфорде. Только вряд ли она у вас хорошо пойдет. Тут нужно лопатить много англоязычной литературы и, желательно, содействие научника. С 90 процентной вероятностью вашему научнику эта тема будет неинтересна.
У меня знакомый недавно бросил аспирантуру с темой анализа User Experience и создание новых поколенийи интерфейсов ОС, его элементарно никто на кафедре не понимал. Хотя стажировался этот парень в американских вузах и даже какую-то небольшую стипендию от них под это получал, если мне не изменяет память.
Ну и самое главное, у вас есть направление, но нет конкретных научных проблем в этой области. Сделайте обзор литературы. Сформулируйте их.

kravets

10.04.2012, 20:33

У меня знакомый недавно бросил аспирантуру с темой анализа User Experience и создание новых поколенийи интерфейсов ОС, его элементарно никто на кафедре не понимал.

Предложите знакомому связаться со мной. Глядишь, и закончит исследование.

ubcent

10.04.2012, 20:37

Amok, Вы хотите сказать, что Data-mining у нас плохо идет? Я просто пытаюсь в этом направлении работать и поступать собираюсь с этим же направлением.

Amok

10.04.2012, 20:49

В качестве простой идеи для диплома.

Сделайте статистический анализ переходов на сайте. Определите функции полезности ( минимизация пути достижения узла графа, максимизация вероятности покупки и т.д.) - можно для различных категорий сайтов. Накопите статистику. Сделайте на сайте блоки для меню. Отрейтенгуйте позиции в них. Сделайте заполнение меню динамическим на основе функций полезности. Можно выявлять по характеру посещений какие-то паттерны и ранжировать ссылки в блоке навигации.
Там можете и применить знания из "Программируем коллективный разум".- протестировать разные алгоритмы ранжирования.

Добавлено через 5 минут
Amok, Вы хотите сказать, что Data-mining у нас плохо идет? Я просто пытаюсь в этом направлении работать и поступать собираюсь с этим же направлением.
Великолепно идет. Hadoop, HBase, MapReduce - очень модное направление. Вопрос в проблемах. Ваш научник должен понимать в том, что вы делаете хотя бы чуть-чуть. Я, например, забил на диссер, когда меня начали на кафедере спрашивать во время доклада почему я говорю пакеты в сетях. Откуда значит такой странный термин, пакет. Наверное, это я ошибся.
Ну и дальше пошло: локальность обращений - фундаментальная вещь, у нас про нее никто не слышал. Есть смысл на каждый термин выслушивать, что я ошибся и в какой-то теории так называются совсем другие вещи. Генетические алгоритмы? Молодой человек, что за термин "генетические". Вы что на биологии что ли. Сам, конечно, дебил - надо было аккуратно выбирать кафедру.

ubcent

10.04.2012, 20:56

Великолепно идет. Hadoop, HBase, MapReduce - очень модное направление. Вопрос в проблемах. Ваш научник должен понимать в том, что вы делаете хотя бы чуть-чуть. Я, например, забил на диссер, когда меня начали на кафедере спрашивать во время доклада почему я говорю пакеты в сетях. Откуда значит такой странный термин, пакет. Наверное, это я ошибся.
Ну и дальше пошло: локальность обращений - фундаментальная вещь, у нас про нее никто не слышал. Есть смысл на каждый термин выслушивать, что я ошибся и в какой-то теории так называются совсем другие вещи. Генетические алгоритмы? Молодой человек, что за термин "генетические". Вы что на биологии что ли.

А Вы если не секрет чем занимаетесь? В какой степи применяли генетические алгоритмы? Меня очень интересует все что связано с анализом текстовой информации, веб-контента и пр. На данный момент пишу диплом на тему интеллектуальной классификации контента. Как считаете пойдет в качестве базы для дальнейшей работы?

Amok

10.04.2012, 21:07

А Вы если не секрет чем занимаетесь? В какой степи применяли генетические алгоритмы? Меня очень интересует все что связано с анализом текстовой информации, веб-контента и пр. На данный момент пишу диплом на тему интеллектуальной классификации контента. Как считаете пойдет в качестве базы для дальнейшей работы?

Я как раз интернетом и занимаюсь. У меня базовое образование по сетям, потом добил его бизнес-информатикой слегка. Потом отучился в аспирантуре, в основном, потратил это время на самообразование. Попутно работаю. Сделал несколько award-winners проектов в интернете. Хорошо программирую. Сейчас консультирую, преподаю, работаю и вожусь со студентами.

Вам прям необходимо пройти несколько курсов отсюда, поверьте мне. https://www.coursera.org/ Крайне советую Natural Language Processing, AI.

Добавлено через 5 минут
Предложите знакомому связаться со мной. Глядишь, и закончит исследование.

Окей! А ничего страшного, что он в Москве?

ubcent

10.04.2012, 21:08

Amok

10.04.2012, 21:18

Amok, Вы прямо кладезь полезного опыта.=) Вот меня терзает вопрос. Программисту как-то может пригодиться кандидатская степень? Я тоже по большей части практик, имею приличный опыт программирования, работы с людьми. Сейчас заканчиваю институт и встал вопрос дальнейшего развития.

Спасибо за совет по поводу курсов. Насколько я понял, они бесплатные?

Если вы программист - то критически важно знать какой-то стек технологий на хорошем уровне. Например, в мск. за 150к работу можно очень легко получить если вы знаете PHP/MySQL на высоком уровне. Но если вы охренненно знаете только PHP, то досвидания. Если это Rails, то обязательно нужно знать Test Driven Development - RSpec, Cucumber(BDD), ActiveRecord.
Если вы знаете стек целиком, то ваша зарплата будет хорошей. Если вы что-то упустили, то можно мимо отличных работ пролетать как фанера. Ну и так далее.

Кандидатов наук любят. Но есть одно но, если эти кандидаты наук в тему. То есть если у вас кандидатская по каким-то актуальным прикладным вопросам, можно очень хорошо договориться. С другой стороны, есть много кандидатов на которых степень не сказалась. Потому что темы у них оторваны от потребностей компаний.

Отдельная тема - устройства в большие компании аля Google. Там как раз и пригодится хорошая теоритическая подготовка. Знание теории алгоритмов и структур данных, ai, nlp. Я очень советую идти именно туда, если у вас хорошая подготовка по Computer Science. У Российских компаний вам вряд ли удасться реализовать свой потенциал, за редким исключением.

PS: курсы абсолютно бесплатные.
Есть еще куча ресурсов для самообразования.
http://udacity.com - очень круто. В лекциях изредка появляется сам Брин.
http://www.quora.com/YouTube/What-are-some-of-the-best-computer-science-videos-on-YouTube/answer/Thyag-Sundaramoorthy?__snids__=38642423#ans1100940
ITunes U

Я предпочитаю такие где есть разные формы обратной связи и дедлайны - это дисциплинирует.

По результатам своих приключений я понял, как важно найти актуальную тему. Можно сколько угодно решать абстрактные, оторванные от текущей действительности проблемы и это никак не скажется на вас. Найти хорошую актуальную проблему - это, действительно, джекпот. Но тут еще и подготовка к решению этих проблем важна. Поэтому надо учиться без перерыва.

ubcent

10.04.2012, 21:31

Amok

10.04.2012, 21:36

Amok, С точки зрения заработать денег вопрос не стоит. Я уже довольно давно и довольно успешно занимаюсь фрилансом - это приносит свои дивиденды. Практических знаний мне хватает. Вопрос в другом. Я сейчас для себя пытаюсь решить действительно ли мне нужна аспирантура или это просто способ откосить от армии. Могу сказать, что мозги у меня есть, если нужно будет, думаю сумею написать приличную кандидатскую, тем более если тема мне будет интересна. Можете как-то на личном опыте сказать, что Вам там-то и там-то пригодилась кандидатская степень.

У меня ее нет :-) Я никак не защищусь. Страдаю тяжелой формой перфекционизма.
Моим друзьям она пригодилась в том случае, если они работают около гос. структур. Там это модно. Если ты кандидат или доктор можно примазаться к сколково и попилить чуть-чуть бюджет.

Есть пара знакомых, которым степень очень пригодилась в плане уезда в США в Research подразделения Yahoo, Google, Microsoft.

Если вы лютый коррупционер или собрались эммигрировать - очень пригодится. Если вас прет от получения новых знаний, как меня - тоже советую. Но какого-то мегауспеха лучше не ждать, как и в любом виде дейстельности - защищаются те, кто хочет защититься. Если у вас это тренировка для мозга, защита может затянуться. В остальных случаях, я бы порекомендовал не заморачиваться.

Ну и аспирантура аспирантуре рознь. Если найдете хорошего научника, рубящего в теме - то прям очень советую. Он вас будет пинать и проверять. Тогда можете значительных успехов добиться.

ubcent

10.04.2012, 21:40

Amok, Про получение новых знаний - это просто в точку) Как всякий программист, я очень ленивый, мне нужен веский стимул для самообразования. Надеюсь как раз аспирантура сыграет свою положительную роль в этом вопросе)

kravets

10.04.2012, 21:50

меня начали на кафедере спрашивать во время доклада почему я говорю пакеты в сетях.

А что Вы делали с пакетами?

Добавлено через 1 минуту

Окей! А ничего страшного, что он в Москве?

На моем личном счету ;) двое москвичей и двое питерцев. Почте все равно, откуда письмо. Есть ряд административных барьеров, но они решаемы.

Добавлено через 2 минуты

Определите функции полезности ( минимизация пути достижения узла графа, максимизация вероятности покупки и т.д.) - можно для различных категорий сайтов.

Можно выявлять по характеру посещений какие-то паттерны и ранжировать ссылки в блоке навигации.

Две ключевые идеи для развития в аспирантуре.

Amok

10.04.2012, 21:51

А что Вы делали с пакетами?

Ну я делал профилирование нагрузки веб-сервисов. Там последовательно нужно двигаться по уровням для установления основных источников задержек, которые вносят вклад в сквозное время отклика. Соотвественно, браузеры в зависимости от версии отрывают разное количество соединений и поддерживают разные технологии загрузки. Плюс, анализ целевой страницы позволяет определить характеристики загружаемых данных. Размер, порядок, отношение к разным хостам. В результате можно получить математическую модель, которая полезна для создания хороших эмуляторов нагрузки и прогнозирования мощности того или иного веб-сервиса, обнаружения "узких мест".
Там есть некоторые сложности, в связи с пульсирующим характером нагрузки, который можно моделировать с помощью самоподобия.
Я написал анализатор трафика для работы на сервере. Тестирование, кстати, было фееричным. На публичном вайфае обнаружил несколько любителей гей-порно сайтов. Сейчас собираюсь к нему вернуться и добавить туда нормальный анализ конечного автомата TCP-сессий для обнаружения "узких мест". Нужно провести эксперименты на нескольких режимах работы сервисов и на разных веб-серверах.
Потом еще куча дел с серверной частью, там нужно мат. моделировать процессы веб-серверов. Там модно сейчас внедрение event-driven техник, которые так и просятся на моделирование.
Ну и новые протоколы SPDY и HTTP2 на горизонте, кстати. Надо их тестировать.

kravets

10.04.2012, 22:00

Там последовательно нужно двигаться по уровням для установления основных источников задержек, которые вносят вклад в сквозное время отклика.

В резульате можно получить математическую модель, которая полезна для создания хороших эмуляторов нагрузки и прогнозирования мощности того или иного веб-сервиса, обнаружеия "узких мест".
Там есть некоторые сложности, в связи с пульсирующим характером нагрузки, который можно моделировать с помощью самоподобия.

Ну это вряд ли - единую модель, объекты очень разнородны. Но серию (уровневую) моделей - вполне.

Про самоподобие - безусловно, но тогда сразу придется говорить, что модель статистическая (что не есть недостаток, скорее потеря мгновенной точности).

Интереснее для зеркальных систем решать задачу маршрутизации, глядя на статистическую картину и пытаясь учитывать мгновенные возмущения.

Добавлено через 3 минуты

добавить туда нормальный анализ конечного автомата TCP-сессий для обнаружения "узких мест". Нужно провести эксперименты на нескольких режимах работы сервисов и на разных веб-серверах.

Беда в том, что это задача реального времени. Анализ Вы должны успеть произвести не медленнее темпа процесса - движения трафика. Что сомнительно.

А если это не задача реального времени - ценность обнаружения резко снижается, ибо анализ выполнен для конкретных условий.

викки

10.04.2012, 22:02

как мне проверить правильно ли решена задача?

Dikoy

10.04.2012, 22:05

Кто бы мне идейку подкинул...
Стукнись в почту. Была у меня одна идейка, но так и не реализовал дальше прототипа. Почти распознавание образов.

ubcent

10.04.2012, 22:13

викки, Информации явно мало) Что за задача?)

Добавлено через 2 минуты
Dikoy, А можно мне написать?) Мне тоже интересно))

Amok

10.04.2012, 23:05

Ваш пост полезней 10 семинаров кафедры! :-)

Я, честно говоря, только о статистических СМО моделях и думал.

Мне сразу пришла мысль связать обратную связь программы реализующую модель вот с этим https://www.opennetworking.org/
Может интересная штука получиться.

Насчет моделей не реального времени - тут полезность для веб-систем может заключаться в оптимизации производительности за счет адаптации контента. То есть изменения самого трафика. Еще сейчас там есть большой затык с кучей параметров обрабатывающих процессов, самый банальный из которых их количество, учитывая что 1 процесс обрабатывает один запрос - это может приводить к простою системы при нулевой фактической загрузке. Если, например, сервер служит в качестве реверсивного прокси. Соотвественно, были бы очень полезны математические модели, позволяющие конфигурировать программное обеспечение в зависимости от его назначения и режима работы. Хотя и здесь реальное время бы не помешало.
Спасибо! :-)

PS: Вот поэтому и нужно выбирать кафедру и научного руководителя, уважаемые участники форума.

Dikoy

10.04.2012, 23:43

А можно мне написать?) Мне тоже интересно))
Стучитесь. Кто первый, того и тапки.

ubcent

11.04.2012, 00:08

Dikoy, Отписал в личку)

Amok

11.04.2012, 02:34

Прям мистика, только их вспомнил, а у них новость
http://engineering.stanford.edu/news/twelve-companies-join-stanford-and-berkeley-launch-new-open-networking-research-center