Параметрический анализ [Архив]

Дмитрий В.

09.11.2012, 22:59

Здравствуйте, коллеги, филологи, лингвисты и просто ученые!
Меня зовут Дмитрий и я Grammar nazi По предложению Ilonы расскажу здесь о своей методике исследования. Да и сам потренируюсь в объяснении ее на пальцах старым хрычам из диссовета незнакомым с ней лицам.
Параметрический анализ - сравнительно новая методика, разработанная моим НР, широко известным в узких кругах :cool: Вот ее суть.
Сначала словарь определенного языка преобразуется в электронный вид с помощью такой-то матери сканера и FineReader, если этого словаря нет в электронном виде. А затем полученный текст копируется в Excel (да святится имя его) и обрабатывается особым образом - девочки налево, мальчики направо фразеосочетания и примеры употребления слова - в столбцы слева от леммы (слова в словарной форме), значения - в столбцы справа.
Затем производится подсчет по 4 параметрам - 1) функциональный (длина слов в буквах и звуках), 2) парадигматический (размерность синонимических рядов), 3) синтагматический (количество фразеосочетаний и иллюстративных примеров при слове) и 4) эпидигматический (учет данных о многозначности слов, сиречь полисемии).
В зависимости от конкретных показателей каждое слово наделяется параметрическим весом по каждому из параметров. Затем отбирается ядро по каждому из них (слова с наиболее высокими параметрами), эти 4 множества складываются и мы получаем лексико-семантическое ядро языка. Если слово вошло во все 4 ядра - это малое ядро (обычно от 30-40 до 100-150 слов), в 3 - большое, в два - периферия большого ядра, а единичное вхождение - "отходы производства".
Самое приятное в ней, что так можно проанализировать практически любой двуязычный словарь, если знаем язык, которым даются дефиниции (н-р, X-русский словарь или Y-английский).
Пока что все, буду продолжать по мере поступления вопросов. Все-таки это не теоретическая глава :)

phoenix367

09.11.2012, 23:11

Глупый вопрос - а зачем все это надо?

Ilona

09.11.2012, 23:13

Параметрический анализ - сравнительно новая методика, разработанная моим НР, широко известным в узких кругах :cool:

Если он все равно известен, может быть вы раскроете коллегам имя? если этот секрет не для онлайна -- тогда в личку :)

Галчонка

09.11.2012, 23:13

Дмитрий В., а что дает практически этот анализ, эти ядра? ну посчитали мы и что с того, это для сравнения словарей? сколько где чего, или для языков?
ПС извините если вопрос глупый, я совсем не гуманитарий, но для общего развития интересно

Ilona

09.11.2012, 23:16

В зависимости от конкретных показателей каждое слово наделяется параметрическим весом по каждому из параметров.

Каждое слово или каждая лемма?

Дмитрий В.

09.11.2012, 23:27

Ilona, а подсчет так и так по леммам производится.
Т.е. выглядит лист Excel примерно так:
<> waste one's breath - тратить зря слова - - - - - пустые столбцы - breath - n (часть речи) - 1) дыхание. И когда подсчитываем количество ФС, значений и синонимов, само слово в словарной форме остается.
Ах да, забыл уточнить - в ядре оставляем лишь существительные, прилагательные и глаголы как слова с полноценной семантикой.
Глупый вопрос - а зачем все это надо?
Дмитрий В., а что дает практически этот анализ, эти ядра? ну посчитали мы и что с того, это для сравнения словарей? сколько где чего, или для языков?
Ядро нужно для ядерной бомбы! Это позволяет свести словарь, н-р, В.К. Мюллера к 1,5-2 тысячам наиболее важных для языка слов. А эти слова позволяют создавать разговорники, малые словари и т.п. По малому ядру можно делать некоторые выводы о менталитете и ценностях носителей языка. Также, если у нас есть ядра нескольких языков, то их можно тоже сравнить и прийти к разным интересным выводам.

Ilona

09.11.2012, 23:28

Ах да, забыл уточнить - в ядре оставляем лишь существительные, прилагательные и глаголы как слова с полноценной семантикой.

Только хотела спросить, а что вы тогда делаете с местоимениями :)

Дмитрий В.

09.11.2012, 23:30

Только хотела спросить, а что вы тогда делаете с местоимениями
Так у них же своей собственной семантики не наблюдается, так что Скрипач - не нужен :)

Ilona

09.11.2012, 23:32

Так у них же своей собственной семантики не наблюдается, так что Скрипач - не нужен :)

Тем не менее абсурдно было бы утверждать, что местоимения не входят в самое ядровое ядро любого, по крайней мере индоевропейского, языка (в языках других строев я разбираюсь мало). Как вы справляетесь с этим?

Галчонка

09.11.2012, 23:34

Дмитрий В., спасибо за ответ

Дмитрий В.

09.11.2012, 23:35

Тем не менее абсурдно было бы утверждать, что местоимения не входят в самое ядровое ядро любого, по крайней мере индоевропейского, языка (в языках других строев я разбираюсь мало). Как вы справляетесь с этим?
Мы говорим так: мы рассматриваем не совсем лексическую систему языка, а скорее лексико-семантическую, поэтому местоимения и служебные слова лежат за пределами нашего исследования как расово неполноценные неполнозначные.

Ilona

09.11.2012, 23:38

Примем такую позицию :) хотя мне она и кажется спорной, но моей квалификации не хватает, чтоб вот так сходу обосновать возражения.

Hogfather

09.11.2012, 23:40

Дмитрий В., я правильно понял, что Вы получаете в ехеле словарь «Эллочки-людоедки» с помощью этой методики?

Дмитрий В.

09.11.2012, 23:53

Дмитрий В., я правильно понял, что Вы получаете в ехеле словарь «Эллочки-людоедки» с помощью этой методики?
Можно сказать и так. И этот словарь (особенно малое ядро) может нам что-то сказать о носителях языка. Н-р, в английском языке в слова с весьма большим количеством синонимов попала "полиция" :)

Добавлено через 8 минут
А если есть данные по разным языкам, то можно этих Эллочек еще и сравнить друг с другом.

Ilona

10.11.2012, 00:01

Дмитрий В., я правильно понял, что Вы получаете в ехеле словарь «Эллочки-людоедки» с помощью этой методики?

Увы, в "ядре", полученном параметрическим анализом, отсутствуют "хо-хо!", "хо-хо?", "хо-хо?!" без которых Эллочка не смогла бы разговаривать :D

phoenix367

10.11.2012, 00:05

По малому ядру можно делать некоторые выводы о менталитете и ценностях носителей языка. Также, если у нас есть ядра нескольких языков, то их можно тоже сравнить и прийти к разным интересным выводам.
Так а сколько вешать в граммах? Т.е. какие-то объективные критерии оценки на этом можно построить? Я, честно говоря, не очень в этом уверен.

Дмитрий В.

10.11.2012, 00:07

Так а сколько вешать в граммах? Т.е. какие-то объективные критерии оценки на этом можно построить? Я, честно говоря, не очень в этом уверен.
Объективные критерии? Н-р, совпадение ядер на n %. Да и размерность самих ядер схожая, т.к. множества обычно берутся около тысячи слов каждое. Правда, с большими словарями несколько другие тенденции, но мы над этим работаем.

Ilona

10.11.2012, 00:22

Дмитрий В., если целью считать, как вы описали, формирование некоего малого ядра, чтобы потом сравнивать языковую картину мира, то все же цель не достигается без слов, которые отнесены к неполнозначным.
Получив такие "малые ядра" для русского и английского вы выясните,скажем, что у англичан "полиция" входит в это ядро, а в русском нет. Сделаете некие умозаключения, но кто сказал, что это более/менее важно для понимания различий в менталитете, чем корреляции ты/вы, которые в поле зрения исследователя, работающего таким методом вообще не войдут.
В какой-то мере такой параметрический анализ, использованный для выводов об языковой картине мира, будет ослеплять исследователя и никогда не даст полноты, ни в теории , ни на практике (разговорник без местоимений или междометий -- как бы нонсенс).

phoenix367

10.11.2012, 00:23

Все же не совсем ясно, что значит "совпадение ядер на n %". Есть какая-то формула? Как я понимаю языки ведь могут быть совсем разные. А семантика самих слов как-нибудь учитывается?

Ilona

10.11.2012, 00:23

опа...дубль :eek:

Дмитрий В.

10.11.2012, 12:00

Все же не совсем ясно, что значит "совпадение ядер на n %". Есть какая-то формула? Как я понимаю языки ведь могут быть совсем разные.
Совпадение ядер одного языка по разным словарям - по совпадению леммы. Разных языков - по совпадению дефиниции, а также, на всякий случай, просмотр вручную.
А семантика самих слов как-нибудь учитывается?
Эпидигматический параметр - многозначность.
Дмитрий В., если целью считать, как вы описали, формирование некоего малого ядра, чтобы потом сравнивать языковую картину мира, то все же цель не достигается без слов, которые отнесены к неполнозначным.
Подсчитывать количество фразеосочетаний или синонимов у предлога, н-р, - задача, увы, довольно проблематичная. Мы признаем, что описание наше лишь частичное, но дать исчерпывающее описание языка - за это нужно Нобелевку давать ;)
Получив такие "малые ядра" для русского и английского вы выясните,скажем, что у англичан "полиция" входит в это ядро, а в русском нет. Сделаете некие умозаключения, но кто сказал, что это более/менее важно для понимания различий в менталитете, чем корреляции ты/вы, которые в поле зрения исследователя, работающего таким методом вообще не войдут.
Так мы не говорим, что это более или менее важно, это просто разные части фрагмента картины мира. Мы не говорим, что это важнее междометий, но эта разница есть, и ее отрицать нельзя.
В какой-то мере такой параметрический анализ, использованный для выводов об языковой картине мира, будет ослеплять исследователя и никогда не даст полноты, ни в теории , ни на практике (разговорник без местоимений или междометий -- как бы нонсенс).
ЯКМ, как и помощь в составлении разговорников - лишь варианты применения. Но методика позволяет узнать, н-р, еще и ряд математических закономерностей - к примеру, распределение слов по длине обычно примерно укладывается в гамма-распределение. А также - и это одно из ключевых применений - сравнение языков. Н-р, всех германских, романских или славянских.

Ilona

10.11.2012, 12:05

к примеру, распределение слов по длине обычно примерно укладывается в гамма-распределение.
Гамма-распределение -- это что?

Hogfather

10.11.2012, 12:14

Гамма-распределение -- это что?
:facepalm: Ступайте лучше борщ варить!

Ilona

10.11.2012, 12:17

:facepalm: Ступайте лучше борщ варить!

Не мешайте просвещаться! и не мешайте учиться! человек же сказал -- хочет научиться объяснять все о своем методе и так, чтобы было понятно любому, в т.ч. кто об этом методе в первый раз слышит.

Hogfather

10.11.2012, 12:20

обычно примерно укладывается в гамма-распределение
Звучит злодейски. А если учесть, что гамма-распределение штука такая, от которой трудно уберечься, то сову на глубус вполне можно натянуть. А логнормальное не пошло? Оно поизящнее будет.

Ну, раз в гамму играете, нате, вдруг пригодится: "Exact calculation of inequality probabilities (http://www.bepress.com/mdandersonbiostat/paper54/)"

Hogfather

10.11.2012, 12:20

Ilona, стадион моего сердца, есть вещи, которые спрашивать на форуме аспирантов просто неприлично. Я понимаю, что Вы не обязаны знать все непрерывные распределения, но Википедию тоже никто не отменял (https://ru.wikipedia.org/wiki/%D0%93%D0%B0%D0%BC%D0%BC%D0%B0-%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D 0%BB%D0%B5%D0%BD%D0%B8%D0%B5).

чтобы было понятно любому, в т.ч. кто об этом методе в первый раз слышит.
(ехидно) Поэтому он должен начать с таблицы умножения?

Ilona

10.11.2012, 12:35

Ilona, стадион моего сердца, есть вещи, которые спрашивать на форуме аспирантов просто неприлично.
Вот не надо меня блондинизировать, все я погуглила!ну неправильно вопрос сформулировала -- так я ж не знала, что вы в эту тему заглянете!!!
Правильнее будет так: что вам дает информация, что "многие-но-не-все-леммы" по длине укладываются в гамма-распределение.
А дальше должен был последовать основной вопрос: объективность результатов (а соответственно и ценность выявленных математических закономерностей) полностью зависит от того, что попадет в систему. Как мы выяснили, самые неудобные для параметрического анализа части изначально отсечены, что же подразумевается под "словарь-заносимый -в-эксель"? уж более субъективной штуки, зависящей от общей концепции конкретного словаря и эрудиции своего создателя сложно придумать.
Добавлено через 3 минуты

(ехидно) Поэтому он должен начать с таблицы умножения?

(ехидно) вот именно так мы и порекомендуем Дмитрию В. ответить какому-нибудь доктору филологических наук давно почивающему на лаврах своего докторства в диссовете ;) мол, идите, учите таблицу умножения...гамма-распределение и малое лексико-семантическое ядро -- что тут может быть неочевидного?

Hogfather

10.11.2012, 12:42

Ilona, Вооот! Уже лучше. Ну, например, сравнить два ядра языка и определить вероятность P(X > Y) где X ~ gamma(ax, bx) и Y ~ gamma(ay, by), получим pbeta(bx/(bx+by), ay, ax)

Добавлено через 3 минуты
гамма-распределение и малое лексико-семантическое ядро -- что тут может быть неочевидного?
Дык, мне пока понятно. А я не доктор и не филолог, а вообще бухгалтер. Гы...

Ilona

10.11.2012, 12:50

Ilona, Вооот! Уже лучше. Ну, например, сравнить два ядра языка и определить вероятность P(X > Y) где X ~ gamma(ax, bx) и Y ~ gamma(ay, by).

Сделать вид, что я все поняла? :) нееет -- лучше попрошу вас прочитать формулы словами и с пояснениями! Уверенна, объяснить не математическим языком не так просто, но если бы вы захотели -- то смогли.
(жалобно) ну я же ни разу не математик!

Добавлено через 6 минут

Дык, мне пока понятно. А я не доктор и не филолог, а вообще бухгалтер. Гы...
Я простой бухгалтер...легко разбираюсь в теории вероятностей, так это каждый бухгалтер может!

Hogfather

10.11.2012, 12:53

Уверенна, объяснить не математическим языком не так просто, но если бы вы захотели -- то смогли.
Смог бы. Но получилась бы научная статья, а это не моя область исследований. Идею я
Дмитрию В. подарил, захочет -- пусть пишет. Зачем нужно считать вероятность этого неравенства, думаю он более наукообразно расскажет. Мне оно как-то фиолетово.

Тут есть смешнее задача. Попытаться объяснить получившиеся в результате подгонки параметры. Гы... Хотя... (задумчиво) Я бы точно попробовал.

Ilona

10.11.2012, 13:05

Мне оно как-то фиолетово.

Очень хорошо вас понимаю. Сам параметрический анализ мне тоже не нужен, но я с интересом трачу на него время по одной пиричине -- отсутствие математического образования в области статистики и дискретной математики -- моя большая проблема.
Я за этот год делала пилотку, это было очень печально. Я вижу закономерность, но математическим/статистическим языком ее описать не могу, а хотелось бы. Пришлось метить лингвистический материал цветом -- теперь у меня синие закономерности, желтые...Может потом у какого-нибудь умного человека спрошу, что это такое на математическом языке.

Дмитрий В.

10.11.2012, 13:55

Звучит злодейски. А если учесть, что гамма-распределение штука такая, от которой трудно уберечься, то сову на глобус вполне можно натянуть. А логнормальное не пошло? Оно поизящнее будет.
Аппроксимация показывала, что с гаммой R2 выше, хотя логнормальное тоже гляну, спасибо за идею.
График
http://s47.radikal.ru/i117/1211/65/a102af4b6e3b.jpg
И аппроксимация.
http://s006.radikal.ru/i213/1211/fd/fa60d5876f18.jpg
Ну, раз в гамму играете, нате, вдруг пригодится: "Exact calculation of inequality probabilities"
Посмотрю. Правда, я, если что, тоже не математик, лишь вначале большого пути, хотя осваивать этот аппарат приходится.
Правильнее будет так: что вам дает информация, что "многие-но-не-все-леммы" по длине укладываются в гамма-распределение.
По германским, славянским и романским языкам - по сути, все (это не значит, что я все эти язык сам обрабатывал, но с результатами коллег, идущих той же дорогой, ознакомляюсь).
А что это дает - да то, что мы можем смело говорить физикам, математикам и пр., что лингвистика - это вам не образ Фру-Фру в "Анне Карениной", а строгая языковая система, подчиняющаяся своим вероятностным законам! Н-р, формула, которая у нас - она, как сказал мне один к. ф-м. н., - сходна с распределением Максвелла и формулой идеального газа (но-но, без смехуечков тут!)
А дальше должен был последовать основной вопрос: объективность результатов (а соответственно и ценность выявленных математических закономерностей) полностью зависит от того, что попадет в систему. Как мы выяснили, самые неудобные для параметрического анализа части изначально отсечены
Хм, значит, я неясно выразился. В подсчетах (длина слов и т.п.) междометия, артикли и местоимения участвуют и в таблицах фигурируют, мы не берем их лишь в ядро, вернее, исключаем потом из ядра. Ах да, еще не берем имена собственные.
что же подразумевается под "словарь-заносимый -в-эксель"? уж более субъективной штуки, зависящей от общей концепции конкретного словаря и эрудиции своего создателя сложно придумать.
Поэтому словарь более-менее объективно получается, с соответствием бумажной версии.
(ехидно) вот именно так мы и порекомендуем Дмитрию В. ответить какому-нибудь доктору филологических наук давно почивающему на лаврах своего докторства в диссовете мол, идите, учите таблицу умножения...гамма-распределение и малое лексико-семантическое ядро -- что тут может быть неочевидного?
Да-да, спасибо за совет! А можно я добавлю "пням замшелым слова не давали"?

LOVe

10.11.2012, 14:40

Дмитрий В.,

Поскольку данный метод является в Вашей работе методом, использованным для исследования определенной проблемы, то хотелось бы посмотреть, как он работает, то есть наглядный пример того, что и как Вы рассмотрели с его помощью для своего диссертационного исследования. Если я не ошибаюсь, то диссертацию Вы пишете не по математической лингвистике, поэтому и хотелось бы посмотреть на применение данного метода, а не на его структуру, то есть увидеть, как он работает, а не каков он. Вероятно, кому-то более интересно будет рассмотрение самого метода, но, во-первых, Вы его только используете, потому как он разработан Вашим научным руководителем, а, во-вторых, я в общих чертах с данным методом знакома (я читала про сопоставительно-параметрический метод лингвистический исследований у М.А.Стерниной и И.А.Стернина), и мне бы хотелось посмотреть именно на то, что и как с его помощью можно получить.

По самому методу есть лишь один вопрос. Вы называете его параметрическим. Насколько помню, именно с таким названием он появился и использовался в начале двухтысячных годов, а затем получил название сопоставительно-параметрического. Почему Вы придерживаетесь первоначального названия? Я не знаю, вследствие каких факторов название метода было изменено (что помню, так это то, что изменилось, вроде, только название, суть метода осталось прежней, и это не новое ответвление от него, разновидность, etc.), но если оно изменилось, вроде, было бы логичнее пользоваться новой формулировкой. Вот потому и возникает вопрос, что Вам дает использование старой. Почему именно ее Вы выбираете?

По малому ядру можно делать некоторые выводы о менталитете и ценностях носителей языка.

Ваша работа связана именно с этим? Чем Вы занимаетесь, если не секрет? Просто в профиле у Вас стоит 10.02.04, в русле которой рассматриваемые пока в данной теме вещи - не самоцель.

Ах да, забыл уточнить - в ядре оставляем лишь существительные, прилагательные и глаголы как слова с полноценной семантикой.

А почему семантику наречия Вы не считаете полноценной? Чем Вы руководствуетесь, не включая их в ядро?

Цитата:
Сообщение от Ilona
Только хотела спросить, а что вы тогда делаете с местоимениями

Так у них же своей собственной семантики не наблюдается, так что Скрипач - не нужен

После данного заявления возникает вопрос, что Вы понимаете под семантикой. Честно говоря, я не думаю, что Вы понимаете ее как-то по-особому, но именно подобные заявления влекут за собой подобные вопросы. Говорить о том, что у местоимения нет своей собственной семантики, на мой взгляд, опрометчиво. Это не служебная часть речи, выделяемая на основе синтактических характеристик [для заглянувших нефилологов отмечу, что «синтактический» и «синтаксический» – слова разные, опечатки нет], и семантика у местоимения есть. Да, она специфична, но не отсутствует. А у ряда местоимений она гораздо шире, чем дейксис. Взять хотя бы личное местоимение «мы», когда оно используется как так называемое «авторское мы», когда его употребляют вместо местоимения второго лица в вопросах-участиях (И как мы сегодня себя чувствуем? И как мы поживам?), etc. Иными словами, если Вы исключаете местоимения, то хотелось бы услышать обоснование этому. Фраза об отсутствии семантики таковым не является.

И еще момент, касающийся Ваших ответов. Просто наблюдение, которое, может, если захотите, возьмете на заметку для будущего, а, может, просто отмахнетесь. Не знаю, на каком этапе исследования Вы находитесь (только ли это первые шаги или уже окончание), но при ответах на вопросы порой звучите в более извиняющейся тональности, чем аргументативной. А неплохо бы наоборот. Даже если что-то не является предметом исследования, не входит в сферу интересов, то нужно доказывать, почему, а не приносить извинения, что вот, мол, не вошло.

Ilona

10.11.2012, 14:57

LOVe, а какая у вас область интересов?
не сочтите за назойливость, действительно интересно

Дмитрий В.

10.11.2012, 15:28

Поскольку данный метод является в Вашей работе методом, использованным для исследования определенной проблемы, то хотелось бы посмотреть, как он работает, то есть наглядный пример того, что и как Вы рассмотрели с его помощью для своего диссертационного исследования.
Рассмотрены были три нидерландско-русских словаря, по всем получены числовые данные (как на графиках выше) выделены ядра. Как общие, так и по отдельным параметрам.
Н-р, в Большом словаре ван ден Баара в первую десятку малого ядра вошли такие слова, как дело; рост; неприятный; рука, лапа; настоящий; удар; свободный; слабый; шаг; сила. Могу привести их нидерландские варианты
Это не значит, что этих 10 слов достаточно для успешного общения на нидерландском языке, но сравнение трех словарей показало, что совпадение больших ядер по разным словарям составляет около 60%, т.е. они дают, в целом, достаточно объективную картину.
Я ответил на Ваш вопрос, или неправильно его понял?
Если я не ошибаюсь, то диссертацию Вы пишете не по математической лингвистике, поэтому и хотелось бы посмотреть на применение данного метода, а не на его структуру, то есть увидеть, как он работает, а не каков он.
Скорее как раз по математической. Пример работы привел, могу дать еще пояснения.
По самому методу есть лишь один вопрос. Вы называете его параметрическим. Насколько помню, именно с таким названием он появился и использовался в начале двухтысячных годов, а затем получил название сопоставительно-параметрического.
Написал в ЛС. Еще могу сказать, что наш параметрический анализ более системен, чем сопоставительно-параметрический.
Ваша работа связана именно с этим? Чем Вы занимаетесь, если не секрет? Просто в профиле у Вас стоит 10.02.04, в русле которой рассматриваемые пока в данной теме вещи - не самоцель.
Моя работа - сначала получить эти ядра, а потом на их основе и путем их сравнения делать различные выводы, в т.ч. и о ЯКМ носителей языка. А 10.02.04 - поскольку я провожу этот анализ на материале нидерландского языка. Предвидя дальнейшие вопросы - более распространенные и доступные языки уже проанализировали.
А почему семантику наречия Вы не считаете полноценной? Чем Вы руководствуетесь, не включая их в ядро?
Наречия в основном производны от других частей речи, в основном от прилагательных.
Говорить о том, что у местоимения нет своей собственной семантики, на мой взгляд, опрометчиво. Это не служебная часть речи, выделяемая на основе синтактических характеристик [для заглянувших нефилологов отмечу, что «синтактический» и «синтаксический» – слова разные, опечатки нет], и семантика у местоимения есть. Да, она специфична, но не отсутствует. А у ряда местоимений она гораздо шире, чем дейксис.
По-моему, семантика у местоимений, пусть разнообразная, все же в основном дейктическая и контекстно-обусловленная. Тем более что местоимения и всякого рода служебные слова обычно, в принципе, в ядро и не попадают - из-за отсутствия синонимов или слабой многозначности, н-р. Еще - уточню - работа ведется не с текстами, а непосредственно со словарями.
Даже если что-то не является предметом исследования, не входит в сферу интересов, то нужно доказывать, почему, а не приносить извинения, что вот, мол, не вошло.
Спасибо, постараюсь учесть.
На защите буду бить себя пяткой в грудь и кричать "Не смог, начальник, каюсь!" :)

LOVe

10.11.2012, 16:06

Рассмотрены были три нидерландско-русских словаря, по всем получены числовые данные (как на графиках выше) выделены ядра. Как общие, так и по отдельным параметрам.

Скорее как раз по математической. Пример работы привел, могу дать еще пояснения.

Если Вы занимаетесь прикладной и математичекой лингвистикой, вопросов нет. Вот туда-то, как это представлено в данной теме, как раз все логично вписывается. Но только это совсем другая специальность, нежели 10.0.04. И различия, как Вы понимаете, определяются не только выбранным для анализа языком. Вероятно, дальше Ваша работа перейдет именно в русло 10.02.04. И вполне возможно, что сейчас ее большая отнесенность к 10.02.21 кажется из-за того, что Вы делаете акцент на методе, а не на том, как он будет работать дальше. Главное здесь не свернуть из одной специальности в другую. На первый взгляд, возможность этого у Вас есть, именно поэтому за это и "зацепилась".

Наречия в основном производны от других частей речи, в основном от прилагательных.

Это свидетельство "неполноценности" семантики? Слово Ваше, Ваш прежний аргумент, потому и спрашиваю. И с производностью не совсем "договариваете до конца", вследствие чего звучит не очень убедительно. Далее могут возникать вопросы о том, что такое полноценная семантика, неполноценная. И т.п.

По-моему, семантика у местоимений, пусть разнообразная, все же в основном дейктическая и контекстно-обусловленная. Тем более что местоимения и всякого рода служебные слова обычно, в принципе, в ядро и не попадают - из-за отсутствия синонимов или слабой многозначности, н-р.

Звучит намного лучше, чем ранее, когда Вы отрицали семантику у местоимений, но, на мой взгляд, все же до конца не убеждает. Впрочем, это не положение для ответа, а, скорее, Вам подумать, потому как возникать такие вопросы могут не только у меня, думаю.

На защите буду бить себя пяткой в грудь и кричать "Не смог, начальник, каюсь!"

Опять не аргументативно ;)

LOVe, а какая у вас область интересов?

Языковая личность, преимущественно в интернет-коммуникации, и больше тот ее уровень, который Ю.Н.Карауловым выделен как прагматикон. Помимо лингвоперсонологии мне интересны теория дискурса, лингвокультурология, виртуальная коммуникация как таковая. Последняя в связи с языком, разумеется.

Впрочем, все указанное не мешает мне интересоваться и другими вопросами, относящимися к лингвистике. Просто что-то интересно больше, что-то - меньше.

Дмитрий В.

10.11.2012, 16:36

Если Вы занимаетесь прикладной и математичекой лингвистикой, вопросов нет. Вот туда-то, как это представлено в данной теме, как раз все логично вписывается. Но только это совсем другая специальность, нежели 10.0.04. И различия, как Вы понимаете, определяются не только выбранным для анализа языком. Вероятно, дальше Ваша работа перейдет именно в русло 10.02.04. И вполне возможно, что сейчас ее большая отнесенность к 10.02.21 кажется из-за того, что Вы делаете акцент на методе, а не на том, как он будет работать дальше.
Совета по 10.02.21, увы, у нас не имеется. И не исключаю, что в дальнейшем (на стадии обработки полученных данных) диссертация вернется обратно в лоно святой церкви будет все-таки ближе к 10.02.04.
Впрочем, это не положение для ответа, а, скорее, Вам подумать, потому как возникать такие вопросы могут не только у меня, думаю.
Спасибо, подумаю. В формате конференции, обычно, за 5 минут вопросов до этого пункта или не доходит, или ограничивается "Почему исключаете из рассмотрения местоимения, наречия и т.п.?" - "Изучаем лексико-семантический уровень, поэтому ограничиваемся существительными, прилагательными и глаголами" ;)
Это свидетельство "неполноценности" семантики?
Если именно про наречия и служебные слова - то за них скажу еще, что они неизменяемые, поэтом в предложении обладают ограниченной функциональностью.
Опять не аргументативно ;)
*догадливо* Вы предлагаете бить пяткой в грудь членов Совета? :gigi:

Hogfather

10.11.2012, 16:52

Дмитрий В., (гадко ухмыляясь) и какова ошибка аппроксимации, какой метод подгонки использовали? Судя по картинкам, Вы вообще это в Excel делаете. Кружок «умелые руки», прямо.
График квантилей для эксперимента/аппроксимации покажите?

Дмитрий В.

10.11.2012, 16:55

Дмитрий В., (гадко ухмыляясь) и какова ошибка аппроксимации, какой метод подгонки использовали? Судя по картинкам, Вы вообще это в Excel делаете.
В Ёкселе, в нем, родимом. Но точность выдавал не ниже 0,9, а чаще выше 0,95. Метод подгонки - "Сервис" - "Поиск решений", модифицировать ячейки с альфа и бета, целевая ячейка - R2.
Кружок «умелые руки», прямо.
Чем богаты, тем и рады, как грицца.

Ilona

10.11.2012, 17:18

LOVe

10.11.2012, 17:22

Совета по 10.02.21, увы, у нас не имеется. И не исключаю, что в дальнейшем (на стадии обработки полученных данных) диссертация вернется обратно в лоно святой церкви будет все-таки ближе к 10.02.04.

Если Вам защищаться по 10.02.04, то диссертация должна быть не ближе к специальности10.02.04, чем к 10.02.01, а непосредственно по 10.02.04. Именно по той, по которой защищаться. Или же, если она вышла по 10.02.21, нужно искать другой диссовет.

или ограничивается "Почему исключаете из рассмотрения местоимения, наречия и т.п.?" - "Изучаем лексико-семантический уровень, поэтому ограничиваемся существительными, прилагательными и глаголами"

Даже для конференции это не ответ, потому как и наречие, и местоимение обладают своей собственной семантикой. И если Вы говорите, что изучаете лексико-семантический уровень, то довольно странно не включать в него частей речи, обладающих семантикой. Так что аргументы искать нужно какие-то другие. К наречиям и местоимениям еще, кстати, можете числительное добавить. Оно тоже имет семантический аспект, просто в прошлый раз что-то из головы вылетело, когда Вам ответ писала.

Если именно про наречия и служебные слова - то за них скажу еще, что они неизменяемые, поэтом в предложении обладают ограниченной функциональностью.

Ну, при чем тут служебные слова? О них вообще речи не шло. Не нужно, отвечая на вопрос, давать ту информацию, о которой не спрашивают. Кроме того, речь шла о семантике, а не о функциональности. И вот при таком ответе напрашиватся одно из двух: либо Вы уходите в сторону от ответа, либо мы с Вами под функциональностью понимаем что-то разное. Вообще, насколько помню, в классической модели распределения частей речи по классам во внимание берутся три критерия: семантический (значение), формальный (все формы слов, словообразовательные и словоизменительные аффиксы и т.д.), функциональный (синтаксические характеристики). И вот о первом мы с Вами, вроде как, разговор и вели.

*догадливо* Вы предлагаете бить пяткой в грудь членов Совета?

Я вообще никогда не предлагаю кого-либо бить, потому как имею миролюбивую внешнюю политику. А предлагаю я аргументировать ответы, только и всего :) Ну, сами представьте, что выходит пред ясны очи членов диссовета какой-то диссертант и, отвечая на вопрос, почему что-то так-то у него, а не иначе, говорит что-то типа: "Верую я в это, верую. Всей душою своею верую". Неплохо, правда? :) Последнее не о Вас, если что, просто пришло в голову.

Дмитрий В.

10.11.2012, 18:05

Даже для конференции это не ответ, потому как и наречие, и местоимение обладают своей собственной семантикой. И если Вы говорите, что изучаете лексико-семантический уровень, то довольно странно не включать в него частей речи, обладающих семантикой. Так что аргументы искать нужно какие-то другие. К наречиям и местоимениям еще, кстати, можете числительное добавить. Оно тоже имет семантический аспект, просто в прошлый раз что-то из головы вылетело, когда Вам ответ писала.
Собственной, но полнозначной ли? Просто мне, когда я начал заниматься своей тематикой, было твердо сказано, что остальные части речи (не сущ., не прил. и не глаг.) нас интересуют в меньшей степени, поскольку у них семантика неполнозначная, местоимения и числительные выполняют больше указательную функцию, а наречия - лишь модифицируют значения полнозначных слов.
А также - что реально представлены морфологические и синтаксические классы слов, а части речи - лишь "некое семантическое тождество слов высокой степени абстракции".
Хотя этот аспект изучу повнимательнее и НР потрясу на эту тему покапитальнее.
Ну, при чем тут служебные слова?
Так, на всякий случай.

либо мы с Вами под функциональностью понимаем что-то разное. Вообще, насколько помню, в классической модели распределения частей речи по классам во внимание берутся три критерия: семантический (значение), формальный (все формы слов, словообразовательные и словоизменительные аффиксы и т.д.), функциональный (синтаксические характеристики). И вот о первом мы с Вами, вроде как, разговор и вели.
А, тогда, похоже, получается, что в нашей методике мы в итоге работаем лишь с теми из слов, которые соответствуют всем трем критериям - полнозначные, обладают системой словоизменения и могут быть любым членом предложения. Хотя (скажу по секрету) вопрос наречий - болезненный.
Я вообще никогда не предлагаю кого-либо бить, потому как имею миролюбивую внешнюю политику.
Ну вот, а я-то надеялся, что смогу на защите выйти и сказать "LOVe разрешила! (http://lurkmore.to/%D0%9D%D1%83%D1%80%D0%B3%D0%B0%D0%BB%D0%B8%D0%B5%D 0%B2_%D1%80%D0%B0%D0%B7%D1%80%D0%B5%D1%88%D0%B8%D0 %BB)"
говорит что-то типа: "Верую я в это, верую. Всей душою своею верую
Не "Верую", а "Начальника чукче сказал, сюда ходи, а туда не ходи" ;)

LOVe

10.11.2012, 19:24

Собственной, но полнозначной ли?

Таким образом, Вы вводите еще один термин - "полнозначная семантика". Значит, Вам теперь нужно дать его определение, противопоставив неполнозначной семантике, то есть вычленить определенный круг значений и т.д. и т.п.

наречия - лишь модифицируют значения полнозначных слов.

Если исходить из этой фразы, то для Вас, получается, полнозначная семантика присуща полнозначным словам? Но наречие является полнозначным словом. Полнозначные слова - это знаменательные слова, к коим наречие, несомненно, относится.

Просто мне, когда я начал заниматься своей тематикой, было твердо сказано, что остальные части речи (не сущ., не прил. и не глаг.) нас интересуют в меньшей степени,

Неважно, что и кем, и когда было Вам сказано. Работу делаете Вы, результат представляете Вы, и объяснять, что к чему, тоже Вы должны, доказывая, что это так, а не иначе, а не говоря, что мне вот так было сказано.

А, тогда, похоже, получается, что в нашей методике мы в итоге работаем лишь с теми из слов, которые соответствуют всем трем критериям - полнозначные, обладают системой словоизменения и могут быть любым членом предложения.

Может, и так. Пока из того, что Вы написали, четкие критерии вывести сложно. Впрочем, время подумать и обосновать у Вас есть.

Ilona

10.11.2012, 20:26

Неважно, что и кем, и когда было Вам сказано. Работу делаете Вы, результат представляете Вы, и объяснять, что к чему, тоже Вы должны, доказывая, что это так, а не иначе, а не говоря, что мне вот так было сказано.

Ну или тогда добровольно перечислить возможные точки зрения (по поводу включать/не включать наречия-местоимения и почему), а потом так многозначительно сформулировать "вслед за ... (здесь желательно указать как минимум доктора наук, основателя научной школы, а лучше академика) мы придерживаемся такой-то точки зрения"...Как-то так.
Наверняка не спроста и мне и LOVe данный вопрос сразу показался узким местом в вашей работе. Вы должны защититься :)

Дмитрий В.

10.11.2012, 23:15

Таким образом, Вы вводите еще один термин - "полнозначная семантика". Значит, Вам теперь нужно дать его определение, противопоставив неполнозначной семантике, то есть вычленить определенный круг значений и т.д. и т.п.
Понятно, буду мыслить над этим вопросом.
Неважно, что и кем, и когда было Вам сказано. Работу делаете Вы, результат представляете Вы, и объяснять, что к чему, тоже Вы должны
а потом так многозначительно сформулировать "вслед за ... (здесь желательно указать как минимум доктора наук, основателя научной школы, а лучше академика) мы придерживаемся такой-то точки зрения"
Это в нашем манифесте работах, лежащих в основе исследований все указано, примерно такими словами, как я и излагаю, а работы эти - монографии по докторской диссертации :D
Впрочем, время подумать и обосновать у Вас есть.
Именно поэтому и выставил этот вопрос сейчас на обсуждение.

Hogfather

11.11.2012, 01:32

"Ладно. пора кончать этот бардак. Давайте её закопаем"

Итак, коллеги. Товарищ Дмитрий В. получил интересные результаты, стал мучать их в Excel и получил картинки, которые никуда не годятся. Дла начала, у нас распределение явно дискретное, а мы рисуем график как для непрерывного. Зачем точки соединять то?
Плюнем на Excel слюною, пусть в нем, товарищи, успешные менеджеры отчеты делают, нам путь в нормальный статистический пакет, поэтому только хардкор, только R.
Устанавливаем R, создаем вектор данных.

> LT<-c(rep(1,9),rep(2,267),rep(3,2843),rep(4,5450),rep( 5,6564),rep(6,7044),rep(7,7518),rep(8,7071),rep(9, 5620),rep(10,4016),rep(11,2545),rep(12,1494),rep(1 3,854),rep(14,416),rep(15,214),rep(16,122),rep(17, 53),rep(18,16),rep(19,7),rep(20,2),21,22)

Функция rep повторяет первый аргумент число раз, равное второму аргументу, поэтому для rep(1,9) имеем в результате вектор [1,1,1,1,1,1,1,1,1].
Данные берем с графика, любезно предоставленного нам.
Смотрим на результат и радуемся

> summary(LT)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.0 5.0 7.0 7.2 9.0 22.0
> length(LT)
[1] 52127

Дальше мы просто обязаны поффтыкать на картинки, иначе мы не ученые, а кот начхал.
Сказано-сделано, строим 4 графика в одном.

> old.par <- par(mfrow=c(2,2))
> hist(LT,main="Распределение букв",ylab="Число наблюдений",xlab="Число букв")
> hist(LT,freq=F,ylab="Вероятность",xlab="Число букв",main="Распределение букв")
> plot(ecdf(LT),verticals=T,main="График функции распределения")
> boxplot(LT,main="Диаграмма Ящик-с-Усами",xlab="Число букв",horizontal=T)
> par(old.par)

http://aspirantura.spb.ru/forum/picture.php?albumid=36&pictureid=970

Что мы, собственно говоря видим. А видим, что распределение у нас вполне милое, да слегка несимметричное, но с кем не бывает.
Пытаемся натянуть сову на глобус. Для этого используем подгонку распределения методом максимального правдоподобия (maximum-likelihood estimation, MLE). Метод это весьма кошерен, но связан со сложными вычислениями. К счастью для нас, в R уже всё таки имеется. Достаточно подключить библиотеку MASS.

Резвимся по полной

> library(MASS)
Предупреждение
пакет ‘MASS’ был собран под R версии 2.14.2

> fitdistr(LT, "gamma")
shape rate
7.257622928 1.008025740
(0.043960087) (0.006321817)
Предупреждения
1: In dgamma(x, shape, scale, log) : созданы NaN
2: In dgamma(x, shape, scale, log) : созданы NaN
3: In dgamma(x, shape, scale, log) : созданы NaN
4: In dgamma(x, shape, scale, log) : созданы NaN
5: In dgamma(x, shape, scale, log) : созданы NaN
6: In dgamma(x, shape, scale, log) : созданы NaN
7: In dgamma(x, shape, scale, log) : созданы NaN

> fitdistr(LT, "normal")
mean sd
7.199838855 2.628803586
(0.011514015) (0.008141638)

> fitdistr(LT,"lognormal")
meanlog sdlog
1.903586097 0.385993556
(0.001690630) (0.001195456)

> fitdistr(LT, "Poisson")
lambda
7.19983886
(0.01175249)

Итак, мы что-то наподгоняли. Попробовали гамму, нормальное, логнормальное и Пуассона. В скобках, для удобства, дана ошибка параметров.

Неплохим графическим методом оценки качества подгонки распределения является график квантилей (quantile). Квантиль — это такое число, что заданная случайная величина не превышает его лишь с указанной вероятностью. Можно рассматривать квантиль как функцию вероятности Q(p), обратную функции распределения вероятностей. Если мы подогнали правильно, то точки на графике должны лежать рядом с прямой y = x. Строим четыре графика для наших распределений.

> old.par <- par(mfrow=c(2,2))
> qqplot(LT, rgamma(n = 52127, 7.257622928, 1.008025740), main = "Подгонка гамма-распределения, QQ-plot")
> abline(0, 1)
> qqplot(LT, rpois(n = 52127, 7.19983886), main = "Подгонка распределения Пуассона, QQ-plot")
> abline(0, 1)
> qqplot(LT, rnorm(n = 52127, 7.199838855,2.628803586), main = "Подгонка нормального распределения, QQ-plot")
> abline(0, 1)
> qqplot(LT, rlnorm(n = 52127, 1.903586097, 0.385993556), main = "Подгонка Логнормального распределения, QQ-plot")
> abline(0, 1)
> par(old.par)

http://aspirantura.spb.ru/forum/picture.php?albumid=36&pictureid=971

Кому как, а мне больше нравится старик Пуассон. Попробуем нарисовать график аппроксимирующих распределений.

> plot(ecdf(LT),verticals=T,main="Аппроксимация функции распределения")
> lines(0:2200/100,pgamma(0:2200/100,7.257622928, 1.008025740),col="red")
> lines(0:2200/100,ppois(0:2200/100,lambda=7.19983886),col="blue",lwd=2)
> legend(15,0.2,c("Гамма распределение","Распределение Пуассона"),col=c("red","blue"),lwd=2)

Результат
http://aspirantura.spb.ru/forum/picture.php?albumid=36&pictureid=972

Ну, пока хватит. Коню понятно, что здесь никакая не гамма, а обычный Пуассон, причем Лямбда равна среднему числу букв в слове.
Ну, теперь сам бог велел провести тест Колмогорова-Смирнова

> ks.test(LT,rpois(0:2200/100,lambda=7.19983886))

Two-sample Kolmogorov-Smirnov test

data: LT and rpois(0:2200/100, lambda = 7.19983886)
D = 0.0261, p-value = 0.1137
alternative hypothesis: two-sided

Предупреждение
In ks.test(LT, rpois(0:2200/100, lambda = 7.19983886)) :
p-values будут примерными в присутствии повторяющихся значений

Ай, да Hogfather, хочется сказать, ай, молодец!

Бурные продолжительные аплодисменты.

> ks.test(LT,rgamma(0:2200/100, 7.257622928, 1.008025740))

Two-sample Kolmogorov-Smirnov test

data: LT and rgamma(0:2200/100, 7.257622928, 1.00802574)
D = 0.1011, p-value < 2.2e-16
alternative hypothesis: two-sided

Предупреждение
In ks.test(LT, rgamma(0:2200/100, 7.257622928, 1.00802574)) :
p-values будут примерными в присутствии повторяющихся значений

Согласен на соавторство ;)

P.S. Ну, мои маленькие девиантные друзья, если кто хочет поподробнее почитать про подгонку распределений в R, рекомендую на сон грядущий статью "Fitting distributions with R" (http://cran.r-project.org/doc/contrib/Ricci-distributions-en.pdf)

P.P.S. А список наиболее распространенных распределений можно посмотреть вот тут, в вашей любимой Википедии (http://en.wikipedia.org/wiki/List_of_probability_distributions)

Вляпалась...

11.11.2012, 10:47

Дальше мы просто обязаны поффтыкать на картинки, иначе мы не ученые, а кот начхал.

А видим, что распределение у нас вполне милое, да слегка несимметричное, но с кем не бывает.
Пытаемся натянуть сову на глобус.

Строим четыре графика для наших распределений.

Кому как, а мне больше нравится старик Пуассон. Попробуем нарисовать график аппроксимирующих распределений.

Ну, пока хватит. Коню понятно, что здесь никакая не гамма, а обычный Пуассон, причем Лямбда равна среднему числу букв в слове.
Ну, теперь сам бог велел провести тест Колмогорова-Смирнова

Ай, да Hogfather, хочется сказать, ай, молодец!

Бурные продолжительные аплодисменты.

Согласен на соавторство ;)

Это 5. Даже не 5, а 7-8, где-то так. Теперь на Вам.. ой на Вас... ну неважно, за Вас... просто обязаны выйти замуж. Как честный человек :) Но соавтором - это как минимум.

Чистенько, аккуратненько, корректненько.

Дмитрий В.

11.11.2012, 10:52

Hogfather, выскажу огроменное спасибо и тут.
Вляпалась..., Но соавтором - это как минимум.
Обязательно, постараемся.

Ilona

11.11.2012, 11:36

Ай, да Hogfather, хочется сказать, ай, молодец!

Бурные продолжительные аплодисменты.

(аплодисменты, подкрепленные топотом ног) Ай, да Hogfather! Ай, да молодец!!

Hogfather

11.11.2012, 22:15

"Пора кончать этот бардак. Давайте её откопаем"

Как говорится. не только методом максимального правдоподобия славен R. Ту же задачу можно попробовать решить нелинейным методом наименьших квадратов (http://en.wikipedia.org/wiki/Non-linear_least_squares). Для этого построим кумулятивную (интегральную) функцию распределения и попробуем подогнать понравившегося нам Пуассона. В общем, сделаем примерно то, что пытался проделать Дмитрий В. в Excel.

> # Понеслась!
> # Строим кумулятивную функцию
> MyEcdf<-ecdf(LT)
># Делаем таблицу (фрейм) для аппроксимации
># Обратите внимание, поскольку я все взял в скобки, результат отображается сразу на экране
> (dfecdf <- data.frame(knots=knots(MyEcdf),Fn=MyEcdf(1:22)))
knots Fn
1 1 0.0001726552
2 2 0.0052947609
3 3 0.0598346346
4 4 0.1643869780
5 5 0.2903102039
6 6 0.4254417097
7 7 0.5696663917
8 8 0.7053158632
9 9 0.8131294723
10 10 0.8901720797
11 11 0.9389951465
12 12 0.9676559173
13 13 0.9840389817
14 14 0.9920194909
15 15 0.9961248489
16 16 0.9984652867
17 17 0.9994820343
18 18 0.9997889769
19 19 0.9999232643
20 20 0.9999616322
21 21 0.9999808161
22 22 1.0000000000

> # Строим модель

> mdl<-nls( Fn ~ ppois(knots,lambda), data=dfecdf,model=T)
Предупреждение
In nls(Fn ~ ppois(knots, lambda), data = dfecdf, model = T) :
Для некоторых параметров не указаны стартовые значения.
Инициализую ‘lambda’ до '1.'.
Укажите 'start' или я использую модель 'selfStart'

> # Информация о модели
> summary(mdl)

Formula: Fn ~ ppois(knots, lambda)

Parameters:
Estimate Std. Error t value Pr(>|t|)
lambda 7.16774 0.01924 372.5 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.006275 on 21 degrees of freedom

Number of iterations to convergence: 5
Achieved convergence tolerance: 3.776e-08

Посчитаем адекватность полученной модели.

> # Расчет адекватности модели
> (RSS.p <- sum(residuals(mdl)^2))
[1] 0.000826937
> (TSS <- sum((dfecdf$Fn - mean(dfecdf$Fn))^2))
[1] 2.981961

> # коэффициент детерминации
> 1 - (RSS.p/TSS)
[1] 0.9997227

Что мы имеем с гуся. А с гуся имеем чуть другую лямбду (7.16774) и коэффициент детерминации практически единицу.
Для лямбды можно посчитать доверительный интервал

> confint(mdl)
Waiting for profiling to be done...
2.5% 97.5%
7.127763 7.207781

Графически ошибки модели можно изобразить вот так.

> plot(residuals(mdl),main="Ошибки модели")
> abline(0,0)

http://aspirantura.spb.ru/forum/picture.php?albumid=36&pictureid=974

Дмитрий В.

11.11.2012, 22:27

Спасибо.
коэффициент детерминации практически единицу.
Это точность аппроксимации, или я неправильно понял?
Средняя абсолютная ошибка модели составляет 181 слово.
Для массива в > 50 000 слов это так, меньше письки таракана ;)
*бурчит под нос* К освоению R приступить, о выполнении доложить себе лично!

Hogfather

11.11.2012, 22:43

Это точность аппроксимации, или я неправильно понял?
Ну, грубо говоря, да. (http://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D1%8D%D1%84%D1%84%D0%B8%D1%86%D0%B8%D 0%B5%D0%BD%D1%82_%D0%B4%D0%B5%D1%82%D0%B5%D1%80%D0 %BC%D0%B8%D0%BD%D0%B0%D1%86%D0%B8%D0%B8)

Дмитрий В.

11.11.2012, 22:47

Ну, грубо говоря, да.
А, вот, он самый! Правда, R2 мне почему-то точностью аппроксимации называли :shuffle:

Hogfather

11.11.2012, 23:05

Ошибка модели большая вышла. Это не слов, а процентов. С чего я про слова решил?
Да и считать здесь MAPE некорректно. Убрал.

Дмитрий В.

11.11.2012, 23:39

Hogfather, понятно.

Hogfather

12.11.2012, 13:55

"Нет, всё-таки откопаем..."

Итак, более корректная и интересная первая подгонка, поскольку во втором случае мы просто подгоняем функцию по 22 точкам. С интересом обнаружил, что в 2012 году для R вышел более мощный пакет подгонки fitdistrplus (http://cran.r-project.org/web/packages/fitdistrplus/fitdistrplus.pdf).

Попробуем в него поиграть. Опять берем Гамму.

>#Подключаем библиотеку
>library(fitdistrplus)
># Подгоняем гамма-распределение
> XX<-fitdist(LT, "gamma")
> summary(XX)
Fitting of the distribution ' gamma ' by maximum likelihood
Parameters :
estimate Std. Error
shape 7.258422 0.043965053
rate 1.008084 0.006322175
Loglikelihood: -122729.7 AIC: 245463.4 BIC: 245481.2
Correlation matrix:
shape rate
shape 1.0000000 0.9658169
rate 0.9658169 1.0000000

Ну и Пуассона

># Подгоняем распределение Пуассона
> XY<-fitdist(LT, "pois")
> summary(XY)
Fitting of the distribution ' pois ' by maximum likelihood
Parameters :
estimate Std. Error
lambda 7.199839 0.01175249
Loglikelihood: -123149.4 AIC: 246300.8 BIC: 246309.7

Результаты совпали, но зато у нас появилось много умных буковок, которые сказочно обогатят нашу статью.

Пакет позволяет построить красивые картинки. Причем очень просто.

># Рисунок для гаммы
> plot(XX)
># Рисунок для Пуассона
> plot(XY)

http://aspirantura.spb.ru/forum/picture.php?albumid=36&pictureid=975
Рисунок 1 -- Подгонка гамма-распределения

http://aspirantura.spb.ru/forum/picture.php?albumid=36&pictureid=976
Рисунок 2 -- Подгонка распределения Пуассона

Рисунок 2 можно также получить не прибегая к построению модели.
Для распределения Пуассона с лямбдой равной средней длине слова это выглядит так:
> plotdist(LT,"pois",para=list(lambda=mean(LT)))

А можно легко и непринужденно посчитать статистические параметры и проверить гипотезы.

># Для гамма-распределения
> gofstat(XX,print.test=TRUE)
Kolmogorov-Smirnov statistic: 0.09400709
Kolmogorov-Smirnov test: rejected
The result of this test may be too conservative as it
assumes that the distribution parameters are known
Cramer-von Mises statistic: 68.65376
Cramer-von Mises test: rejected
Anderson-Darling statistic: 397.2767
Anderson-Darling test: rejected

># Для Распределения Пуассона
> g2 <- gofstat(XY,print.test=TRUE)
Chi-squared statistic: 445.9628
Degree of freedom of the Chi-squared distribution: 11
Chi-squared p-value: 1.041315e-88
> g2$chisqtable
obscounts theocounts
<= 3 3119.0000 3749.2137
<= 4 5450.0000 4358.0510
<= 5 6564.0000 6275.4530
<= 6 7044.0000 7530.3751
<= 7 7518.0000 7745.3553
<= 8 7071.0000 6970.6637
<= 9 5620.0000 5576.4062
<= 10 4016.0000 4014.9226
<= 11 2545.0000 2627.8905
<= 12 1494.0000 1576.6990
<= 13 854.0000 873.2291
<= 14 416.0000 449.0792
> 14 416.0000 379.6615
>

Первоначальный выбор возможного распределения также осуществляется легко и непринужденно, посчитав моменты.

> descdist(LT)
summary statistics
------
min: 1 max: 22
median: 7
mean: 7.199839
estimated sd: 2.628829
estimated skewness: 0.519882
estimated kurtosis: 3.143716

Вот такая красота.
http://aspirantura.spb.ru/forum/picture.php?albumid=36&pictureid=977

Но, поскольку у нас распределение дискретное, мы нарисуем другой график.

> descdist(LT,discrete = TRUE,boot=1000)
summary statistics
------
min: 1 max: 22
median: 7
mean: 7.199839
estimated sd: 2.628829
estimated skewness: 0.519882
estimated kurtosis: 3.143716

http://aspirantura.spb.ru/forum/picture.php?albumid=36&pictureid=981

Почти Пуассон, красота!

В общем, пакет мне понравился. Буду пользоваться.

P.S. Если как положено считать Хи-квадрат для дискретного распределения, то видно, что и распределение Пуассона не торт.

> XZ<-fitdist(LT,"beta")
Ошибка в mledist(data, distname, start, fix.arg, ...) :
values must be in [0-1] to fit a beta distribution
> XZ<-fitdist(LT/52127,"beta")
Предупреждения
1: In dbeta(x, shape1, shape2, log) : созданы NaN
2: In dbeta(x, shape1, shape2, log) : созданы NaN
3: In dbeta(x, shape1, shape2, log) : созданы NaN
4: In dbeta(x, shape1, shape2, log) : созданы NaN
5: In dbeta(x, shape1, shape2, log) : созданы NaN
6: In dbeta(x, shape1, shape2, log) : созданы NaN
7: In dbeta(x, shape1, shape2, log) : созданы NaN
8: In dbeta(x, shape1, shape2, log) : созданы NaN
9: In dbeta(x, shape1, shape2, log) : созданы NaN
10: In dbeta(x, shape1, shape2, log) : созданы NaN
> summary(XZ)
Fitting of the distribution ' beta ' by maximum likelihood
Parameters :
estimate Std. Error
shape1 7.257806 0.01867214
shape2 52538.205482 114.78284503
Loglikelihood: 443444.6 AIC: -886885.2 BIC: -886867.5
Correlation matrix:
shape1 shape2
shape1 1.0000000 0.7921102
shape2 0.7921102 1.0000000

> gofstat(XZ,print.test=TRUE)
Kolmogorov-Smirnov statistic: 0.09402943
Kolmogorov-Smirnov test: rejected
The result of this test may be too conservative as it
assumes that the distribution parameters are known
Cramer-von Mises statistic: 68.67007
Crame-von Mises test: not calculated
Anderson-Darling statistic: 397.3218
Anderson-Darling test: not calculated

> XZ<-fitdist(LT,"nbinom")
Предупреждение
In dnbinom_mu(x, size, mu, log) : созданы NaN

> summary(XZ)
Fitting of the distribution ' nbinom ' by maximum likelihood
Parameters :
estimate Std. Error
size 1.037875e+06 8.85828908
mu 7.199210e+00 0.01175151
Loglikelihood: -123149.4 AIC: 246302.8 BIC: 246320.5
Correlation matrix:
size mu
size 1.000000e+00 -1.325475e-06
mu -1.325475e-06 1.000000e+00

> gofstat(XZ,print.test=TRUE)
Chi-squared statistic: 445.6481
Degree of freedom of the Chi-squared distribution: 10
Chi-squared p-value: 1.770972e-89

> XZ<-fitdist(LT,"geom")
Предупреждения
1: In dgeom(x, prob, log) : созданы NaN
2: In dgeom(x, prob, log) : созданы NaN
> gofstat(XZ,print.test=TRUE)
Chi-squared statistic: 62647.84
Degree of freedom of the Chi-squared distribution: 11
Chi-squared p-value: 0

> (XZ<-fitdist(LT,"weibull"))
Fitting of the distribution ' weibull ' by maximum likelihood
Parameters:
estimate Std. Error
shape 2.937583 0.009692365
scale 8.075648 0.012729966

> gofstat(XZ,print.test=TRUE)
Kolmogorov-Smirnov statistic: 0.08801459
Kolmogorov-Smirnov test: rejected
The result of this test may be too conservative as it
assumes that the distribution parameters are known
Cramer-von Mises statistic: 65.77123
Cramer-von Mises test: rejected
Anderson-Darling statistic: 400.9466
Anderson-Darling test: rejected

Добавлено через 3 часа 40 минут
Ну, теперь сам бог велел провести тест Колмогорова-Смирнова
Чистенько, аккуратненько, корректненько.
Если бы. Наврал ведь, а хоть бы кто поправил. Для дискретного распределения тест Колмогорова-Смирнова не применяется, так как его предельные распределения получены в предположении о непрерывности и случайных величин, и их законов распределения . Поэтому только Хи-квадрат, либо через метод обратного преобразования. (http://ami.nstu.ru/~headrd/seminar/publik_html/APEP2006_1.htm)

В общем, Колмогорова-Смирнова в данном случае не трогаем. Хотя, красивый результат вышел. То-то мне он подозрительным показался.

Вляпалась...

12.11.2012, 13:57

Если бы. Наврал ведь, а хоть бы кто поправил. Для дискретного распределения тест Колмогорова-Смирнова не применяется, так как его предельные распределения получены в предположении о непрерывности и случайных величин, и их законов распределения .

:) Вот так уважаемые люди дурят провинциальных дурочек :smirk:

Hogfather

12.11.2012, 23:35

Вот так уважаемые люди дурят провинциальных дурочек
Дык, я второй раз накалываюсь, доверяя русским публикациям. Думаете, это я сам придумал? Вот так и учусь на ошибках. Тест Шапиро-Уилка, например, даже в учебниках описан с ошибками. Заказывал через доброго человека (не указывая пальцем на watteau) оригинал статьи, чтобы разобраться.

Надеюсь, что сюда математик нормальный забредет, подскажет идею какую-нибудь.

Добавлено через 8 часов 12 минут
Мысль для Дмитрий В. и не только.
Пусть у Вас имеются данные по 5 языкам. Чтобы на одном графике показать все распределения, лучше всего использовать диаграмму "Ящик с усами".Привожу пример. Данные выдуманы (заполняются в начале скрипта). У Дмитрия наверняка они есть.

#Инициируем данные, чтобы были, заполнив по 1000 чисел из распределения Пуассона и нормального распределения.

lgRU<-rpois(1000,5)
lgGB<-rpois(1000,5.1)
lgNL<-rpois(1000,7)
lgFR<-rnorm(1000,2,1)
lgDE<-rnorm(1000,3,1)

##### Всё счастье тут. Вот он, график!
boxplot(list("Рус"=lgRU,"Анг"=lgGB,"Чук"=lgNL,"Нен"=lgDE,"Франц"=lgFR),main="Сравнение распределения\n длины слов в языках",xlab="Язык",ylab="Длина слова",col = "lavender", notch = TRUE, varwidth = TRUE)

Результат:
http://aspirantura.spb.ru/forum/picture.php?albumid=36&pictureid=983

Добавлено через 58 минут
А вот пример Бутстреппинга (http://ru.wikipedia.org/wiki/%D0%91%D1%83%D1%81%D1%82%D1%80%D0%B5%D0%BF%D0%B8%D 0%BD%D0%B3_(%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D 1%82%D0%B8%D0%BA%D0%B0))

> bw<-bootdist(XY,niter=1001)
> plot(bw)
> summary(bw)
Parametric bootstrap medians and 95% percentile CI
Median 2.5% 97.5%
7.199874 7.175821 7.223915

http://aspirantura.spb.ru/forum/picture.php?albumid=36&pictureid=982

Дмитрий В.

12.11.2012, 23:42

Hogfather, :up:, выходящие за фрейм.

Hogfather

13.11.2012, 14:11

Вот тут меня спрашивают, а как посчитать R2. Не знаю, зачем, но почему бы не посчитать. Формула есть (http://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D1%8D%D1%84%D1%84%D0%B8%D1%86%D0%B8%D 0%B5%D0%BD%D1%82_%D0%B4%D0%B5%D1%82%D0%B5%D1%80%D0 %BC%D0%B8%D0%BD%D0%B0%D1%86%D0%B8%D0%B8), а заодно и MAE (http://en.wikipedia.org/wiki/Mean_absolute_error) (среднюю абсолютную ошибку) посчитаем.

Для этого сделаем по-быстрому функцию

# Функция, вычисляющая R.Sqv и MAE
# (c) Hogfather, 2012
MyInfo<-function(DF,lambda,debug=F){
MyEcdf<-ecdf(DF)
MyLen<-length(DF)
MyKnots<-1:max(knots(MyEcdf))
dfecdf <- data.frame(knots=MyKnots,Fn=MyEcdf(MyKnots))
dfecdf$Fa<-ppois(dfecdf$knots, lambda)
dfecdf$R2<-(dfecdf$Fn-dfecdf$Fa)^2
TSS<-sum(dfecdf$R2)
dfecdf$RR2<-(dfecdf$Fn-mean(dfecdf$Fn))^2
ESS<-sum(dfecdf$RR2)
R2<-1-TSS/ESS
dfecdf$Err<-dfecdf$Fn-dfecdf$Fa
MAE<-mean(abs(dfecdf$Err))*MyLen
print(data.frame(R.Sqv=R2,MAE))
if(debug) print(dfecdf)
plot(dfecdf$knots,dfecdf$Err*MyLen,col="red",xlab="Число букв в слове",ylab="Ошибка аппроксимации, слов",main="Ошибки аппроксимации")
abline(0,0)
}

Скопируем в R, запустим. Дальше достаточно натравить её на наши данные и получить не только результат, но и красивый график.

LT - у нас определено выше, 7.199839 - это полученная в результате лямбда.
Результат:

> MyInfo(LT,7.199839)
R.Sqv MAE
1 0.999686 191.5201

R2=0.999686
MAE=191.5201 слов. Вот тут уже именно слов ;).
График
http://aspirantura.spb.ru/forum/picture.php?albumid=36&pictureid=985

Теперь о R2. Обратите внимание, что будет если мы чуть изменим лямбду.

> MyInfo(LT,8)
R.Sqv MAE
1 0.9758058 1950.267

R2=0.9758058, т.е. вполне годный. А вот MAE увеличилось на порядок (!). Такие дела.

Добавлено через 58 минут
Можно и совсем облениться, если данных много надо обработать, а вводить команды одни те же лень. Пишем функцию, которая делает за нас все.

# Функция, которая только за пивом не бегает
# (c) Hogfather, 2012
MyInfoPois<-function(DF){
#Подключим библиотеку
require(fitdistrplus)

# Для начала построим красивый график
descdist(DF,discrete = TRUE)
par(ask=T)
DFPois<-fitdist(DF, "pois")
lambda<-DFPois$estimate[[1]]
print(summary(DFPois))
gofstat(DFPois,print.test=TRUE)
plot(DFPois)
# А это уже было ранее. См функцию MyInfo
MyEcdf<-ecdf(DF)
MyLen<-length(DF)
MyKnots<-1:max(knots(MyEcdf))
dfecdf <- data.frame(knots=MyKnots,Fn=MyEcdf(MyKnots))
dfecdf$Fa<-ppois(dfecdf$knots, lambda)
dfecdf$R2<-(dfecdf$Fn-dfecdf$Fa)^2
TSS<-sum(dfecdf$R2)
dfecdf$RR2<-(dfecdf$Fn-mean(dfecdf$Fn))^2
ESS<-sum(dfecdf$RR2)
R2<-1-TSS/ESS
dfecdf$Err<-dfecdf$Fn-dfecdf$Fa
MAE<-mean(abs(dfecdf$Err))*MyLen
print(data.frame(R.Sqv=R2,MAE))
plot(dfecdf$knots,dfecdf$Err*MyLen,col="red",xlab="Число букв в слове",ylab="Ошибка аппроксимации, слов",main="Ошибки аппроксимации")
par(ask=F)
abline(0,0)
}

Результат запуска.

> MyInfoPois(LT)
summary statistics
------
min: 1 max: 22
median: 7
mean: 7.199839
estimated sd: 2.628829
estimated skewness: 0.519882
estimated kurtosis: 3.143716
Fitting of the distribution ' pois ' by maximum likelihood
Parameters :
estimate Std. Error
lambda 7.199839 0.01175249
Loglikelihood: -123149.4 AIC: 246300.8 BIC: 246309.7
Chi-squared statistic: 445.9628
Degree of freedom of the Chi-squared distribution: 11
Chi-squared p-value: 1.041315e-88
Ожидаю подтверждения смены страницы...
R.Sqv MAE
1 0.999686 191.5198
Ожидаю подтверждения смены страницы...

Ожидание смены страницы, чтобы можно было сохранить график. Для перехода к следующему графику, надо кликнуть по нему мышкой. Несложно, конечно, сразу выводить его в нужный файловый формат, чуть допилить функцию и всё. Как выводить в файл я уже писал.
Картинки повторять не буду. Они все уже приведены.

Лирическое отступление для Дмитрия В. и не только.

Ежу понятно, что вышеописанное никому не нужно, разве что, продемонстрировать возможности R (я себе такую цель ставил). Вообще, прежде чем проводить научное исследование, надо себе поставить цель. Поговорим об этом. У нас есть некие эмпирические данные, в данном случае соответствие длины слов количеству букв. Какие возможны варианты.
1. Нам интересна математическая модель, которая показывает зависимость количества слов в языке данной длины в данном словаре от количества букв в слове. Звучит идиотски, согласитесь.
Во всяком случае, это легко аппроксимируется полиномом или так любимой Дмитрием гаммой (но полином лучше будет). Да, в данном случае мы можем говорить о R квадрате.
Но! В данном случае у нас данные фиксированы. Нельзя добавлять или убавлять слова, поскольку это рушит нашу модель. Случайная выборка из словаря рушит всё напрочь! И модель не выполняет своей функции -- не объясняет закономерность.

2. Нам интересна закономерность, описывающая частотное распределение слов по длине. Тогда мы говорим о дискретном стохастическом процессе, причем нас интересуют именно вероятности и мы подгоняем не только дифференциальную, но и интегральную функцию распределения. Тогда ошибки считать -- заниматься профанацией. Для каждой выборки они будут свои. Задача стоит выбрать лучшее из возможных плохих вариантов. Тут в нас начинают работать информационные критерии AIC и BIC и мы выбираем из нескольких распределений лучшее. Если бы сошелся Хи-квадрат, было бы вообще счастье. Но, к сожалению, счастье бывает только в учебниках. В жизни приходится мучатся. Где-то так.
Никто, правда нам не мешает сказать, что для всего словаря Эр. квадрат такой-то, а средняя абсолютная ошибка такая-то (причем для дифференциальной и интегральной функции они будут разные, гы). А смысл?
Другой вариант, бутстреппинг. Т.е. случайная выборка, пересчет Эр квадрат и ошибки для каждого случая и отображение этого на двумерном графике. Но это чересчур брутально.

Надеюсь, что несильно наврал, а если и наврал меня поправят.

Paul Kellerman

13.11.2012, 15:57

Пришлось метить лингвистический материал цветом -- теперь у меня синие закономерности, желтые...
Разбиение множества на подмножества. Попробуйте выделить матроид трансверсалей...
старым хрычам из диссовета
Я стар, я очень стар, я суперстар... (широкораспространенная позиция хрыча из диссовета).

Hogfather

13.11.2012, 16:10

Выделите матроид трансверсалей
Специально для Илоны -- матроиды в картинках (http://www.math.nsc.ru/LBRT/k5/DM/lec9.pdf).

Ilona

13.11.2012, 18:53

Hogfather, только я хотела сказать, что Paul Kellerman слишком хорошо думает о моем знании математики, но вы меня опередили :):):) что такое множество и подмножество я, конечно, понимаю, ибо школьная программа. А вот этот вот матроид трансверсалей впервые вижу, спасибо за хорошую ссылку, то что надо :):):)

Hogfather

14.11.2012, 12:14

Раз уж разбираем задачу, доводим её до логического абсурда. Предположим, что у нас распределение описывается некой вероятностной функцией, являющейся суммой двух вероятностных функций с весами, сумма которых равна единице (условие нормировки). Если вспомнить про интегралы, что интеграл суммы равен сумме интегралов, а постоянный член выносится за интеграл, то функции можно описать, например, так.

> pMyDist<-function(q,lambda1,lambda2,w=0.5) w*ppois(q,lambda1)+(1-w)*ppois(q,lambda2)
> dMyDist<-function(x,lambda1,lambda2,w=0.5) w*dpois(x,lambda1)+(1-w)*dpois(x,lambda2)
> qMyDist<-function(p,lambda1,lambda2,w=0.5) w*qpois(p,lambda1)+(1-w)*qpois(p,lambda2)

Где w принимает значение [0,1] и является весовым коэффициентом.
Если имеем p(k)=f(k,lambda), где f распределение Пуассона, то результирующая функция описывается как p(k)=w*f(k,lambda1)+(1-w)*f(k,lambda2)

Графически результат выглядит вот так (в сравнении с обычным распределением Пуассона) для функций
p1(k)=f(k,7,2)
p2(k)=0.8*f(k,7,2)+0.2*f(k,0,8)

> plot(1:25,dpois(1:25,7.2),xlab="x",ylab="f(x)")
> lines(dMyDist(1:25,7.2,4,0.8),type="p",col="red",pch=2)
> legend(x=15,y=0.1,c("Распределение Пуассона","Сложное распределение"),pch=c(1,2),col=c("black","red"))

http://aspirantura.spb.ru/forum/picture.php?albumid=36&pictureid=986

Счастье заключается в том, что теперь эту функцию можно попробовать подогнать под наше распределение.

> XX<-fitdist(LT,"MyDist",start=list(lambda1=9 ,lambda2=5 ), method="mle")
> summary(XX)
Fitting of the distribution ' MyDist ' by maximum likelihood
Parameters :
estimate Std. Error
lambda1 7.197402 0.05980069
lambda2 7.202613 0.05980405
Loglikelihood: -123149.4 AIC: 246302.8 BIC: 246320.5
Correlation matrix:
lambda1 lambda2
lambda1 1.0000000 -0.9227544
lambda2 -0.9227544 1.0000000

Как видно, принципиально лучше не стало. Отрицательный результат -- тоже результат. Но метод может пригодиться. Я его как-то удачно использовал.