Портал аспирантов

Портал аспирантов (http://www.aspirantura.spb.ru/forum/index.php)
-   Software (программное обеспечение) (http://www.aspirantura.spb.ru/forum/forumdisplay.php?f=107)
-   -   Библиография (http://www.aspirantura.spb.ru/forum/showthread.php?t=14107)

МЮрий 27.01.2016 10:26

Библиография
 
Коллеги, вопрос.
Есть у меня библиографический список по теме на большое количество страниц (сколько не суть важно, главное, что руками не перебрать) в Ворде.
В нем однозначно есть повторения.
Как или чем эту кучу можно превратить в конфетку?

kravets 27.01.2016 10:32

Цитата:

Сообщение от МЮрий (Сообщение 566133)
Коллеги, вопрос.
Есть у меня библиографический список по теме на большое количество страниц (сколько не суть важно, главное, что руками не перебрать) в Ворде.
В нем однозначно есть повторения.
Как или чем эту кучу можно превратить в конфетку?

Сортировка и глазами.

Hogfather 27.01.2016 10:58

МЮрий, я бы делал так.
1. Notepad++ отделить названия с помощью регулярных выражений табуляторами
Примерно так

## Шаг 1. Выделить все и нажать TAB
## Шаг 2. Отделение авторов. Первая строка, что ищем, вторая на что меняем
## Notepad++ режим регулярные выражения
^\t([\w-]+[\s,]+(\w{1,2}[.]\s*){1,2}([,]\s*([\w-]+[\s,]+(\w{1,2}[.]\s*){1,2})\s*)*)
\1\t
## Шаг 3 отделяем названия публикаций
^(.*?)\t(.*?)\s*((/+)|([.]\s+[-]\s?\w+[.]))
\1\t\2\t\3\t
## Шаг 4 ищем год публикации и ставим его в конец
([12][90]\d\d)(.*?)$


2. Выделить все и перетащить в Excel
3. Отсортировать по названию
4. Глянуть глазами

А вообще, пользуйтесь библиотечными менеджерами, типа JabRef или Zotero и будет вам Щастье™

Дмитрий В. 27.01.2016 11:04

Hogfather, а как думаете - пункт
Цитата:

Сообщение от Hogfather (Сообщение 566138)
4. Глянуть глазами

не получится ли упростить: в соседнем столбце вставить такую функцию (вариант для случая, если названия у нас находятся в столбце А):
Код:

=ЕСЛИ(A1=A2;1;0)
В случае, если А1 совпадает с А2, то функция вернет единицу. А потом скопировать-вставить результаты как значения и или вручную найти все единицы, или просто отсортировать по столбцу с нулями и единицами.

Just Another One 27.01.2016 11:07

А если не маяться дурью и сделать в Ворде упорядочивание по алфавиту, то повторяющиеся названия окажутся рядом друг с другом и их сразу будет заметно - поудалять ручками потом, и все.

Hogfather 27.01.2016 11:17

Цитата:

Сообщение от Дмитрий В. (Сообщение 566142)
В случае, если А1 совпадает с А2, то функция вернет единицу. А потом скопировать-вставить результаты как значения и или вручную найти все единицы, или просто отсортировать по столбцу с нулями и единицами.

Дмитрий, так и бьть поясню. Дело в том, что когда у источника более одного автора добрые люди могут по-разному их написать в списке литературы (на первом месте только один, а полный перечень после косой черты, всех перечислить вначале и т.п.), во-вторых, Дмитрий, есть такая вещь как пробелы между словами, в т.ч. неразрывные, а еще бывают опечатки, которые вот так , "в лоб" просто не позволят вам решить эту задачу. Напоминаю, что в задаче предполагается фигова туча источников.

Цитата:

Сообщение от Just Another One (Сообщение 566143)
А если не маяться дурью и сделать в Ворде упорядочивание по алфавиту,

Спасибо за Ваше мнение. Оно офигенно важно для нас.

Just Another One 27.01.2016 11:21

Цитата:

Сообщение от Hogfather (Сообщение 566144)
Спасибо за Ваше мнение. Оно офигенно важно для нас.

И тем не менее, оно единственное оптимальное решение в данном случае. А ваша городьба усложняет все в разы.

Hogfather 27.01.2016 11:29

Цитата:

Сообщение от Just Another One (Сообщение 566145)
оно единственное оптимальное решение в данном случае

Эх. Чувствуется, что не технарь. У нас за слово "оптимальное" можно и канделябром по шее схлопотать, без указания критерия и параметров, тем более, не видя исходные данные.

kravets 27.01.2016 11:32

Цитата:

Сообщение от Hogfather (Сообщение 566138)
МЮрий, я бы делал так.
1. Notepad++ отделить названия с помощью регулярных выражений табуляторами

Вас бы в РИНЦ... Они так и не имеют посейчас форсированного алгоритма гарантированного разбора библиографической записи. Много разбирается руками. Увы, все не так просто - авторы имеют обыкновение плевать на правила, редколлегии - тоже.

Hogfather 27.01.2016 11:38

kravets, О.Я., приведен как раз рабочий фрагмент парсера, которым я занимался для своих задач. Отловить авторов в начале описания и название самое простое, работает в большинстве случаев. Проблемы начинаются со второй частью разбора, потому как там полная разножопица, решаемая (не на 100%) с помощью тех же регэкспов и элементов нечеткой логики.


Текущее время: 14:04. Часовой пояс GMT +3.

Powered by vBulletin® Version 3.8.8
Copyright ©2000 - 2024, vBulletin Solutions, Inc. Перевод: zCarot
© 2001—2024, «Аспирантура. Портал аспирантов»