Портал аспирантов

Портал аспирантов (http://www.aspirantura.spb.ru/forum/index.php)
-   Software (программное обеспечение) (http://www.aspirantura.spb.ru/forum/forumdisplay.php?f=107)
-   -   Конвертеры из Word и PDF в обычный (plain) текст (http://www.aspirantura.spb.ru/forum/showthread.php?t=12363)

Hogfather 20.12.2013 15:42

Конвертеры из Word и PDF в обычный (plain) текст
 
При машинной обработке текстов имеет смысл все перевести в txt, а уже потом развлекаться. Несколько бесплатных конвертеров для пакетной обработки файлов (под Windows).

Итак, antiword. Преобразует из Word в txt и не только
http://www.winfield.demon.nl/
Если в командной строке в каталоге, в котором находятся файлы Word выполнить команду
Код:

for %i in (*.doc) do c:\antiword\antiword -m UTF-8 %i > %i.txt
То все файлы .doc преобразуются в файлы с "двойным" расширением .doc.txt

PDF в текст преобразует команда pdf2text из пакета poppler. По ссылке исходники, которые хороши для знатных пингвиноводов, а обывателю с Windows они не очень годятся. К счастью, есть добрые люди, которые откомпилировали и собрали это все под Windows.
http://manifestwebdesign.com/2013/01...ls-on-windows/

Аналогично, команда
Код:

for %i in (*.pdf) do c:\antipdf\pdftotext %i
преобразует все файлы pdf в текстовые файлы.

Оригиналы сохраняются и там и там.

kravets 20.12.2013 15:54

Спасибо! Единственное, периодически возникает простой вопрос - за что на работе деньги платят? :rolleyes:

Yura 25.12.2013 18:42

Цитата:

Сообщение от Hogfather (Сообщение 412405)
имеет смысл все перевести в txt, а уже потом развлекаться

в каком смысле?

привели бы пару примеров (желательно скрины до и после), чтобы было понятно о чем речь.

Hogfather 25.12.2013 18:59

Цитата:

Сообщение от Yura (Сообщение 413495)
в каком смысле?

1) Анализ текстов, если занимаетесь лингвистическими исследованиями
2) Копирование цитат в LaTex
3) Пересборка документа с помощью pandoc или LaTex.
4) Машинная обработка текста с целью "выдергивания" нужной информации, например библиографии или определений

Мало ли зачем может понадобится.

Цитата:

Сообщение от Yura (Сообщение 413495)
привели бы пару примеров

Примеры привел. А скрин нотепада Вам зачем?

Yura 25.12.2013 19:13

для наглядности

не понял, а чем cntrl+c / cntrl+v не подходит?
конечно если pdf сканированием документов образовывался, там будут неправильно распознанные символы

Jacky 25.12.2013 19:49

Цитата:

Сообщение от Yura (Сообщение 413499)
не понял, а чем cntrl+c / cntrl+v не подходит?

Насколько я понял, суть в пакетной обработке. Несколько файлов сразу и полностью, это не то же самое, что один файл постранично через сtrl+c и ctrl+v (а предварительно еще и ctrl+a).


Текущее время: 19:02. Часовой пояс GMT +3.

Powered by vBulletin® Version 3.8.8
Copyright ©2000 - 2024, vBulletin Solutions, Inc. Перевод: zCarot
© 2001—2024, «Аспирантура. Портал аспирантов»