Вход

Просмотр полной версии : Конвертеры из Word и PDF в обычный (plain) текст


Hogfather
20.12.2013, 15:42
При машинной обработке текстов имеет смысл все перевести в txt, а уже потом развлекаться. Несколько бесплатных конвертеров для пакетной обработки файлов (под Windows).

Итак, antiword. Преобразует из Word в txt и не только
http://www.winfield.demon.nl/
Если в командной строке в каталоге, в котором находятся файлы Word выполнить команду

for %i in (*.doc) do c:\antiword\antiword -m UTF-8 %i > %i.txt

То все файлы .doc преобразуются в файлы с "двойным" расширением .doc.txt

PDF в текст преобразует команда pdf2text из пакета poppler (http://poppler.freedesktop.org/releases.html). По ссылке исходники, которые хороши для знатных пингвиноводов, а обывателю с Windows они не очень годятся. К счастью, есть добрые люди, которые откомпилировали и собрали это все под Windows.
http://manifestwebdesign.com/2013/01/09/xpdf-and-poppler-utils-on-windows/

Аналогично, команда
for %i in (*.pdf) do c:\antipdf\pdftotext %i
преобразует все файлы pdf в текстовые файлы.

Оригиналы сохраняются и там и там.

kravets
20.12.2013, 15:54
Спасибо! Единственное, периодически возникает простой вопрос - за что на работе деньги платят? :rolleyes:

Yura
25.12.2013, 18:42
имеет смысл все перевести в txt, а уже потом развлекаться
в каком смысле?

привели бы пару примеров (желательно скрины до и после), чтобы было понятно о чем речь.

Hogfather
25.12.2013, 18:59
в каком смысле?
1) Анализ текстов, если занимаетесь лингвистическими исследованиями
2) Копирование цитат в LaTex
3) Пересборка документа с помощью pandoc или LaTex.
4) Машинная обработка текста с целью "выдергивания" нужной информации, например библиографии или определений

Мало ли зачем может понадобится.

привели бы пару примеров
Примеры привел. А скрин нотепада Вам зачем?

Yura
25.12.2013, 19:13
для наглядности

не понял, а чем cntrl+c / cntrl+v не подходит?
конечно если pdf сканированием документов образовывался, там будут неправильно распознанные символы

Jacky
25.12.2013, 19:49
не понял, а чем cntrl+c / cntrl+v не подходит?
Насколько я понял, суть в пакетной обработке. Несколько файлов сразу и полностью, это не то же самое, что один файл постранично через сtrl+c и ctrl+v (а предварительно еще и ctrl+a).