![]() |
|
![]() |
#1 |
Platinum Member
Регистрация: 22.07.2010
Адрес: Санкт-Петербург
Сообщений: 3,304
|
![]()
При машинной обработке текстов имеет смысл все перевести в txt, а уже потом развлекаться. Несколько бесплатных конвертеров для пакетной обработки файлов (под Windows).
Итак, antiword. Преобразует из Word в txt и не только http://www.winfield.demon.nl/ Если в командной строке в каталоге, в котором находятся файлы Word выполнить команду Код:
for %i in (*.doc) do c:\antiword\antiword -m UTF-8 %i > %i.txt PDF в текст преобразует команда pdf2text из пакета poppler. По ссылке исходники, которые хороши для знатных пингвиноводов, а обывателю с Windows они не очень годятся. К счастью, есть добрые люди, которые откомпилировали и собрали это все под Windows. http://manifestwebdesign.com/2013/01...ls-on-windows/ Аналогично, команда Код:
for %i in (*.pdf) do c:\antipdf\pdftotext %i Оригиналы сохраняются и там и там. |
---------
DNF is not an option
|
|
![]() |
![]() |
Реклама | |
|
![]() |
#2 |
Platinum Member
Регистрация: 12.03.2010
Адрес: Воронеж
Сообщений: 11,862
|
![]()
Спасибо! Единственное, периодически возникает простой вопрос - за что на работе деньги платят?
![]() |
---------
Обычно пуська. Но иногда кое-кому доводится увидеть льва в год тигра...
"Экономика и менеджмент систем управления" - новый cписок ВАК |
|
![]() |
![]() |
![]() |
#3 |
Full Member
Регистрация: 03.06.2011
Сообщений: 193
|
![]() |
![]() |
![]() |
![]() |
#4 |
Platinum Member
Регистрация: 22.07.2010
Адрес: Санкт-Петербург
Сообщений: 3,304
|
![]()
1) Анализ текстов, если занимаетесь лингвистическими исследованиями
2) Копирование цитат в LaTex 3) Пересборка документа с помощью pandoc или LaTex. 4) Машинная обработка текста с целью "выдергивания" нужной информации, например библиографии или определений Мало ли зачем может понадобится. Примеры привел. А скрин нотепада Вам зачем? |
---------
DNF is not an option
|
|
![]() |
![]() |
![]() |
#5 |
Full Member
Регистрация: 03.06.2011
Сообщений: 193
|
![]()
для наглядности
не понял, а чем cntrl+c / cntrl+v не подходит? конечно если pdf сканированием документов образовывался, там будут неправильно распознанные символы |
![]() |
![]() |
![]() |
#6 |
Администратор
Jack of Shadows Регистрация: 13.05.2002
Адрес: Москва
Сообщений: 7,534
|
![]() |
---------
Рано или поздно, так или иначе...
|
|
![]() |
![]() |