левые символы
Прислали мне на проверку текст.
С виду (в Ворде 2010) проблем нет, только в некоторых местах нахожу оборванные фразы. Попросил пионэра вычитать текст, а он говорит, что у него все нормально. Задумался и скопировал текст в блокнот. И вместо "Федерация" читаю "Фе де рация". Т.е. имеем принудительно добавленные скрытые пробелы. Вопрос - как их в явном виде показать в Ворде или в нем же удалить. Наверное у этого пустого символа есть код, но как его средствами ворда увидеть и удалить по всему тексту? p.s. Было бы только в некоторых словах удалил бы руками, но в 100 страницах текста их по десятку на строку. p.s.s. Показать и удалить символы надо обязательно, т.к. у пионэра папа дохтур (вместе работаем) и возможный наезд надо встретить 100 страницами по морде. |
МЮрий, в почту. Кажется я знаю как.
|
Как вариант-сохранить текст в PDF, потом через Акробат - снова в Word. Это если просто удалить. Если показать-иногда через антиплагиат показывает...
Hogfather, а можно и мне в личку? :o |
Все просто: http://apavlov.ru/obhod-antiplagiat-2/
|
Цитата:
|
Цитата:
|
Цитата:
|
Цитата:
Цитата:
Спасибо, теперь еще один вариант известен. |
Цитата:
|
На самом деле задачка оказалась весьма интересная. В документе присутствовало 2 вида "электронной борьбы" с антиплагиатом. Представьте себе документ на 200 страниц, содержащий 2 (два) миллиона знаков. Поделили? Ну, и для полноты ощущений представьте, что еще каждое слово разбито форматированием на несколько частей.
Xml фаил (document.xml), находящийся в архиве (для тех кто не в курсе, docx можно распаковать в папку) занимает 80 Мб. Это без рисунков, если что, рисунки и вложения распиханы по папочкам. 1. Word 2016 для Win и MacOS не открывают исходник 2. Word 2013 для Win не открывает исходник 3. Как обычно выручил LibreOffice 5, но при замене албанских символов на машине без SSD диска виснет и вылетает по таймауту. 4. Etxt Антиплагиат разбиение слова форматированием игнорирует, в то же время оригинальность "до обработки" составляла 33%, оригинальность "после обработки" 18%. Антиплагиат.ру тупо показывает оригинальность 86%. Как говорится, хозяйке на заметку. Отсюда возникает простенькая задачка, на которую сейчас, увы, совсем нет времени. Небольшой скрипт на Perl, который в document.xml будет удалять все албанские символы и непонятное форматирование. Посмотрим, если такую ерунду увижу весной у студентов, то точно не поленюсь и напишу. |
В дополнение к ответу Hogfather:
1) MSWord 2010 файл открывает и размерчик у него под 9Мб. Файл почти не листается, т.к. Ворд подвисает. 2) Немного выручила отправка файла на Гугл почту. При открытии письма Гугл предлагает открыть файл в своем редакторе и вот она первая победа - файл теряет в размере до 2Мб. И по крайней мере начинает листаться. Что в нем вырезалось - загадка. 3) Пи - естественно ни чего не показывает, но встав курсором на конец абзаца (сразу после точки) нажатием Шифта и стрелочки двигаемся до конца не видимой части. Эту не видимую хрень вставляем в заменить (поле заменить на что оставляем пустым). В итоге еще около 4000 замен (стираний) этой не видимой хрени. Ворд уже почти летает. 4) осталось не видимое разбиение слов Цитата:
Hogfather, спасибо. |
А как изначально делается это принудительное разбиение слов? Мне студентка тоже принесла такую статью. Божилась, что ничего с текстом не делала...((((
Благо объем статьи небольшой. Etxt показал хорошую уникальность, но ошибки тоже показал, позволил заподозрить неладное. Удалила все пробелы в словах механически после переноса текста из Etxt обратно в word, студентке дала задание обработать остаток статьи и потом проверить на антиплагиат. Прошло 2 недели, про статью она больше не заикается...))))) |
Текущее время: 08:39. Часовой пояс GMT +3. |
Powered by vBulletin® Version 3.8.8
Copyright ©2000 - 2024, vBulletin Solutions, Inc. Перевод: zCarot
© 2001—2024, «Аспирантура. Портал аспирантов»