Просмотр полной версии : левые символы
Прислали мне на проверку текст.
С виду (в Ворде 2010) проблем нет, только в некоторых местах нахожу оборванные фразы. Попросил пионэра вычитать текст, а он говорит, что у него все нормально. Задумался и скопировал текст в блокнот. И вместо "Федерация" читаю "Фе де рация".
Т.е. имеем принудительно добавленные скрытые пробелы.
Вопрос - как их в явном виде показать в Ворде или в нем же удалить. Наверное у этого пустого символа есть код, но как его средствами ворда увидеть и удалить по всему тексту?
p.s. Было бы только в некоторых словах удалил бы руками, но в 100 страницах текста их по десятку на строку.
p.s.s. Показать и удалить символы надо обязательно, т.к. у пионэра папа дохтур (вместе работаем) и возможный наезд надо встретить 100 страницами по морде.
Hogfather
11.02.2016, 22:20
МЮрий, в почту. Кажется я знаю как.
Джульетта из Вероны
11.02.2016, 22:28
Как вариант-сохранить текст в PDF, потом через Акробат - снова в Word. Это если просто удалить. Если показать-иногда через антиплагиат показывает...
Hogfather, а можно и мне в личку? :o
Hogfather
11.02.2016, 22:31
Все просто: http://apavlov.ru/obhod-antiplagiat-2/
http://apavlov.ru/obhod-antiplagiat-2/
Спасибо. сейчас попробую причесать текст.
Вопрос - как их в явном виде показать в Ворде или в нем же удалить
Нажать в меню кнопочку "Пи" (Непечатаемые знаки). Выделить. В меню поиска и замены вставить в поле поиска, оставив поле замены пустым. "Заменить все".
Все просто: http://apavlov.ru/obhod-antiplagiat-2/
чего только не придумают...
Все просто
чего только не придумают...
Года два уже студиозам предлагаю "сделку" с рефреном "если вы обойдете антиплагиат в тексте и я этого не замечу, потом расскажете как -- зачет автоматом" Пока не никто не подходил. Хороших оригинальных текстов так же не приносят, поэтому версию о том что знают, но не говорят, отвергаем.
Спасибо, теперь еще один вариант известен.
теперь еще один вариант известен.
там у этого товарища по соседству есть еще две заметки на эту же тему. Если не видели - взгляните и на них
Hogfather
12.02.2016, 09:25
На самом деле задачка оказалась весьма интересная. В документе присутствовало 2 вида "электронной борьбы" с антиплагиатом. Представьте себе документ на 200 страниц, содержащий 2 (два) миллиона знаков. Поделили? Ну, и для полноты ощущений представьте, что еще каждое слово разбито форматированием на несколько частей.
Xml фаил (document.xml), находящийся в архиве (для тех кто не в курсе, docx можно распаковать в папку) занимает 80 Мб. Это без рисунков, если что, рисунки и вложения распиханы по папочкам.
1. Word 2016 для Win и MacOS не открывают исходник
2. Word 2013 для Win не открывает исходник
3. Как обычно выручил LibreOffice 5 (https://ru.libreoffice.org/download/), но при замене албанских символов на машине без SSD диска виснет и вылетает по таймауту.
4. Etxt Антиплагиат (https://www.etxt.ru/antiplagiat/) разбиение слова форматированием игнорирует, в то же время оригинальность "до обработки" составляла 33%, оригинальность "после обработки" 18%. Антиплагиат.ру (http://www.antiplagiat.ru/) тупо показывает оригинальность 86%. Как говорится, хозяйке на заметку.
Отсюда возникает простенькая задачка, на которую сейчас, увы, совсем нет времени.
Небольшой скрипт на Perl, который в document.xml будет удалять все албанские символы и непонятное форматирование. Посмотрим, если такую ерунду увижу весной у студентов, то точно не поленюсь и напишу.
В дополнение к ответу Hogfather:
1) MSWord 2010 файл открывает и размерчик у него под 9Мб. Файл почти не листается, т.к. Ворд подвисает.
2) Немного выручила отправка файла на Гугл почту. При открытии письма Гугл предлагает открыть файл в своем редакторе и вот она первая победа - файл теряет в размере до 2Мб. И по крайней мере начинает листаться. Что в нем вырезалось - загадка.
3) Пи - естественно ни чего не показывает, но встав курсором на конец абзаца (сразу после точки) нажатием Шифта и стрелочки двигаемся до конца не видимой части.
Эту не видимую хрень вставляем в заменить (поле заменить на что оставляем пустым). В итоге еще около 4000 замен (стираний) этой не видимой хрени. Ворд уже почти летает.
4) осталось не видимое разбиение слов
Небольшой скрипт на Perl
мне не под силу, но будем стараться далее, может на просторах Интернету это уже кто-то делал, но, по крайней мере, с текстом уже как-то можно работать.
Hogfather, спасибо.
svetl@n@
14.02.2016, 21:24
А как изначально делается это принудительное разбиение слов? Мне студентка тоже принесла такую статью. Божилась, что ничего с текстом не делала...((((
Благо объем статьи небольшой. Etxt показал хорошую уникальность, но ошибки тоже показал, позволил заподозрить неладное. Удалила все пробелы в словах механически после переноса текста из Etxt обратно в word, студентке дала задание обработать остаток статьи и потом проверить на антиплагиат. Прошло 2 недели, про статью она больше не заикается...)))))
vBulletin® v3.8.8, Copyright ©2000-2025, vBulletin Solutions, Inc. Перевод: zCarot