Сравнение информационных систем автоматической проверки оригинальности текстов

Библиографическое описание статьи для цитирования:
Звонникова Е. Д. Сравнение информационных систем автоматической проверки оригинальности текстов // Научно-методический электронный журнал «Концепт». – 2015. – № 8 (август). – С. 126–130. – URL: http://e-koncept.ru/2015/15282.htm.
Аннотация. В статье представлены проблемы неправомерного заимствования докладов, рефератов, курсовых, дипломных работ в учебных заведениях. Рассмотрены и проанализированы принципы функционирования и примеры систем для проверки оригинальности текстов. На основе специальным образом подготовленных примеров автором было проведено сравнение нескольких систем автоматической проверки текстов на оригинальность.
Комментарии
Нет комментариев
Оставить комментарий
Войдите или зарегистрируйтесь, чтобы комментировать.
Текст статьи
Звонникова Е. Д.Сравнение информационных систем автоматической проверки оригинальности текстов// Концепт. –2015. –№ 08(август).–ART15282. –0,4п.л. –URL: http://ekoncept.ru/2015/15282.htm.–ISSN 2304120X. 1

ART15282УДК 004.912

Звонникова Екатерина Дмитриевна,

студентка ФГБОУ ВПО «Волгоградский государственный социальнопедагогический университет», г. Волгоградzvonnikova.katya@yandex.ru

Сравнение информационных систем автоматической проверки оригинальности текстов

Аннотация. В статье представлены проблемы неправомерного заимствования докладов, рефератов, курсовых, дипломных работ в учебных заведениях. Рассмотрены и проанализированы принципы функционирования и примеры систем для проверки оригинальности текстов. На основе специальным образом подготовленных примеров автором было проведено сравнение нескольких систем автоматической проверки текстов на оригинальность. Ключевые слова:оригинальность текста, информационная система, онлайнсервис, антиплагиат, уникальность.Раздел:(03) философия; социология; политология; правоведение; науковедение.

Современное развитие информационных технологий и глобальной сети Интернет предоставило широким кругам пользователей доступ к огромным массивам информации. Появилось большое число онлайнбиблиотек, содержащих художественную и научнотехническую литературу, коллекцийрефератов, готовых лабораторных работ, курсовых и дипломных проектов и даже диссертаций; стало доступно множество методических указаний, курсов лекций, учебников и т.д. Использование компьютерной техники сильно облегчило задачу поиска и копирования подобной информации. Если раньше для написания реферата или контрольной работы информацию было нужно по крайней меренайти в книгах и переписать, то теперь достаточно ввести название темы в поисковую систему и скопировать найденные материалы. В связи с этим стал распространяться метод написания работ, заключающийся в простом копировании информации из одного или нескольких источников с минимальным редактированием. Такая ситуация, в частности, наблюдается с подготовкой докладов, рефератов, курсовых, семестровых и дипломных работ в учебных заведениях. Одним из решений данной проблемы является использование систем автоматической проверки оригинальности текста в целях совершенствования организации и контроля учебного процессавуниверситете, обеспечения самостоятельности выполнения выпускных квалификационных и курсовых работ, соблюдения обучающимися прав интеллектуальной собственности. Следовательно, весьма важным представляется вопрос о сравнении информационных систем подобного рода. Это и обусловило тему данной статьи. Рассмотрим примеры систем для автоматической проверки оригинальности текстов, раскроем принципы их функционирования и проведем сравнение результатов работы.Нами были выбраны системы, позволяющие осуществлять проверку оригинальности текста либо без регистрации, либо в бесплатном аккаунте: Антиплагиат.ru, Copyscape.ru, Автор.net, Findcopy.ru. В системе «Антиплагиат» (http://www.antiplagiat.ru/),согласно официальному описанию системы [1],работа по проверке текста на оригинальность состоит из следующих этапов.Звонникова Е. Д.Сравнение информационных систем автоматической проверки оригинальности текстов// Концепт. –2015. –№ 08(август).–ART15282. –0,4п.л. –URL: http://ekoncept.ru/2015/15282.htm.–ISSN 2304120X. 2

1.Сбор информации из различных источников: сайты Интернета, базы научных статей и рефератов и т.д. Загруженные документы проходят процедуру фильтрации, основанную на уникальной технологии очистки текста, в результате которой отбрасывается бесполезная с точки зрения потенциального цитирования информация.2.Каждый из полученных текстов определенным образом форматируется и заносится в системную базу данных. Таким образом, на входе система принимает файл, а на выходе по всем тем фрагментам текста, на которые система нашла похожие аналоги в Интернете (этот фрагмент соответственно выделяется), выдается ссылка, где он мог быть скачан. Также подсчитывается вероятность заимствования фрагмента: 100%–фрагмент заимствован в исходном виде, если вероятность меньше –то вофрагменте могут быть переставлены какието слова, изменены словоформы, разбито предложение, слова заменены синонимами, произведены прочие манипуляции с текстом.Зарегистрированные пользователи, имеющие бесплатный доступ, после проверки получают отчет, в котором указан процент оригинальности и список источников заимствования. Пользователи, которые подключили платный аккаунт, получают возможность проверки по дополнительным базам, просмотра полного отчёта с указанием ссылок на источники. Загружаемые тексты проверяются по следующим базам:1.Модуль поиска по сети Интернет, включающий коллекции рефератов, научные публикации, русскоязычные статьи Википедии.2.Коллекции дипломных работ некоторых вузов.3.Коллекции диссертаций Российской государственной библиотеки (diss.rsl.ru).4.Коллекции юридических документов LEXPRO. 5.Коллекции научной электронной библиотеки elibrary.ru.Отметим, что пункты 3–5 доступны пользователямс платными аккаунтами.Другой онлайнсервис,Findcopy.ru(http://findcopy.ru/), проверяет текстна уникальность, опираясьв основномна сайты сети Интернет.Для работы достаточно бесплатно зарегистрироваться на сайте и пройти авторизацию. В среднем проверка текста осуществляется в течение 45 секунд. Текст, подготовленный для проверки, необходимо разместить в специальном поле на странице ресурса. Альтернативным способом является проверка оригинальности текста вебстраницы, в этом случае достаточно указать ее URLадрес [2].Согласно [3],система«Автор.NET» (http://ceurws.org/) осуществляет проверку как по источникам, доступным в сети Интернет так и по собственным источникам (базам статей, курсовых и контрольных работ, дипломных проектов и т.д.). По результатам проверки формируется отчет с подсветкой найденных заимствований и возможностью просмотра найденных источников. Как отмечается в [4], система включает в себя два модуля, функционирующихнезависимо друг от друга:1.Первый осуществляет проверку по внутренней базе источников.2.Второйпроводит проверку по источникам сети Интернет. Для этих целей текст проверяемого документа разбивается на информативные фрагменты, число которых зависит от размера документа. Число таких фрагментов зависит от размера документа. Далее с использованием поисковых систем проводится поиск источников, содержащих указанные информативные фрагменты. Для осуществления поиска модуль использует Яндекс.XML, а также доступ к онлайнпоиску систем Google.ru, Rambler.ru, Aport.ru, Поиск.Mail.ru, Nigma.ru и т.д. Полученные таким образом источники проверяются затем на соответствие исходному документу. Для этого определяется форматисточника (htmlдокумент, txtфайл, docили rtfдокумент, pdfфайл). В Звонникова Е. Д.Сравнение информационных систем автоматической проверки оригинальности текстов// Концепт. –2015. –№ 08(август).–ART15282. –0,4п.л. –URL: http://ekoncept.ru/2015/15282.htm.–ISSN 2304120X. 3

случае htmlдокумента из источника удаляются теги разметки. Файлы *.doc, *.rtf и *.pdf преобразуются, если это возможно, в обычный текстовый формат без разметки. Далее источники проходят предварительную обработку,и затем проводится оценка их сходства с исходным документом.Сервис Copyscape(www.copyscape.com)используется для проверки оригинальности контента русскоязычных и англоязычных текстов, опубликованных в сети Интернет. Для проверки необходимо указать URLадрес проверяемого ресурса.В этом сервисе количество запросов с одного IPадреса ограничено, также ограничения распространяются на просмотр результатов поиска совпадений: в бесплатном аккаунте представляются только первые 10 [5]. На основе работ [6–8] и собственного изучениярассматриваемых сервисов можно сформулировать главныепринципы функционирования систем проверки текста на оригинальность.Вопервых, проверяемый исходный текст проходит предварительную обработку, которая включает следующие действия:1.Исключение из текста знаков препинания и спецсимволов.2.Преобразование регистра.3.Преобразование латинских букв в русских словах на аналогичные буквы русского алфавита для текстов на русском языке.4.Удаление стопслов (предлоги, наречия и т.д.) и знаков препинания.5.Фильтрация текста: удаление неинформативных, наиболее распространенных, редко встречающихся слов и т.д.6.Обработка (отбрасывание) окончаний слов.Вовторых, для оригинального или обработанного текста определяется индекс его оригинальности. При этом различные способы индексирования преследуют различные цели –ускорение поиска, сокращение размера поисковой базы, устойчивость к ошибкам или опечаткам, устойчивость к преобразованиям текста и т.д. Для сравнения работы сервисов при проверке оригинальности текстов нами был проведен следующий эксперимент.Было подготовлено несколько текстов:1.Текст, созданный на основе лекции по дисциплине «Теория чисел» со специальной терминологией.2.Текст, полученный на основе статьи из электронного журналас заменой некоторых слов на синонимы. В тексте также используются специальные термины.3.Текст без использования терминов, сложных оборотов, сложносочиненных и сложноподчиненных предложений. Текст является полностью оригинальным, так как был составлен автором статьи.4.Текст, полученный из диктанта для учеников5х классовс заменой некоторых слов на синонимы.Данные тексты были проверены на системах Антиплагиат.ru и Findcopy.ru. Выбор систем обусловлен следующими причинами:1.Система «Антиплагиат» выбрана ФГБОУ ВПО «ВГСПУ» в качестве системы проверки оригинальности текстов курсовых работ, ВКР и магистерских диссертаций. По результатам проверки именной в этой системы указанные работы получают допуск к защите.2.Данные системы являются весьма известными в Рунете.3.В обеих системах есть функции по проверке текстов из бесплатных аккаунтов.По первому проверяемому тексту в бесплатном аккаунте системы «Антиплагиат»были получены следующие результаты:оригинальность: 50,44%, Звонникова Е. Д.Сравнение информационных систем автоматической проверки оригинальности текстов// Концепт. –2015. –№ 08(август).–ART15282. –0,4п.л. –URL: http://ekoncept.ru/2015/15282.htm.–ISSN 2304120X. 4

заимствование: 49,56%,цитирование: 0%, количество источников: 20. Стоит заметить, что все 20 источников расписаны в подробной информации о данном тексте, указаныссылка, источник и дата создания документа в сети Интернет. Проверка этого же текста в версии системы «Антиплагиат»для ФГБОУ ВПО «ВГСПУ»определила сложный индекс читаемости, оригинальность –53,38% и 6 источников.Результаты проверки этого же текста на ресурсе Findcopy.ru показали оригинальность текста 58% и 3 источника (Window.edu.ru –35.1%, Almath.ru –31.2%, Isusibadi.ru –19.5%)Второй текст взятиз статьи электронного журнала с заменой некоторых слов на синонимы. В этом тексте, так же как и в первом, используется сложная терминология, количество символов 217. В обеих версиях системы «Антиплагиат»получены следующие данные: оригинальность: 100%,заимствование: 0%, цитирование: 0%. Такой результат может означать то, что в базе системы проверки текста на оригинальность не существует статей из ряда весьма известных электронных журналов. Вопрос о внесении их в базу пока остается открытым.Проверка второго текста на Findcopy.ru выявила оригинальность текста 16,2%;приведен один источник–lasola.ru (83,8%).Третий текстспециально разработан автором для сравнения рассматриваемых систем, в нем нет заимствований и специальной терминологии, количество символов: 309. И в свободной версии системы «Антиплагиат»,и в версии для ФГБОУ ВПО «ВГСПУ»получены следующие данные: оригинальность: 44,56%,заимствование: 55,44%,цитирование: 0%,8 источников.Проверка третьего текста на сервисе Findcopy.ru показала стопроцентную оригинальность текста.Четвертый проверяемый текст взят из сборника диктантов для учеников 5х классов, при этом некоторые слова были заменены на синонимы.Количество символов: 183. В свободной версии системы «Антиплагиат»получены следующие данные: оригинальность: 34,64%;заимствование: 65,36%;цитирование: 0%,16 источников.Проверка этого же текста в версии системы «Антиплагиат»для ФГБОУ ВПО «ВГСПУ»показала 37,15% оригинальных блоков и 2 источника, выделены коллекции поиска «Интернет»и «РГБ, диссертации».В результате проверки четвертого текста на сервисе Findcopy.ru оригинальность составляет 28,8%, описано 3 источника (www.4egena100.info–70,7%, Svetlanal.ru –69,6%, Otbet.ru.com –36,4%)Звонникова Е. Д.Сравнение информационных систем автоматической проверки оригинальности текстов// Концепт. –2015. –№ 08(август).–ART15282. –0,4п.л. –URL: http://ekoncept.ru/2015/15282.htm.–ISSN 2304120X. 5

Результаты сравнения показали, что система «Антиплагиат.ru» осуществляет поиск по нескольким коллекциям источников, представленным выше. Она описывает подробно большое количество источников, что является большим плюсом данной системы.Тем не менеесистема имеет ряд недостатков. Вопервых, система не осуществляет поиск по всем документам, доступным в сети Интернет. Особенно это касается тематических сайтов и новостных порталов: большое число заимствований осуществляется именно с таких источников. Явный пример–проверка второго текста,взятого полностью из электронного издания. Данная система, проверив его, показала 100% уникальности текста. Следовательно, даже при полном дублировании подобной информациисистема «Антиплагиат» соответствий не обнаружит. Вовторых, в бесплатной версии присутствует ограничение размера проверяемого текста 3000 или 5000 символами (доступно после регистрации). Втретьих, ограничен просмотр документов, частично соответствующих проверяемому тексту. Кроме того, система ограничивает возможность проверки по базе имеющихся работ. К достоинствам системы Findcopy.ru можно отнести возможность поиска не по отдельным коллекциям, а по всем документам, доступным в сети Интернет. Примером является проверка второго текста, где данная система показала 16,2% уникальности, а «Антиплагиат.ru»–100%. Также присутствует ограничение размера проверяемого текста, однако длиной до 10000 знаков. Основным недостатком Findcopy.ruявляется то, что она не описывает подробно источники, а только указывает ссылку на него и количество процентов,взятых из данного источника. В результате данного сравнения можно сделать вывод, что различия в полученных результатах обусловленыв первую очередь отличиями баз систем, где проверяется загруженный текст. Некоторые системы проверяют текст только в Интернете, на определенных сайтах, однако у ряда существует и своя, регулярно пополняющаяся база. Следовательно, для получения наиболее оптимального и объектового результата по заимствованию в тексте можно рекомендовать использовать несколько систем, а не полагаться на результат одной.

Ссылки на источники1.Антиплагиат. –URL:http://www.antiplagiat.ru/2.Findcopy. –URL:http://mastersloga.ru/news/novyj_servis_proverki_unikalnosti_findcopy_ru/

3.Обзор Автор.NET. –URL:http://ceurws.org/

4.Там же.5.Обзорcopyscape.com.–URL:http://profycopywriting.ru/copyscape.html.6.Власова М. С., Суханов О. В. Технические средства для борьбы с плагиатом в целях повышения качества учебного процесса // Вестник гражданских инженеров. –2012. –№ 6 (35). –С. 187–192.7.Хачецуков З.М. Проверка на оригинальность научных текстов: вопросы теории и практики // Гуманитарий Юга России. –2014. –№ 1. –С. 166–179.8.Чиркин Е.С. Системы автоматизированной проверки на неправомерные заимствования// Вестник Тамбовского университета. Серия: Гуманитарные науки. –2013.–№ 12(128). –С. 164–174.

Ekaterina Zvonnikova,

Student, Volgograd State SocialPedagogical University, Volgogradzvonnikova.katya@yandex.ruComparison of information systems of automatic check of original textsAbstract.The paper presents the problem of unauthorized borrowing reports, abstracts, coursework, theses in educational institutions. The author reviews and analyzes the principles of operation and examples of checking system of original texts. Based on a specially prepared examples several automatic check systems of text originality were compared.Keywords:original text, information system, online service, antiplagiarism, originality.References1.Antiplagiat.Available at: http://www.antiplagiat.ru/(in Russian).Звонникова Е. Д.Сравнение информационных систем автоматической проверки оригинальности текстов// Концепт. –2015. –№ 08(август).–ART15282. –0,4п.л. –URL: http://ekoncept.ru/2015/15282.htm.–ISSN 2304120X. 6

2.Findcopy.Available at: http://mastersloga.ru/news/novyj_servis_proverki_unikalnosti_findcopy_ru/ (in Russian).3.Obzor Avtor.NET.Available at: http://ceurws.org/ (in Russian).4.Ibid.5.Obzor copyscape.com.Available at: http://profycopywriting.ru/copyscape.html(in Russian).6.Vlasova, M. S. & Suhanov, O. V. “Tehnicheskie sredstva dlja bor'by s plagiatom v celjah povyshenija kachestva uchebnogo processa”, Vestnik grazhdanskih inzhenerov, 2012, № 6 (35), pp. 187–192(in Russian).7.Hachecukov,Z. M. (2014) “Proverka na original'nost' nauchnyh tekstov: voprosy teorii i praktiki”,Gumanitarij Juga Rossii, № 1, pp. 166–179(in Russian).8.Chirkin,E. S.(2013)“Sistemy avtomatizirovannoj proverki na nepravomernye zaimstvovanija”,Vestnik Tambovskogo universiteta. Serija: Gumanitarnyenauki,№ 12(128), pp. 164–174(in Russian).

Рекомендованокпубликации:

Утёмовым В. В., кандидатом педагогических наук;ГоревымП. М., кандидатом педагогических наук, главным редактором журнала «Концепт»



Поступила в редакциюReceived15.05.15Получена положительная рецензияReceived a positivereview17.05.15ПринятакпубликацииAccepted for publication17.05.15ОпубликованаPublished29.08.15

© Концепт, научнометодический электронный журнал, 2015©Звонникова Е. Д., 2015

www.ekoncept.ru