Веб-скрейпинг (парсинг) общедоступной информации


Веб-скрейпинг (парсинг) общедоступной информации

Веб-скрейпинг (парсинг) — это процесс автоматического извлечения данных с веб-сайта с помощью скриптов. Скрипт — это программа, которая последовательно выполняет список однотипных задач. Такие скрипты называют парсерами. Они собирают данные, интерпретируют их для последующей систематизации, преобразуют и сохраняют в  структурированном формате (например, файл Excel или XML).

Огромным преимуществом парсинга является ускорение рутинной работы по сбору и систематизации информации.

Так, в маркетинге инструменты парсинга применяются для сбора и анализа:

  • информации о ценах;
  • ключевых слов;
  • целевой аудитории в социальных сетях;
  • отзывов.

Правовое регулирование парсинга как процесса автоматизированного сбора информации на сегодняшний день отсутствует. По общему правилу автоматизация законна, закон не запрещает использовать любые методы сбора общедоступной информации.

Безусловно, есть ограничения, связанные с парсингом, в частности:

  • использование полученных данных для спама или плагиата – это влечет административную и уголовную ответственность соответственно;
  • распространение персональных данных;
  • перегрузка парсером сервера (DDoS-атака).

Правовая неопределенность в части использования данных, полученных в результате парсинга, и передачи их третьим лицам порождает судебные споры. Наиболее интересное дело – «ВКонтакте» против «Дабл» (дело № А40-18827/2017).

Требования «Вконтакте» сводились к следующему:

  1. Признать незаконными действия ответчика по извлечению и последующему использованию информационных элементов из базы данных пользователей социальной сети «ВКонтакте» по причине нарушения исключительных прав «Вконтакте» как изготовителя базы данных ВК.
  2. Обязать прекратить нарушение исключительных прав «Вконтакте», в частности извлечение и неоднократное использование информационных материалов из базы данных ВК;
  3. Уничтожить со всех информационных носителей информационные элементы, ранее извлеченные из базы данных ВК.

Как мы уже упоминали, практика по такой категории дел не сформирована. Из-за этого судебное разбирательство затянулось на 5 лет и прошло 2 (!) круга в трех инстанциях. Примечательно, что суды приходили к диаметрально противоположным выводам. Разбирательство в итоге закончилось заключением мирового соглашения, но обо всем по порядку.

Для удобства мы разбили материал на несколько статьей.

Сначала остановимся на нормативной базе, которая лежит в основе рассмотрения таких дел.

Правовая основа

По смыслу статьи 1260 Гражданского кодекса Российской Федерации (далее – ГК РФ) базой данных является представленная в объективной форме совокупность самостоятельных материалов (статей, расчетов, нормативных актов, судебных решений и иных подобных материалов), систематизированных таким образом, чтобы эти материалы могли быть найдены и обработаны с помощью электронной вычислительной машины (ЭВМ). При этом изготовителем базы данных в соответствии со статьей 1333 ГК РФ признается  лицо, организовавшее создание базы данных и работу по сбору, обработке и расположению составляющих ее материалов.

Изготовителю базы данных, создание которой (включая обработку или представление соответствующих материалов) требует существенных финансовых, материальных, организационных или иных затрат, принадлежит исключительное право извлекать из базы данных материалы и осуществлять их последующее использование в любой форме и любым способом.

При отсутствии доказательств иного базой данных, создание которой требует существенных затрат, признается база данных, содержащая не менее десяти тысяч самостоятельных информационных элементов (материалов), составляющих содержание базы данных (статья 1334 ГК РФ).

Статьей 1335.1 ГК РФ установлены пределы использования обнародованной базы данных. Так, без нарушения исключительных прав изготовителя базы данных допускается извлекать из базы данных материалы и осуществлять их последующее использование:

  • в целях, для которых база данных предоставлена, в любом объеме, если иное не предусмотрено договором;
  • в личных, научных, образовательных целях в объеме, оправданном указанными целями;
  • в иных целях в объеме, составляющем несущественную часть базы данных.

При этом пунктом 3 указанной статьи установлен запрет на неоднократное извлечение или использование материалов, составляющих несущественную часть базы данных, если такие действия противоречат нормальному использованию базы данных и ущемляют необоснованным образом законные интересы изготовителя базы данных.

В следующей статье мы перейдем к практике и посмотрим, к чему пришли суды в ходе первого круга рассмотрения дела.

Источники:

  1. Бурибаев Т.Н., Гачина А.А. Допустимость парсинга в отношении информации, доступной неопределенному кругу лиц (на примере дела ВК против Дабл N А40-18827/2017) // Журнал «Журнал Суда по интеллектуальным правам», № 35, март 2022 г., с. 59-70.
  2. https://blog.apify.com/what-is-web-scraping/
  3. Выдержки из гражданского кодекса: СПС «Консультант плюс» — https://www.consultant.ru/cons/cgi/online.cgi?req=home&rnd=Itbr0Q

Изображение (в тексте статьи): https://blog.apify.com/what-is-web-scraping/