Простой парсер информации с сайтов

Автор: Parser | 19.08.2020

Простой парсер

Для облегчения рутинной работы по сбору информации, предназначен простой парсер сайтов - Scraper. Парсер Scraper – это расширение для браузера Chrome с ограниченными функциями парсинга данных, но оно будет полезно многим для анализа и экспорта данных в Google Spreadsheets.
Этот простой парсер данных, предназначен как для новичков, так и для экспертов, которые могут легко скопировать данные в буфер обмена или хранилище в виде электронных таблиц, используя OAuth.
Парсер достаточно простой, в нем нет полной автоматизации или поисковых ботов, как у других инструментов, но это можно рассматривать даже как преимущество, особенно для новичков, поскольку его не нужно подолгу настраивать, чтобы получить в итоге нужный результат.
Scraper работает прямо в браузере и автоматически генерирует XPaths для поиска URL, которые нужно передать. Xpath — это язык запросов к элементам xml или xhtml документов. Чтобы получить нужные данные, необходимо создать запрос, описывающий эти данные. Остальную работу выполнит интерпретатор языка xpath. Для тех, кто захочет познакомиться с Xpath поближе — есть учебник XPath.

Некоторые примеры использования Xpath для парсинга информации с сайтов

Простой парсер информации с сайтов

  1. Текст заголовка h1 — //h1/text ()
  2. Текст ссылки — //a/text ()
  3. URL значение атрибута href ссылки — //a/@href
  4. Изображение src — //img/@src

Чтобы найти XPath элемента на странице необходимо:

  • Перейти на нужную страницу
  • Выделить элемент и щелкнуть по нему правой кнопкой мыши
  • В открывшемся окне выбрать пункт «Просмотреть код»
  • В открывшейся консоли выделить элемент мышкой и нажать правую кнопку мыши
  • В открывшемся меню выбрать пункт «Copy» и «Copy XPath»

Работа парсера Scraper

После загрузки расширения откройте нужный вам сайт, выделите требуемую область страницы с данными, которые нужно собрать.
Затем щелкните правой кнопкой мыши, вы увидите параметр с названием «Scrape similar» (Собрать похожие). Щелкните по пункту «Scrape similar».
Откроется окно парсера, в котором вы увидите извлеченное содержимое в виде таблицы.
В разделе «Selector» можно выбрать, какие элементы страницы будут извлекаться. Вы можете указать запрос как селектор jQuery или в XPath.
Вы можете экспортировать данные, нажав “Export to Google Docs” (экспорт в Google Документы), чтобы загрузить и сохранить содержимое в виде таблицы Google. Также вы можете настроить столбцы таблицы и указать имена для них. После настройки необходимо нажать кнопку «Scrape» (Сбор данных), чтобы обновить результаты таблицы.

Парсер Scraper

Ниже рассмотрим некоторые примеры использования парсера для сбора данных, которые могут пригодиться при работе с сайтами.

Примеры парсера

Заходим на сайт Яндекс.Вордстат. Выбираем если нужно регион. Вводим ключ  и нажимаем «Подобрать».
Далее выделяем мышкой два заголовка таблицы «Статистика по словам» и «Показов в месяц». Нажимаем правой кнопкой мыши на любом выделенном столбце и в контекстном меню выбираем «Scrape similar», как показано на скриншоте. Откроется окно парсера с результатами которые можно сохранить где вам удобно.

  • Работает как парсер ключевых слов сервиса Мутаген

Примеры использования парсера

Работает аналогично вордстат. Выделяем мышкой первый результат и нажимаем «Scrape similar».

  • Еще  одна из возможностей, это парсинг ссылок с карты сайта, меню и рубрик. Работает аналогично.

Также нужно отметить, что этот простой парсер используется для простых и средних задач и для данных которые находятся на одной странице.

Скачать

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *