Ниже показан пример создания настройки парсинга сайта с помощью Парсинг сайтов - мониторинг цен конкурентов 2.0
Возьмём сайт конкурент - http://sportmax66.ru/
Необходимо настроить обработку на периодический парсинг цен товаров этого сайта.
Наш парсер по умолчанию обходит все странички сайта. Наша задача чтобы парсер считывал только нужные нам странички с максимальной возможной скоростью и чтобы эти странички содержали для нас максимум информации.
Вначале проанализируем сайт.
Каталог товаров находиться по адресу http://sportmax66.ru/sportivnoe-pitanie/catalog.html
Очевидно нам надо парсить адреса, содержащие слова *sportmax66.ru/sportivnoe-pitanie/catalog.html* на этих страничках есть вся удовлетворяющая информация (наименование, производитель, количество, картинка, цена)
Парсить странички, содержащие карточку товара нет смысла, там нет критически важной для нас информации (дополнительное описание товара, страна производитель - этой информацией можно пожертвовать ради скорости парсинга), таким образом мы спарсим примерно 50 страничек, вместо 1000 - ощутимая выгода во времени!
Настраиваем работу парсера:
Поле "Откуда начинать" - http://sportmax66.ru/sportivnoe-pitanie/catalog.html
Т.к. те же самые товары доступны по адресам , содержащее слово brands, добавим шаблон *brands* в запрещённые адреса - нам не нужно проходиться по несколько раз по одним и тем же товарам
В результате парсет будет считывать странички вида .....http://sportmax66.ru/sportivnoe-pitanie/catalog.html?p=3, http://sportmax66.ru/sportivnoe-pitanie/catalog.html?p=4 .... , т.е. весь каталог
Теперь настроим получение информации с этих страничек. Каждому элементу парсинга пропишем Xpath пути.
Всё делаем по этой статье - Хорошая статья на тему создания Xpath путей, это занимает примерно 10 минут
Вот что получилось
Запускаем парсинг сайта - примерно 2 минуты парсинга, получаем результат:
Затем в зависимости от задачи на основании этой номенклатуры можно создать собственную, синхронизировать с уже имеющиейся собственной номенклатурой и сравнивать цены - Парсинг сайтов - мониторинг цен конкурентов 2.0