Парсер контактной информации с сайта 2gis.ru от 23.03.2019

Публикация № 1023885

Обмен - Интеграция с WEB

2gis.ru 2gis Парсер сайта Сбор информации обработка Контакты

20
Получение контактной информации с сайта 2gis.ru.

Простая универсальная обработка для сбора контактной информации.

После указания ссылки на сайт 2gis.ru обработка выполняет сбор информации, при этом она отрабатывает все страницы который выдал сайт по Вашему запросу.

При обработке страниц заполняется доступная информация о:
 - Наименование организации
 - Адрес организации
 - Телефоны
 - Email
 - Группа в VK
 - Сайт
 - Описание
 - Группа в "Одноклассниках"
 - facebook.com
 - twitter.com
 - instagram.com
 - прочая информация (обычно канал на youtube.com)

Информация собирается посредством HTTP запросов из 1С.

При необходимости можно перенести в регламентное задание и соответственно по расписанию собирать информацию по необходимым критериям поиска.

 

Обработка реализована на управляемых формах.

Тестировалось на конфигурациях:

Управление автосалоном 1.0.10 платформа 1С:Предприятие 8.3 (8.3.8.2054);

Управление торговлей, редакция 11 (11.3.4.21)  платформа 1С:Предприятие 8.3 (8.3.10.2580);

Бухгалтерия предприятия КОРП, редакция 3.0 (3.0.52.36) платформа 1С:Предприятие 8.3 (8.3.10.2580)

 

Обновление от 23.03.2019

К сожалению после того как выложил обработку в общий доступ механизмы 2GIS изменил.

Обычными запросами победить не получилось, максимум до чего дошел это получение информации с первой страницы и получение временного ключа к api по которому происходить обращение к ресурсу http://catalog.api.2gis.ru с которого получается информация по остальным страницам и подгрузка данных если Вы используете мобильную версию сайта, но так несколько ключей и ключ сессии, ключ пользователя, ключ api разгадать получилось, но с остальными пока зашел в тупик. 

Пришлось просто автоматизировать сбор информации, через браузер, дольше и топорнее но результат есть.
 

20

Скачать файлы

Наименование Файл Версия Размер
Парсер контактной информации с сайта 2gis.ru v 1.00.2 от 23.03.2019:
.epf 11,69Kb
23.03.19
6
.epf 1.00.2 11,69Kb 6 Скачать

См. также

Специальные предложения

Комментарии
Избранное Подписка Сортировка: Древо
1. capitan 1193 19.03.19 16:25 Сейчас в теме
Не прибивают по количеству запросов ?
2. feniks_pro90 32 19.03.19 16:33 Сейчас в теме
(1) пока не было таких случаев, в обработке стоит задержка между запросами. Плюс в следующей версии будет возможность отправлять запросы через прокси сервера и если вдруг пробьют запрос то будет происходить подключение через прокси сервер.
3. capitan 1193 19.03.19 16:44 Сейчас в теме
Плюс однозначно. Поставил )
4. feniks_pro90 32 19.03.19 16:50 Сейчас в теме
(3) Спасибо) приятно. Скоро думаю еще интересные парсеры выложу, как руки дойдут)
5. TODD22 17 19.03.19 17:22 Сейчас в теме
(4)
Скоро думаю еще интересные парсеры выложу

А какие ещё планируются парсеры? Если руки дойдут :)
6. feniks_pro90 32 19.03.19 17:34 Сейчас в теме
(5) Уже реализованы и должны скоро появиться:
http://fssprus.ru Федеральная налоговая служба.
https://гибдд.рф ГИБДД
https://www.reestr-zalogov.ru/ Реестр залогов.
https://hh.ru Вакансии и работа.
http://kad.arbitr.ru Картотека арбитражных дел
это пока не полный список.
rpgshnik; JohnyDeath; Смешной 1С; TODD22; +4 Ответить
7. JohnyDeath 293 21.03.19 19:58 Сейчас в теме
(6) Отличные анонсы!
Суды арбитражные, мировые; налоговая; приставы - давно уже просят "оцифровать"
8. queit 64 22.03.19 04:36 Сейчас в теме
К сожалению не работает. Тело ответа пустое.
Не прикрыли ли лавочку? :-)
9. feniks_pro90 32 22.03.19 06:37 Сейчас в теме
(8)да немного изменили, через пару часов выложу исправление и плюс будет возможность работы через прокси. Тем кто скачал до этого дам ссылку на скачивание новой версии.
10. namazi74 2 23.03.19 10:03 Сейчас в теме
(9) получилось пробиться?
11. feniks_pro90 32 23.03.19 10:07 Сейчас в теме
(10)Да внесли большие изменения, и как назло так скоро после того как я выложил в открытый доступ обработку, до этого собирал нормально, сейчас пока получается разобрать первую страницу запроса, но есть идеи которые буду пробовать реализовать.
12. namazi74 2 23.03.19 10:13 Сейчас в теме
(11) пару лет назад коллега парсить их и самописными скриптами и покупным парсером. Всегда банят через несколько часов. У них нормальная система отлова парсеров. она собирает статистику по поведению и затем блочит. потом уже вручную проверяют.
13. feniks_pro90 32 23.03.19 10:36 Сейчас в теме
(12)да умно, вчера посмотрел ценники у них на получение информации по контактам и немного в шоке был...
14. IsiKosta 710 25.03.19 11:08 Сейчас в теме
Есть хорошая новость и плохая.
Хорошая: работает на БП 3.
Плохая: по запросу было 450 организаций. Отработало 4 часа. Всплывающие окна сделали невозможной работу на компе и пришлось убить процесс.
Есть статьи, как парсить страницу, не открывая браузер.
15. feniks_pro90 32 25.03.19 11:35 Сейчас в теме
(14)ок, спасибо за обратную связь, внесу исправления в обработку.
Уберу окно браузера, не будет выскакивать. (Совсем без браузера теперь не получиться запросами без браузера теперь можно получить информацию только с первой страницы, все последующие будут недоступны и будет приходить постоянный ответ о перенаправлении на первую страницу.)
Так же сделаю что бы в таблицу данные добавлялись после обработки каждой страницы а не всех страниц(что бы можно было завершая работу не потерять уже собранную информацию)
16. TODD22 17 25.03.19 11:47 Сейчас в теме
(14)
Плохая: по запросу было 450 организаций. Отработало 4 часа. Всплывающие окна сделали невозможной работу на компе и пришлось убить процесс.

У вас в чём то другом проблема. 16 тыс организаций спарсил за 2 часа.
17. IsiKosta 710 26.03.19 06:24 Сейчас в теме
Предлагаю открывать браузер внутри базы. У меня зацикливание на второй редакции. Приходится завершать процесс с потерей данных. Добавил ограничение по времени, помогло.
Добавил реквизит на форму и доработал текст (где "// добавил ИКВ"):

ДатаОкончания = ТекущаяДата() + ?(ВремяРаботыНеболее = 0, 8640000, ВремяРаботыНеболее * 60); // добавил ИКВ
	
	Пока ОбрабатыватьОстальныеСтраницы Цикл 
		ПутьДоСтраницыЗапроса = ЛеваяСтрокакаЗапроса + "/page/" + СчетчикСтраниц + ПраваяСтрокаЗапроса;
		ТекстСтраницы = ОтветСтраницы(АдресСервера,ПутьДоСтраницыЗапроса);
		
		Если ЗначениеЗаполнено(ТекстСтраницы) Тогда 	
			Если СтрНайти(ТекстСтраницы,"{""address"":{""building_id""") > 0 Тогда 
				ОбработатьТекстСтраницы(ТекстСтраницы);
				СчетчикСтраниц = СчетчикСтраниц + 1;
			Иначе
				ОбрабатыватьОстальныеСтраницы = Ложь;
			КонецЕсли;
		КонецЕсли;
		
		ОбрабатыватьОстальныеСтраницы = ТекущаяДата() <= ДатаОкончания; // добавил ИКВ
	КонецЦикла;
Показать
19. TODD22 17 26.03.19 09:09 Сейчас в теме
(17)Вы адрес точно в строке правильно указываете? У меня была проблема когда удалил случайно слэш в начале строки адреса. Вот тогда идёт зацикливание и кроме как убить сеанс ничего не помогает.
Если адрес правильный то всё работает отлично.
18. IsiKosta 710 26.03.19 06:53 Сейчас в теме
Повторяет 12 организаций, а по запросу найдено 452
20. TODD22 17 26.03.19 09:11 Сейчас в теме
(18)Либо проблема в адресе либо в запросе.
Мне попадались запросы которые вводишь в 2Гис он тебе возвращает 100 организаций. А когда запускаешь парсер то возвращает одну организацию.
Оставьте свое сообщение