Специализированный спайдер/грабер

User avatar
Sergey_P
Уже с Приветом
Posts: 5280
Joined: 01 Nov 2000 10:01
Location: (RU->WA->NJ->?)

Специализированный спайдер/грабер

Post by Sergey_P »

в общем не знаю как эту фигню назвать, но подозреваю что устоявшийся термин должне быть.
Задача выдирать из нескольких заранее известных сайтов (но число и дизайн которых может время от времени менятся) определенную информацию, скажем прайслисты с целью последующей обработки.
Задача довольно типичная, наверняка кто-то пошел чуть дальше поиска в тексте ключевых слов/ узлов распарсенного html-дерева.

Интересует все - библиотеки, десктопные (win), серверные (Java, Perl, PHP) продукты. Опыт выполнения подобных проетов на заказ etc.
User avatar
geek7
Уже с Приветом
Posts: 20297
Joined: 01 Dec 2003 23:16
Location: Russia->USA

Post by geek7 »

нетуда
User avatar
Sergey_P
Уже с Приветом
Posts: 5280
Joined: 01 Nov 2000 10:01
Location: (RU->WA->NJ->?)

Post by Sergey_P »

Кстати наверно под это дело должны хорошо рихтоватся тулзы для тестирования.. вот только цены на них самолетоватые :?
Вроде смутно припоминаю когда года полтора зазад искал попаалось пара опэн сурс проектов.. может кто из них выжил :radio%:

PS забыл добавить к списку технологий .NET.
User avatar
geek7
Уже с Приветом
Posts: 20297
Joined: 01 Dec 2003 23:16
Location: Russia->USA

Post by geek7 »

Sergey_P wrote:Вроде смутно припоминаю когда года полтора зазад искал попаалось пара опэн сурс проектов.. может кто из них выжил :radio%:

http://www.opensourcetesting.org/
User avatar
Sergey_P
Уже с Приветом
Posts: 5280
Joined: 01 Nov 2000 10:01
Location: (RU->WA->NJ->?)

Post by Sergey_P »

geek7 wrote:http://www.opensourcetesting.org/

Не совсем то что имелось в виду, но любопытный сборник
User avatar
A. Fig Lee
Уже с Приветом
Posts: 12072
Joined: 17 Nov 2002 03:41
Location: английская колония

Re: Специализированный спайдер/грабер

Post by A. Fig Lee »

Sergey_P wrote:в общем не знаю как эту фигню назвать, но подозреваю что устоявшийся термин должне быть.
Задача выдирать из нескольких заранее известных сайтов (но число и дизайн которых может время от времени менятся) определенную информацию, скажем прайслисты с целью последующей обработки.
Задача довольно типичная, наверняка кто-то пошел чуть дальше поиска в тексте ключевых слов/ узлов распарсенного html-дерева.

Интересует все - библиотеки, десктопные (win), серверные (Java, Perl, PHP) продукты. Опыт выполнения подобных проетов на заказ etc.

Прошел ето дело неоднократно.
:oops: Конкретно сейчас есть сурс для Виндовс (разница - чисто сокет, там STL кругом).
ХТМЛ Парсер ну и там извлекает все линки и древья создает - если надо - свистите - не уверен правда, что он под боком. В худшем случае - в понедельник могу.
Верить нельзя никому - даже себе. Мне - можно!
User avatar
UFOpassenger
Уже с Приветом
Posts: 793
Joined: 02 Apr 2002 10:01

Re: Специализированный спайдер/грабер

Post by UFOpassenger »

Sergey_P wrote:в общем не знаю как эту фигню назвать, но подозреваю что устоявшийся термин должне быть.
Задача выдирать из нескольких заранее известных сайтов (но число и дизайн которых может время от времени менятся) определенную информацию, скажем прайслисты с целью последующей обработки.
Задача довольно типичная, наверняка кто-то пошел чуть дальше поиска в тексте ключевых слов/ узлов распарсенного хтмл-дерева.

Интересует все - библиотеки, десктопные (вин), серверные (Ява, Перл, ПХП) продукты. Опыт выполнения подобных проетов на заказ етц.


Паша Сенаторов вроде хотел такую штуку сделать, год-два назад. Далеко ли продвинулся - понятия не имею.
Volant
Уже с Приветом
Posts: 1346
Joined: 22 Sep 2001 09:01
Location: Dallas TX, USA

Re: Специализированный спайдер/грабер

Post by Volant »

Такой паучек пишется за час на .... VB6.0.
Ключевое слово - WebBrowser Control
User avatar
f_evgeny
Уже с Приветом
Posts: 10367
Joined: 12 Apr 2001 09:01
Location: Lithuania/UK

Re: Специализированный спайдер/грабер

Post by f_evgeny »

Volant wrote:Такой паучек пишется за час на .... VB6.0.
Ключевое слово - WebBrowser Control

Наш ответ:
/usr/bin/perl
Дальше, все будет только хуже. Оптимист.
User avatar
A. Fig Lee
Уже с Приветом
Posts: 12072
Joined: 17 Nov 2002 03:41
Location: английская колония

Re: Специализированный спайдер/грабер

Post by A. Fig Lee »

Volant wrote:Такой паучек пишется за час на .... VB6.0.
Ключевое слово - WebBrowser Control


мысль интересная.
а что ето за вебконтроль:
я так понимаю рефреши и редиректы он хендлит нормально. А вот яваскрипт меню - он маусмув появляющие - тоже?
Для частной задачи наверное хороший вариант, как генерал - нет полного контроля над сурсом и то, что будет подсунуто Нетскейпу можно пропустить.
Верить нельзя никому - даже себе. Мне - можно!
User avatar
SergeN
Уже с Приветом
Posts: 122
Joined: 20 Jan 2003 04:59
Location: Albany, NY

Post by SergeN »

Ну я пару лет назад эстрактор делал для всяких там желтых страниц на ВБ 6.0. Он был с нестраиваемые схемами, ну типа, если yahoo поменял дизайн, то сам заготовку для yahoo меняешь и дальше данные вынимаешь.
Правда этот проект за час не удалось сделать 8O
Короче за ящик пива сорсы могу поискать.
User avatar
Sergey_P
Уже с Приветом
Posts: 5280
Joined: 01 Nov 2000 10:01
Location: (RU->WA->NJ->?)

Re: Специализированный спайдер/грабер

Post by Sergey_P »

A. Fig Lee wrote:Прошел ето дело неоднократно.
:oops: Конкретно сейчас есть сурс для Виндовс (разница - чисто сокет, там STL кругом).
ХТМЛ Парсер ну и там извлекает все линки и древья создает - если надо - свистите - не уверен правда, что он под боком. В худшем случае - в понедельник могу.

Я в С с крестами не силен.. так сказать "читаю со словарем" :mrgreen: т.е. чисто в образоваельных целях вроде чтения книжек с примерами на с++.
Так что пригодится только прикидка - сколько такой проект займет (T & $)
User avatar
Sergey_P
Уже с Приветом
Posts: 5280
Joined: 01 Nov 2000 10:01
Location: (RU->WA->NJ->?)

Re: Специализированный спайдер/грабер

Post by Sergey_P »

UFOpassenger wrote:Паша Сенаторов вроде хотел такую штуку сделать, год-два назад. Далеко ли продвинулся - понятия не имею.

Как бы мне до этого Паши дозвонится там или еще как законтачить?
User avatar
Sergey_P
Уже с Приветом
Posts: 5280
Joined: 01 Nov 2000 10:01
Location: (RU->WA->NJ->?)

Re: Специализированный спайдер/грабер

Post by Sergey_P »

Volant wrote:Такой паучек пишется за час на .... VB6.0.
Ключевое слово - WebBrowser Control

И что за час так чтоб не нужно было переписавать каждый раз как после login& password решат не сразу прайс лист показать, а еще поинтересоватся "нужен последний или за определенный месяц текущего/прошлого года?"
User avatar
Sergey_P
Уже с Приветом
Posts: 5280
Joined: 01 Nov 2000 10:01
Location: (RU->WA->NJ->?)

Re: Специализированный спайдер/грабер

Post by Sergey_P »

A. Fig Lee wrote:
Volant wrote:Такой паучек пишется за час на .... VB6.0.
Ключевое слово - WebBrowser Control

мысль интересная.
а что ето за вебконтроль:
я так понимаю рефреши и редиректы он хендлит нормально. А вот яваскрипт меню - он маусмув появляющие - тоже?

Я так понимаю это IE собственной персоной - берешь VB на перевес, ваяешь GUI и "ВасяПупкинНафигажтор" готов :mrgreen:
Беглое гугление показало, что у ребят не имеющих проблем с чтением документации проблемы довольно экзотические вроде загрузки JVM.. впрочем наверно можно попотеть пока нацдешь как ему конфигурацию проксей установить, итд.

Return to “Вопросы и новости IT”