Специализированный спайдер/грабер
-
- Уже с Приветом
- Posts: 5280
- Joined: 01 Nov 2000 10:01
- Location: (RU->WA->NJ->?)
Специализированный спайдер/грабер
в общем не знаю как эту фигню назвать, но подозреваю что устоявшийся термин должне быть.
Задача выдирать из нескольких заранее известных сайтов (но число и дизайн которых может время от времени менятся) определенную информацию, скажем прайслисты с целью последующей обработки.
Задача довольно типичная, наверняка кто-то пошел чуть дальше поиска в тексте ключевых слов/ узлов распарсенного html-дерева.
Интересует все - библиотеки, десктопные (win), серверные (Java, Perl, PHP) продукты. Опыт выполнения подобных проетов на заказ etc.
Задача выдирать из нескольких заранее известных сайтов (но число и дизайн которых может время от времени менятся) определенную информацию, скажем прайслисты с целью последующей обработки.
Задача довольно типичная, наверняка кто-то пошел чуть дальше поиска в тексте ключевых слов/ узлов распарсенного html-дерева.
Интересует все - библиотеки, десктопные (win), серверные (Java, Perl, PHP) продукты. Опыт выполнения подобных проетов на заказ etc.
-
- Уже с Приветом
- Posts: 5280
- Joined: 01 Nov 2000 10:01
- Location: (RU->WA->NJ->?)
-
- Уже с Приветом
- Posts: 20297
- Joined: 01 Dec 2003 23:16
- Location: Russia->USA
Sergey_P wrote:Вроде смутно припоминаю когда года полтора зазад искал попаалось пара опэн сурс проектов.. может кто из них выжил
http://www.opensourcetesting.org/
-
- Уже с Приветом
- Posts: 5280
- Joined: 01 Nov 2000 10:01
- Location: (RU->WA->NJ->?)
-
- Уже с Приветом
- Posts: 12072
- Joined: 17 Nov 2002 03:41
- Location: английская колония
Re: Специализированный спайдер/грабер
Sergey_P wrote:в общем не знаю как эту фигню назвать, но подозреваю что устоявшийся термин должне быть.
Задача выдирать из нескольких заранее известных сайтов (но число и дизайн которых может время от времени менятся) определенную информацию, скажем прайслисты с целью последующей обработки.
Задача довольно типичная, наверняка кто-то пошел чуть дальше поиска в тексте ключевых слов/ узлов распарсенного html-дерева.
Интересует все - библиотеки, десктопные (win), серверные (Java, Perl, PHP) продукты. Опыт выполнения подобных проетов на заказ etc.
Прошел ето дело неоднократно.
Конкретно сейчас есть сурс для Виндовс (разница - чисто сокет, там STL кругом).
ХТМЛ Парсер ну и там извлекает все линки и древья создает - если надо - свистите - не уверен правда, что он под боком. В худшем случае - в понедельник могу.
Верить нельзя никому - даже себе. Мне - можно!
-
- Уже с Приветом
- Posts: 793
- Joined: 02 Apr 2002 10:01
Re: Специализированный спайдер/грабер
Sergey_P wrote:в общем не знаю как эту фигню назвать, но подозреваю что устоявшийся термин должне быть.
Задача выдирать из нескольких заранее известных сайтов (но число и дизайн которых может время от времени менятся) определенную информацию, скажем прайслисты с целью последующей обработки.
Задача довольно типичная, наверняка кто-то пошел чуть дальше поиска в тексте ключевых слов/ узлов распарсенного хтмл-дерева.
Интересует все - библиотеки, десктопные (вин), серверные (Ява, Перл, ПХП) продукты. Опыт выполнения подобных проетов на заказ етц.
Паша Сенаторов вроде хотел такую штуку сделать, год-два назад. Далеко ли продвинулся - понятия не имею.
-
- Уже с Приветом
- Posts: 1346
- Joined: 22 Sep 2001 09:01
- Location: Dallas TX, USA
Re: Специализированный спайдер/грабер
Такой паучек пишется за час на .... VB6.0.
Ключевое слово - WebBrowser Control
Ключевое слово - WebBrowser Control
-
- Уже с Приветом
- Posts: 10367
- Joined: 12 Apr 2001 09:01
- Location: Lithuania/UK
Re: Специализированный спайдер/грабер
Volant wrote:Такой паучек пишется за час на .... VB6.0.
Ключевое слово - WebBrowser Control
Наш ответ:
/usr/bin/perl
Дальше, все будет только хуже. Оптимист.
-
- Уже с Приветом
- Posts: 12072
- Joined: 17 Nov 2002 03:41
- Location: английская колония
Re: Специализированный спайдер/грабер
Volant wrote:Такой паучек пишется за час на .... VB6.0.
Ключевое слово - WebBrowser Control
мысль интересная.
а что ето за вебконтроль:
я так понимаю рефреши и редиректы он хендлит нормально. А вот яваскрипт меню - он маусмув появляющие - тоже?
Для частной задачи наверное хороший вариант, как генерал - нет полного контроля над сурсом и то, что будет подсунуто Нетскейпу можно пропустить.
Верить нельзя никому - даже себе. Мне - можно!
-
- Уже с Приветом
- Posts: 122
- Joined: 20 Jan 2003 04:59
- Location: Albany, NY
-
- Уже с Приветом
- Posts: 5280
- Joined: 01 Nov 2000 10:01
- Location: (RU->WA->NJ->?)
Re: Специализированный спайдер/грабер
A. Fig Lee wrote:Прошел ето дело неоднократно.
Конкретно сейчас есть сурс для Виндовс (разница - чисто сокет, там STL кругом).
ХТМЛ Парсер ну и там извлекает все линки и древья создает - если надо - свистите - не уверен правда, что он под боком. В худшем случае - в понедельник могу.
Я в С с крестами не силен.. так сказать "читаю со словарем" т.е. чисто в образоваельных целях вроде чтения книжек с примерами на с++.
Так что пригодится только прикидка - сколько такой проект займет (T & $)
-
- Уже с Приветом
- Posts: 5280
- Joined: 01 Nov 2000 10:01
- Location: (RU->WA->NJ->?)
Re: Специализированный спайдер/грабер
UFOpassenger wrote:Паша Сенаторов вроде хотел такую штуку сделать, год-два назад. Далеко ли продвинулся - понятия не имею.
Как бы мне до этого Паши дозвонится там или еще как законтачить?
-
- Уже с Приветом
- Posts: 5280
- Joined: 01 Nov 2000 10:01
- Location: (RU->WA->NJ->?)
Re: Специализированный спайдер/грабер
Volant wrote:Такой паучек пишется за час на .... VB6.0.
Ключевое слово - WebBrowser Control
И что за час так чтоб не нужно было переписавать каждый раз как после login& password решат не сразу прайс лист показать, а еще поинтересоватся "нужен последний или за определенный месяц текущего/прошлого года?"
-
- Уже с Приветом
- Posts: 5280
- Joined: 01 Nov 2000 10:01
- Location: (RU->WA->NJ->?)
Re: Специализированный спайдер/грабер
A. Fig Lee wrote:Volant wrote:Такой паучек пишется за час на .... VB6.0.
Ключевое слово - WebBrowser Control
мысль интересная.
а что ето за вебконтроль:
я так понимаю рефреши и редиректы он хендлит нормально. А вот яваскрипт меню - он маусмув появляющие - тоже?
Я так понимаю это IE собственной персоной - берешь VB на перевес, ваяешь GUI и "ВасяПупкинНафигажтор" готов
Беглое гугление показало, что у ребят не имеющих проблем с чтением документации проблемы довольно экзотические вроде загрузки JVM.. впрочем наверно можно попотеть пока нацдешь как ему конфигурацию проксей установить, итд.