A. Fig Lee wrote:Volant wrote:Такой паучек пишется за час на .... VB6.0.
Ключевое слово - WebBrowser Control
мысль интересная.
а что ето за вебконтроль:
я так понимаю рефреши и редиректы он хендлит нормально. А вот яваскрипт меню - он маусмув появляющие - тоже?
Для частной задачи наверное хороший вариант, как генерал - нет полного контроля над сурсом и то, что будет подсунуто Нетскейпу можно пропустить.
Если знаком с VB и WebBrowser Control, то пишется быстро. Не за час, конечно... за день, пожалуй. Я участвовал в написании подобного для
www.newman.ru ешё в 99-м (был проект по каталогизации freeware & shareware software)... в 2002-м у меня был годовой контракт с
www.careerexchange.com (искал для них некую специфицную для бизнеса информацию)... сейчас пишу подобное уже для себя (свой проект).
Обработка html, обход веб-сайта - это все просто. Взять WebBrowser Control и посмотреть что и как он делает. Но вот с распознаванием необходимой информации сложнее. Когда сайт (скажет какой-то каталог) большой, структура его "листьев" с интересующей информацией известна, то здорово. Находи в html группы необходимых тегов и выдирай информацию. А вот когда нужно обработать произвольную страничку "Contact Us" с корректным распознаванием адреса, телефонов, контактных лиц... Я писал сугубо эмпирический алгоритм, не замахиваясь на слишком большую универсальность.
Смотри что тебе надо. Сколько времени ты готов положить на разработку алгоритма распознавания и какой процент ошибок допустим.
И еще. WebBrowser Control достаточно тормозная штука, сайты тоже тормозят. Например, просканировать весь monster.com - это 1-2 дня. Если объемы велики, то ну;но запускать 10+ потоков одновременно... если сканишь сайт, на котором robots.txt запрещает это делать, то будь готов, что IP машины с которой шло сканирование скоро окажется забаненым... еще бываю сайты на которых специално предусмотрены меры против таких "умников", сканирующих информацию... в общем если в это ввязаться, то это на года...
Удачи
![Smile :)](./images/smilies/icon_smile.gif)