Самый легкий способ парсинга таблиц с веб-страниц?

User avatar
Flash-04
Уже с Приветом
Posts: 63430
Joined: 03 Nov 2004 05:31
Location: RU -> Toronto, ON

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by Flash-04 »

perasperaadastra wrote:Проблема в том, что амазон обнаруживает роботов и периодически выдает капчу.
смена user agent может помочь отцу русской демократии :umnik1: ваш скрипт буквально кричит амазоновскому серверу что он "змеюка". Хотя они не такие дураки и bot-поведение всё равно детектируют. Где-то пробегала статья что они подали иск на 10 самых активных "ботов", в том смысле что потребовали ISP выдать имена клиентов которые сидят на этих IP-шниках, чтобы потом с ними судится напрямую.
Not everyone believes what I believe but my beliefs do not require them to.
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by perasperaadastra »

После первых неудач я заспуфил User-Agent: 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'. Также я добавил случайную паузу между запросами. Но, увы, амазону все равно не нравится, что кто-то с одного (подозрительного?) айпи стучится каждую секунду. Возможно, дело еще в отсутствии печенек — я их не сохраняю между запросами.

Будет забавно, если они теперь меня судить будут за слив ревьюеров :) Впрочем, сливал я все без учетной записи, а, следовательно, никакие правила соблюдать не подписывался.
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by perasperaadastra »

Какой-то амазон мутный... Я прошелся по 10,000 страниц топовых профилей пользователей. 4 не удалось слить. Профили называются "A customer". Можно посмотреть обзоры этих авторов, но сами профили не существуют. Я видел на амазоне анонимов, но их профили называются "Amazon customer", и их можно открыть. А тут похоже на глюк. Ну да ладно, 4 из 10,000 не проблема для статистики — щаc буду анализировать, кто из этих пользователей имеет vine. Можно еще географию вытащить, но это несколько сложнее из-за того, что можно вольным языком описывать местоположение.
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by perasperaadastra »

Закончил обработку профилей ревьюеров на канадском амазоне. Если кому интересно, то вот: viewtopic.php?p=6505473#p6505473" onclick="window.open(this.href);return false;

Теперь очередь за американским амазоном.
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by perasperaadastra »

Хочу спросить про сессию и каптчу. Вот я скребу с амазона, и для каждой страницы запрашиваю новую сессию, которая по умолчанию keep-alive. Периодически амазон начинает меня подозревать и выплевывает каптчу. Но я-то не дурак! Я тут же подключаюсь к процессу и ввожу каптчу. Одна проблема: ответ происходит в новой сессии, да еще и юзер агент произвольным образом меняется. Положим, юзер-агента я смогу использовать такого же, как и тот, на который была получена каптча. А вот как быть с сессией? Проблема ли то, что при вводе каптчи будет новая сессия? Амазоновскому серверу до этого есть вообще дело?

В чем вообще заключается эта самая сессия? Печеньки?

PS Оффтопик: прочитал на вики: "Another technique used consists of using a script to re-post the target site's CAPTCHA as a CAPTCHA to a site owned by the attacker, which unsuspecting humans visit and correctly solve within a short while for the script to use."
:D
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by Deckel »

Как вариант- смотреть, как это сделано в опен сорс тулзах.
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by Deckel »

https://www.amazon.com/gp/product/1491910291/" onclick="window.open(this.href);return false; вот такая книга есть
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by perasperaadastra »

Спасибо, почитаю на досуге.

Return to “Вопросы и новости IT”