Самый легкий способ парсинга таблиц с веб-страниц?

User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Самый легкий способ парсинга таблиц с веб-страниц?

Post by perasperaadastra »

Посмотрел я на всякие скрипты для питона... ИМХО, это слишком сложно для не-программиста. А бывает что-нибудь попроще, чтобы какой-нибудь журналист-гуманитарий мог использовать? Ну, типа, на примере одной страницы графически показал, как таблицу коцать, а оно дальше само научилось аналогичные веб-страницы обрабатывать? Ну, примерно как с адблоком — там же не нужно указывать код html, который нужно блокировать, а можно просто ткнуть мышью в нужный элемент, и он сам выясняет, что за код скрывается за элементом...
kjfk
Новичок
Posts: 80
Joined: 28 Mar 2016 20:32

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by kjfk »

Не понимаю. Скопировать таблицу на странице - вставить в эксель же работает?
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by perasperaadastra »

Часто — нет. Но даже когда работает, сделать это для тысяч веб-страниц нереально.
helg
Уже с Приветом
Posts: 4827
Joined: 15 May 2001 09:01

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by helg »

А таблица рендерится на сервере или на клиенте?
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by perasperaadastra »

Думаю, у клиента. Пользователь получает полноценный файл с таблицей в коде html, который можно сохранить.
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Самый легкий способ парсинга таблиц с веб-страниц?

Post by Deckel »

Wget или curl чтобы скачать. Если там есть < table ></ table >, и единственный, то просто этот кусок выкусить, а потом уже есть куча способов. В том числе и программка готовая наверняка найдётся.
Last edited by Deckel on 27 Sep 2016 00:40, edited 1 time in total.
helg
Уже с Приветом
Posts: 4827
Joined: 15 May 2001 09:01

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by helg »

Уточните свою задачу. На клиенте рендерится - значит tr/td рисует Javascript на клиенте, а не то, что Вы написали.
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by perasperaadastra »

Сорри, не разбираюсь я в этом. Вот, пример. В нем tr/td.
http://www.saratov.vybory.izbirkom.ru/r ... 9&type=233" onclick="window.open(this.href);return false;
helg
Уже с Приветом
Posts: 4827
Joined: 15 May 2001 09:01

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by helg »

Там есть ссылочка на табличку Excel - вот её и скачайте.

Но вообще-то правильно будет просто найти агрегированные результаты.
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by perasperaadastra »

Это пример. Вопрос о том, есть ли какие-нибудь автоматические способы парсинга для не-прогаммистов.
helg
Уже с Приветом
Posts: 4827
Joined: 15 May 2001 09:01

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by helg »

Общий рецепт мне неизвестен.
User avatar
stenking
Уже с Приветом
Posts: 14455
Joined: 26 May 2006 02:39

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by stenking »

Такое точно есть - я недавно игрался с похожим стартапом так он вытягивал дату любых сайтов через UI ( нужно было кликать и т.д. ) и её можно было скачивать как CSV, Json...

Название в упор не помню
Бога нет.
User avatar
fruit6
Уже с Приветом
Posts: 4207
Joined: 10 Jan 2004 01:22
Location: n-sk -> MD -> VA

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by fruit6 »

Selenium, etc.
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by perasperaadastra »

О! Точно, я совсем забыл про Selenium, а ведь его предлагали Леониду В по схожему вопросу...

PS С другой стороны, может, мне полезнее разобраться, как парсить в каком-нибудь Питоне? Усилий, конечно, больше, чем в ГУИ, но зато универсальность... Просто в последнее время я все чаще стал сталкиваться с необходимостью сбора инфы из недр интернетов... Надо какой-нибудь курс взять что ли. А то чувствую, пригодится в будущем для работы.
mynameiszb
Уже с Приветом
Posts: 1665
Joined: 16 Jul 2009 14:18
Location: Uganda

Re: Самый легкий способ парсинга таблиц с веб-страниц?

Post by mynameiszb »

perasperaadastra wrote:С другой стороны, может, мне полезнее разобраться, как парсить в каком-нибудь Питоне?
А вы уверены, что покроете все возможные варианты? Там ведь с этими таблицами народ извращается - верстка, объединенные колонки, зачастую хитрые ребята картинки в качестве "итого" для таблиц применяют. Зоопарк, одним словом.

Return to “Вопросы и новости IT”