Самый легкий способ парсинга таблиц с веб-страниц?
-
- Уже с Приветом
- Posts: 20128
- Joined: 21 Feb 2009 22:55
- Location: Лох Онтарио
Самый легкий способ парсинга таблиц с веб-страниц?
Посмотрел я на всякие скрипты для питона... ИМХО, это слишком сложно для не-программиста. А бывает что-нибудь попроще, чтобы какой-нибудь журналист-гуманитарий мог использовать? Ну, типа, на примере одной страницы графически показал, как таблицу коцать, а оно дальше само научилось аналогичные веб-страницы обрабатывать? Ну, примерно как с адблоком — там же не нужно указывать код html, который нужно блокировать, а можно просто ткнуть мышью в нужный элемент, и он сам выясняет, что за код скрывается за элементом...
-
- Новичок
- Posts: 80
- Joined: 28 Mar 2016 20:32
Re: Самый легкий способ парсинга таблиц с веб-страниц?
Не понимаю. Скопировать таблицу на странице - вставить в эксель же работает?
-
- Уже с Приветом
- Posts: 20128
- Joined: 21 Feb 2009 22:55
- Location: Лох Онтарио
Re: Самый легкий способ парсинга таблиц с веб-страниц?
Часто — нет. Но даже когда работает, сделать это для тысяч веб-страниц нереально.
-
- Уже с Приветом
- Posts: 4827
- Joined: 15 May 2001 09:01
Re: Самый легкий способ парсинга таблиц с веб-страниц?
А таблица рендерится на сервере или на клиенте?
-
- Уже с Приветом
- Posts: 20128
- Joined: 21 Feb 2009 22:55
- Location: Лох Онтарио
Re: Самый легкий способ парсинга таблиц с веб-страниц?
Думаю, у клиента. Пользователь получает полноценный файл с таблицей в коде html, который можно сохранить.
-
- Ник закрыт за хамство.
- Posts: 357
- Joined: 16 Feb 2014 18:34
Самый легкий способ парсинга таблиц с веб-страниц?
Wget или curl чтобы скачать. Если там есть < table ></ table >, и единственный, то просто этот кусок выкусить, а потом уже есть куча способов. В том числе и программка готовая наверняка найдётся.
Last edited by Deckel on 27 Sep 2016 00:40, edited 1 time in total.
-
- Уже с Приветом
- Posts: 4827
- Joined: 15 May 2001 09:01
Re: Самый легкий способ парсинга таблиц с веб-страниц?
Уточните свою задачу. На клиенте рендерится - значит tr/td рисует Javascript на клиенте, а не то, что Вы написали.
-
- Уже с Приветом
- Posts: 20128
- Joined: 21 Feb 2009 22:55
- Location: Лох Онтарио
Re: Самый легкий способ парсинга таблиц с веб-страниц?
Сорри, не разбираюсь я в этом. Вот, пример. В нем tr/td.
http://www.saratov.vybory.izbirkom.ru/r ... 9&type=233" onclick="window.open(this.href);return false;
http://www.saratov.vybory.izbirkom.ru/r ... 9&type=233" onclick="window.open(this.href);return false;
-
- Уже с Приветом
- Posts: 4827
- Joined: 15 May 2001 09:01
Re: Самый легкий способ парсинга таблиц с веб-страниц?
Там есть ссылочка на табличку Excel - вот её и скачайте.
Но вообще-то правильно будет просто найти агрегированные результаты.
Но вообще-то правильно будет просто найти агрегированные результаты.
-
- Уже с Приветом
- Posts: 20128
- Joined: 21 Feb 2009 22:55
- Location: Лох Онтарио
Re: Самый легкий способ парсинга таблиц с веб-страниц?
Это пример. Вопрос о том, есть ли какие-нибудь автоматические способы парсинга для не-прогаммистов.
-
- Уже с Приветом
- Posts: 4827
- Joined: 15 May 2001 09:01
-
- Уже с Приветом
- Posts: 14455
- Joined: 26 May 2006 02:39
Re: Самый легкий способ парсинга таблиц с веб-страниц?
Такое точно есть - я недавно игрался с похожим стартапом так он вытягивал дату любых сайтов через UI ( нужно было кликать и т.д. ) и её можно было скачивать как CSV, Json...
Название в упор не помню
Название в упор не помню
Бога нет.
-
- Уже с Приветом
- Posts: 4207
- Joined: 10 Jan 2004 01:22
- Location: n-sk -> MD -> VA
-
- Уже с Приветом
- Posts: 20128
- Joined: 21 Feb 2009 22:55
- Location: Лох Онтарио
Re: Самый легкий способ парсинга таблиц с веб-страниц?
О! Точно, я совсем забыл про Selenium, а ведь его предлагали Леониду В по схожему вопросу...
PS С другой стороны, может, мне полезнее разобраться, как парсить в каком-нибудь Питоне? Усилий, конечно, больше, чем в ГУИ, но зато универсальность... Просто в последнее время я все чаще стал сталкиваться с необходимостью сбора инфы из недр интернетов... Надо какой-нибудь курс взять что ли. А то чувствую, пригодится в будущем для работы.
PS С другой стороны, может, мне полезнее разобраться, как парсить в каком-нибудь Питоне? Усилий, конечно, больше, чем в ГУИ, но зато универсальность... Просто в последнее время я все чаще стал сталкиваться с необходимостью сбора инфы из недр интернетов... Надо какой-нибудь курс взять что ли. А то чувствую, пригодится в будущем для работы.
-
- Уже с Приветом
- Posts: 1665
- Joined: 16 Jul 2009 14:18
- Location: Uganda
Re: Самый легкий способ парсинга таблиц с веб-страниц?
А вы уверены, что покроете все возможные варианты? Там ведь с этими таблицами народ извращается - верстка, объединенные колонки, зачастую хитрые ребята картинки в качестве "итого" для таблиц применяют. Зоопарк, одним словом.perasperaadastra wrote:С другой стороны, может, мне полезнее разобраться, как парсить в каком-нибудь Питоне?