Java based HTML parser (DOM)?

OBender · Post by **OBender** » 03 Aug 2004 22:06

Какой есть хороший парсер? Нужно что бы строил DOM по HTML. JTidy не предлагать

wolfboy · Post by **wolfboy** » 04 Aug 2004 04:26

Html - произвольного формата? Допустимы ли незакрытые тэги типа <li> и <p>, допустимы ли ошибки и т.п.. Ну то есть какой уровень стандартизации нужен?
Спрашиваю не потому что что-то знаю, а просто интересно.

Может быть, при некотором дополнительном форматировании подойдет просто один из стандартных XML DOM-парсеров?...

WildVlad · Post by **WildVlad** » 04 Aug 2004 13:34

На сколько я помню, там можно свой САКСоподобный парсер написать (в инете везде пример для CSV в статейках описан), а потом уже им можно и ДОМ построить

OBender · Post by **OBender** » 04 Aug 2004 14:55

Ну написать можно моного чего

только задача стоит совсем другая, а парсер в DOM нужен просто как тул для ее решения, т.е., время на то что бы писать парсер нету.

К вопросу о незакрытых тэгах, JTidy делает tag balancing но этот проект уже 3 года как не поддерживается (не обновляется) так что его стремно трогать.

Okie · Post by **Okie** » 04 Aug 2004 16:12

How about this: http://xml.apache.org/xerces2-j/index.html

Okie · Post by **Okie** » 04 Aug 2004 16:14

Strannik223 · Post by **Strannik223** » 05 Aug 2004 00:57

WildVlad wrote:На сколько я помню, там можно свой САКСоподобный парсер написать (в инете везде пример для CSV в статейках описан), а потом уже им можно и ДОМ построить :)

Умм. С html проблемка получилась. Каждый браузер старался быть максимально толерантным к ошибкам безруких програмистов и по максимуму делал предположения о том например где же закакнчиватеся незакрытый тег и тому подобные ляпы. Но создавать стандарт на ошибки же никто не будет, поэтому браузеры несовместимы еще и в том как они обрабатывают неправильности.

Поэтому создание html парсера задача очень нетривиальная.

Xml стандарт адресовал эту проблему тем что он требует от парсера расценивать как критическую ошибку любое отсупление от стандарта. За счет этого пасеры становятся проще в реализации и более совместимы.

WildVlad · Post by **WildVlad** » 05 Aug 2004 01:51

Strannik223 wrote:Умм. С html проблемка получилась. Каждый браузер старался быть максимально толерантным к ошибкам безруких програмистов и по максимуму делал предположения о том например где же закакнчиватеся незакрытый тег и тому подобные ляпы.

Я прекрасно понимаю, более того, вот это вполне валидный HTML (as is, no other elements on the page like <html> and <body>) :

Code: Select all

normal <b> bold <i> bolditalic </b> italic </i> normal

(Сорри, форум корёжит пример - сделайте копи-пасте в файл)

IE умеет разруливать эту ситуацию, но DOM-дерево по такому построить очень не просто...
Хотя - можно просто всегда считать, что, например, <hr> всегда имеет пустое тело, </table> закрывает все тэги, открытые внутри таблицы (не знаю, может ли <form> быть открыт посередине одной таблицы а закрыт в середине следующей) ну и так далее - то есть для каждого тэга иметь список тэгов, которые автоматически закрываются при закрытии данного тэга, если они были открыты внутри данного тэга, и тех, которые автоматически переоткрываются.

Короче говоря, с некоторыми допущениями (а особенно, если забить на приведённый пример с болдо-италиками) вполне возможно написать более-менее хороший парсер для html - займёт день минус два :mrgreen:

Добавлено: Кстати, а этот Сановский чудо Java-браузер не экспозит ли API? а то типа можно выдернуть готовый ДОМ из него :mrgreen: