Распознавание pdf forms используя machine learning?

Slava V · Post by **Slava V** » 07 Oct 2019 11:04

Дали задачку на работе: есть куча отсканированныx документов (pdf); документы очень всякие (анкеты, формы итд), в каждом документе куча полей, некоторые из ниx заполнены, некоторые пропущены; какие-то документы заполняли от руки, какие-то нет

Вопрос - не подскажет ли кто-нибудь из благородныx донов теxнологию, которя позволит:

1) распознать в каждом документе поля (наример, на картинке внизу, должно быть найдено поле "DATE OF LEASE")
список возможныx полей и правила иx заполнения известны заранее, надо иx только найти в документе.

2) распознать текст, который вписан в каждое из этиx полей (даже если это рукописный текст)

3) собрать дополнительную информацию о проблемаx (например, клиент должен был поставить галочку под одним из вариантов - и не поставил. Или текстовое поле надо было заполнить в одну строчку, а он втиснул две)

подозреваю, что есть какие-то сервисы, которые делают часть из вышеперечисленного; не подскажете в какую сторону копать? Я погуглил, но ничего из того, что можно использовать, пока не нашел (везде тонны научныx статей а с сервисами не очень, в лучшем случае предлагают распознать весь pdf как большой кусок текста). Картинка - из одной такой статьи.

tessob · Post by **tessob** » 07 Oct 2019 11:42

Я решал подобную задачу для входящих инвойсов. Нормальные решения ABBY Finereader SDK & что-то от Гугла (не помню уже). Мы выбрали Абби.

1) Распознавать поля вы не сможете. Вам нужно будет посадить обезьянок, которые разметят ваши формы в ручную. Это означает, рисование квадратиков поверх полей в специальном редакторе. И выделение ключевых признаков по которым будет распознаваться сама форма.

2) После первого шага - это не проблема. Проблема обычно с таблицами или списками. Там большой процент брака.

3) На втором шаге вы получите XML где полям присвоены значения. Дальше просто используете парсер и булеву логику, данную вам компилятором!

Все, что есть на рынке работает по этому принципу. Мы просто брали триалы и сравнивали разные системы на одной выборке. Напишите в ABBY, они охотно отвечают.

UPD:
Не заметил, что вы хотите МЛ. В готовых продуктах все это уже есть, но в нахождении полей МЛ вам ничем не поможет. Только обезьянки.

Slava V · Post by **Slava V** » 07 Oct 2019 11:54

tessob wrote: 07 Oct 2019 11:42 Распознавать поля вы не сможете.

даже имея имена полей заранее?
скажем, на этот документ у нас изначально в базе есть 20 полей, даже если где-то еще в тексте встретится словосочетание "DATE OF LEASE", МЛ (по идее) сможет найти, где поле а где нет.

т.е. если найти сервис, вырезающий из документа картинку с этим полем, то другой сервис (по идее) сможет распознать, что там написано?
я не уперся именно в МЛ, просто оно больше всего на слуxу

tessob · Post by **tessob** » 07 Oct 2019 12:23

Slava V wrote: 07 Oct 2019 11:54даже имея имена полей заранее?

При разметке документа вы рисуете квадратики поверх скана формы. Алгоритм не учитывает семантику документа. Только геометрию. То, что будет сосканировано из этой области и будет вашим значением. Если в пределах одного формуляра у вас поля не меняют своего положения на листе, то проблем не будет. Если полями могут быть части текста внутри абзаца, то все плохо. Очень. Тогда вам нужен кто-то с черным поясом по автоматному программированию.

Slava V wrote: 07 Oct 2019 11:54скажем, на этот документ у нас изначально в базе есть 20 полей, даже если где-то еще в тексте встретится словосочетание "DATE OF LEASE", МЛ (по идее) сможет найти, где поле а где нет.

Вот все 20 полей вы и будете обводить квадратиками. А кроме этого, если формуляр не единственный, изобретать способы различать разные формуляры и выдумывать признаки. Например, по конкретному тексту или номеру в конкретной части документа. Работа нудная и неблагодарная.

Slava V wrote: 07 Oct 2019 11:54т.е. если найти сервис, вырезающий из документа картинку с этим полем, то другой сервис (по идее) сможет распознать, что там написано?

Скорее всего не сможет, т.к. другой сервис не имеет ни малейшего представления о способе ведения метадаты из вашего сервиса. Без разметки вы просто получите все слова из документа построчно. Реальная разница между сервисами -- умение поддерживать разные языки, отличать рукописный код от картинок (с какой-то вероятностью), и уметь корректно распознавать текст, который выступает за границы поля (частая проблема у рукописного).

liamkin · Post by **liamkin** » 07 Oct 2019 15:43

Slava V wrote: 07 Oct 2019 11:04 Дали задачку на работе: есть куча отсканированныx документов (pdf); документы очень всякие (анкеты, формы итд), в каждом документе куча полей, некоторые из ниx заполнены, некоторые пропущены; какие-то документы заполняли от руки, какие-то нет

Вопрос - не подскажет ли кто-нибудь из благородныx донов теxнологию, которя позволит:

1) распознать в каждом документе поля (наример, на картинке внизу, должно быть найдено поле "DATE OF LEASE")
список возможныx полей и правила иx заполнения известны заранее, надо иx только найти в документе.

2) распознать текст, который вписан в каждое из этиx полей (даже если это рукописный текст)

3) собрать дополнительную информацию о проблемаx (например, клиент должен был поставить галочку под одним из вариантов - и не поставил. Или текстовое поле надо было заполнить в одну строчку, а он втиснул две)

подозреваю, что есть какие-то сервисы, которые делают часть из вышеперечисленного; не подскажете в какую сторону копать? Я погуглил, но ничего из того, что можно использовать, пока не нашел (везде тонны научныx статей а с сервисами не очень, в лучшем случае предлагают распознать весь pdf как большой кусок текста). Картинка - из одной такой статьи.

Я бы советовал сканировать Abbye FineReader-ом и сохранять как rtf или html (легко читаемый, текстовый! формат). А затем рыть анализ текста Питоном (или Перлом).
Можно конечно и по геометрии - но некоторые формы вам придется добивать вручную, те которые не сработали.

Slava V · Post by **Slava V** » 07 Oct 2019 15:49

tessob wrote: 07 Oct 2019 12:23Вот все 20 полей вы и будете обводить квадратиками. А кроме этого, если формуляр не единственный, изобретать способы различать разные формуляры и выдумывать признаки. Например, по конкретному тексту или номеру в конкретной части документа. Работа нудная и неблагодарная.

у нас, к сожалению, не будет одной утвержденной формы; список полей будет тот же, а вот выглядеть в документе они могут по-разному

я надеялся, что в наши дни, когда космические корабли бороздят просторы Большого театра ML на картинке может отличить кошку от собаки, можно научить ML отличать поля от прочего текста

скажем, прямоугольник, в левом верxнем углу которого что-то написано - это скорее всего поле (если только не написано слишком много - тогда это просто рамка вокруг всей формы) - примерно как в этой форме

Slava V · Post by **Slava V** » 07 Oct 2019 15:55

liamkin wrote: 07 Oct 2019 15:43 Я бы советовал сканировать Abbye FineReader-ом и сохранять как rtf или html (легко читаемый, текстовый! формат). А затем рыть анализ текста Питоном (или Перлом).
Можно конечно и по геометрии - но некоторые формы вам придется добивать вручную, те которые не сработали.

я очень надеюсь, что кто-то уже оформил это в виде сервиса, это ведь одно из применений ML, которое может быть реально востребовано

liamkin · Post by **liamkin** » 07 Oct 2019 16:00

Slava V wrote: 07 Oct 2019 15:55
liamkin wrote: 07 Oct 2019 15:43 Я бы советовал сканировать Abbye FineReader-ом и сохранять как rtf или html (легко читаемый, текстовый! формат). А затем рыть анализ текста Питоном (или Перлом).
Можно конечно и по геометрии - но некоторые формы вам придется добивать вручную, те которые не сработали.
я очень надеюсь, что кто-то уже оформил это в виде сервиса, это ведь одно из применений ML, которое может быть реально востребовано

Ну, сервис такой будет платным, чтобы вы заранее губу не раскатывали. И озаботился ли Абби разработкой такого сервиса - не знаю. Думаю да. Было бы странно если бы нет.

Slava V · Post by **Slava V** » 07 Oct 2019 16:02

liamkin wrote: 07 Oct 2019 16:00 Ну, сервис такой будет платным, чтобы вы заранее губу не раскатывали. И озаботился ли Абби разработкой такого сервиса - не знаю. Думаю да. Было бы странно если бы нет.

заплатим, не вопрос
я надеялся, что такой сервис уже есть, а то и не один

tessob · Post by **tessob** » 07 Oct 2019 16:28

Напишите в Абби и киньте им несколько примеров. Они вам дня за 3-4 ответят поможет их софт или нет. Мне их сервис понравился, когда мы работали. Только напишите какого рода ошибки для вас будет приемлемы, а какого нет. Текст распознается с какой-то вероятностью и далеко не 100%-ой.

Flash-04 · Post by **Flash-04** » 07 Oct 2019 19:54

Abbyy съели собаку на этом и вырастили бизнес.

VovaK98 · Post by **VovaK98** » 07 Oct 2019 21:56

https://aws.amazon.com/textract/

aleh · Post by **aleh** » 08 Oct 2019 19:11

Я успользую pdfminer для парсинга. Либо как конвертер в html с последующим скрапингом питоном, либо как библиотеку для "all in one solution"

Мальчик-Одуванчик · 08 Oct 2019 22:05

Статейка в тему: https://habr.com/ru/post/466565/

Привет

Распознавание pdf forms используя machine learning?

Распознавание pdf forms используя machine learning?

Re: Распознавание pdf forms используя machine learning?

Re: Распознавание pdf forms используя machine learning?

Re: Распознавание pdf forms используя machine learning?

Re: Распознавание pdf forms используя machine learning?

Re: Распознавание pdf forms используя machine learning?

Re: Распознавание pdf forms используя machine learning?

Re: Распознавание pdf forms используя machine learning?

Re: Распознавание pdf forms используя machine learning?

Re: Распознавание pdf forms используя machine learning?

Re: Распознавание pdf forms используя machine learning?

Re: Распознавание pdf forms используя machine learning?

Re: Распознавание pdf forms используя machine learning?

Re: Распознавание pdf forms используя machine learning?