Конвертация из Word, RTF для классификации документов

Andrey Strelnikov
Уже с Приветом
Posts: 744
Joined: 17 Dec 2009 11:27

Конвертация из Word, RTF для классификации документов

Post by Andrey Strelnikov »

Имеется достаточное количество документов для скармливания в нейронную сеть и последующей классификации.
Но все они в лучшем случае в word.
Может кто-то делал подобную задачу? Чем бы сконвертить документы в текст на python?
User avatar
VladDod
Уже с Приветом
Posts: 55974
Joined: 06 May 2001 09:01

Re: Конвертация из Word, RTF для классификации документов

Post by VladDod »

В Линуксе просто:

для вордовских файлов: docx2txt
для pdf: pdf2text

если их тут "не стояло": sudo apt install docx2txt
в реале супруги редко бывают друзьями, так как их отношения подпорчены сексом (с)Роза
Плавали-Знаем! (C)

Return to “Вопросы и новости IT”