Текстовые файлы PDF с Python?

Есть ли пакет/библиотека для python, который позволит мне открыть PDF файл и выполнить поиск текста для определенных слов?

2 ответа

Используя PyPdf2, вы можете использовать extractText() для извлечения pdf-текста и работы над ним.

Обновление: Изменен текст для ссылки на PyPdf2, благодаря @Aditya Kumar для головок.


Я не думаю, что вы можете сделать это за один шаг, но вы можете получить текст из pdf с pdfminer. Затем вы можете применить любой текстовый поиск к восстановленным данным.

licensed under cc by-sa 3.0 with attribution.