З.П. Договорная
Программист
2021-10-17 в 09:14
Нужен скрипт (желательно на Python или Jupyter Notebook), который автоматически извлекал все таблицы из pdf файла.
Плюс с таблицей извлекался текст, относящийся к таблице. Текст расположен мелким шрифтом до и после таблицы.
Этот текст до и после тоже должен извлекаться вместе с таблицей.
Скрипт конвертирует всю информацию в .csv формат.
Скрипт дает название файлу как строчка из DOI.
Для примера прикреплен pdf файл.
https://drive.google.com/file/d/1zrp6KUE3nu9jLuIxuuTqSpI3PLiVDxOQ/view?usp=sharing
DOI расположен внизу на первой странице.
Данный скрипт должен работать для любых подобных научных публикаций в формате pdf. DOI может располагаться где угодно.
По срокам: Не торопит. Главное, чтобы качественно сделано.
Контакты работодателя
Просмотров:
163
| Размещено до: 2021-11-17
Поделитесь вакансией