З.П. Договорная

Программист

2021-10-17 в 09:14
Нужен скрипт (желательно на Python или Jupyter Notebook), который автоматически извлекал все таблицы из pdf файла. Плюс с таблицей извлекался текст, относящийся к таблице. Текст расположен мелким шрифтом до и после таблицы. Этот текст до и после тоже должен извлекаться вместе с таблицей. Скрипт конвертирует всю информацию в .csv формат. Скрипт дает название файлу как строчка из DOI. Для примера прикреплен pdf файл. https://drive.google.com/file/d/1zrp6KUE3nu9jLuIxuuTqSpI3PLiVDxOQ/view?usp=sharing DOI расположен внизу на первой странице. Данный скрипт должен работать для любых подобных научных публикаций в формате pdf. DOI может располагаться где угодно. По срокам: Не торопит. Главное, чтобы качественно сделано.
Контакты работодателя
Просмотров: 22 | Размещено до: 2021-11-17
Поделитесь вакансией
0.0 / 0

Добавьте первый комментарий к записи

Ваш комментарий