Як зробити текст у будь-якому PDF-файлі доступним для копіювання

14 лютого, 19:01

Чи бувало у вас, що потрібно терміново скопіювати текст із PDF-файлу, але замість цього виділяється лише картинка? Таке трапляється, якщо документ створено шляхом сканування, а не збережено в текстовому форматі. На щастя, є способи перетворити такий PDF, зробивши текст доступним для копіювання та пошуку.

Про це повідомляє РБК-Україна (проект Styler) з посиланням на провідний у світі сайт з технологій і життєвих порад Lifehacker.

Як скопіювати текст у PDF-документі за допомогою OCRmyPDF

Сучасні програми для сканування використовують оптичне розпізнавання символів (OCR), щоб зробити текст доступним для пошуку і виділення, але іноді зустрічаються документи, де цього немає.

У таких випадках чудово підійде OCRmyPDF - безкоштовний і з відкритим вихідним кодом додаток, який додає OCR у PDF-документи. Це консольна утиліта, яка перетворює будь-який PDF-файл у PDF/A з підтримкою пошуку за текстом. І що найприємніше - програма повністю безкоштовна.

Встановити OCRmyPDF найпростіше через менеджер пакетів на пристроях з Linux і через Homebrew на Mac. Користувачі Windows також можуть встановити додаток, але для цього знадобиться Python і кілька додаткових залежностей - якщо готові трохи розібратися, то це можливо.

Після встановлення додатка ви можете використовувати його, набравши "ocrmypdf", потім ім'я документа, до якого ви хочете додати OCR, і після цього ім'я документа, який ви хочете створити. Наприклад, команда "ocrmypdf before.pdf after.pdf" візьме файл "before.pdf", додасть розпізнавання символів і створить новий документ під назвою "after.pdf".

Обробка може зайняти деякий час, залежно від розміру документа. Якщо якість зображення низька, OCR може працювати не зовсім точно. Однак, навіть зі старими і погано стиснутими PDF-файлами програма показує хороші результати.

Додатково OCRmyPDF підтримує безліч корисних функцій:

Стиснення зображень усередині PDF можна ввімкнути, додавши прапор --pdfa-image-compression jpeg
Автоматичний поворот сторінок з бічним текстом виконується за допомогою --rotate-pages
Якщо в PDF вже є неякісний OCR, можна видалити його і виконати розпізнавання заново, додавши --redo-ocr

Докладний посібник із додатковими можливостями можна знайти в документації OCRmyPDF.

Джерело матеріала

InternetUA

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Nothing анонсує два пристрої з несподіваними назвами

InternetUA

36 хвилин тому

Ноутбук вмикається, але не завантажується: експерти розповіли, як самостійно виправити проблему

Политека

40 хвилин тому

Шокувальне відкриття: забруднення пластиком дісталося найвіддаленіших куточків планети

TSN

6 годин тому

Компанія Ілона Маска будуватиме інноваційну мережу підземних тунелів у ОАЕ

ГЛАВКОМ NET

6 годин тому

Штучний інтелект суттєво впливає на розвиток фішингу та інтернет-шахрайства - експерт

InternetUA

7 годин тому

Учені знайшли спосіб заряджати акумулятори у 10 разів швидше

24tv

7 годин тому

Як зробити текст у будь-якому PDF-файлі доступним для копіювання

Як скопіювати текст у PDF-документі за допомогою OCRmyPDF

Технології

Nothing анонсує два пристрої з несподіваними назвами

Ноутбук вмикається, але не завантажується: експерти розповіли, як самостійно виправити проблему

Знайшли золоті скарби давніх сарматів

Кіберполіція розкрила секрети безпечного домашнього Wi-Fi

Samsung Galaxy S26 Ultra не отримає підекранну камеру

Шокувальне відкриття: забруднення пластиком дісталося найвіддаленіших куточків планети

Компанія Ілона Маска будуватиме інноваційну мережу підземних тунелів у ОАЕ

Штучний інтелект суттєво впливає на розвиток фішингу та інтернет-шахрайства - експерт

Учені знайшли спосіб заряджати акумулятори у 10 разів швидше

Технології

Nothing анонсує два пристрої з несподіваними назвами

Ноутбук вмикається, але не завантажується: експерти розповіли, як самостійно виправити проблему

Знайшли золоті скарби давніх сарматів

Кіберполіція розкрила секрети безпечного домашнього Wi-Fi

Samsung Galaxy S26 Ultra не отримає підекранну камеру

Шокувальне відкриття: забруднення пластиком дісталося найвіддаленіших куточків планети

Компанія Ілона Маска будуватиме інноваційну мережу підземних тунелів у ОАЕ

Штучний інтелект суттєво впливає на розвиток фішингу та інтернет-шахрайства - експерт

Учені знайшли спосіб заряджати акумулятори у 10 разів швидше