![Як зробити текст у будь-якому PDF-файлі доступним для копіювання](https://thumbor.my.ua/eOX1CBpLF4_jPOs18N2K9iyp34o=/800x400/smart/filters:format(webp)/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2F3ab34176a821aefaa0ccd87e2e62ab5b.jpg)
Як зробити текст у будь-якому PDF-файлі доступним для копіювання
Чи бувало у вас, що потрібно терміново скопіювати текст із PDF-файлу, але замість цього виділяється лише картинка? Таке трапляється, якщо документ створено шляхом сканування, а не збережено в текстовому форматі. На щастя, є способи перетворити такий PDF, зробивши текст доступним для копіювання та пошуку.
Про це повідомляє РБК-Україна (проект Styler) з посиланням на провідний у світі сайт з технологій і життєвих порад Lifehacker.
Як скопіювати текст у PDF-документі за допомогою OCRmyPDF
Сучасні програми для сканування використовують оптичне розпізнавання символів (OCR), щоб зробити текст доступним для пошуку і виділення, але іноді зустрічаються документи, де цього немає.
У таких випадках чудово підійде OCRmyPDF - безкоштовний і з відкритим вихідним кодом додаток, який додає OCR у PDF-документи. Це консольна утиліта, яка перетворює будь-який PDF-файл у PDF/A з підтримкою пошуку за текстом. І що найприємніше - програма повністю безкоштовна.
Встановити OCRmyPDF найпростіше через менеджер пакетів на пристроях з Linux і через Homebrew на Mac. Користувачі Windows також можуть встановити додаток, але для цього знадобиться Python і кілька додаткових залежностей - якщо готові трохи розібратися, то це можливо.
Після встановлення додатка ви можете використовувати його, набравши "ocrmypdf", потім ім'я документа, до якого ви хочете додати OCR, і після цього ім'я документа, який ви хочете створити. Наприклад, команда "ocrmypdf before.pdf after.pdf" візьме файл "before.pdf", додасть розпізнавання символів і створить новий документ під назвою "after.pdf".
Обробка може зайняти деякий час, залежно від розміру документа. Якщо якість зображення низька, OCR може працювати не зовсім точно. Однак, навіть зі старими і погано стиснутими PDF-файлами програма показує хороші результати.
Додатково OCRmyPDF підтримує безліч корисних функцій:
- Стиснення зображень усередині PDF можна ввімкнути, додавши прапор --pdfa-image-compression jpeg
- Автоматичний поворот сторінок з бічним текстом виконується за допомогою --rotate-pages
- Якщо в PDF вже є неякісний OCR, можна видалити його і виконати розпізнавання заново, додавши --redo-ocr
Докладний посібник із додатковими можливостями можна знайти в документації OCRmyPDF.
![loader](/files/images/preloader.gif)
![loader](/files/images/preloader.gif)