Як зробити текст у будь-якому PDF-файлі доступним для копіювання
Як зробити текст у будь-якому PDF-файлі доступним для копіювання

Як зробити текст у будь-якому PDF-файлі доступним для копіювання

Чи бувало у вас, що потрібно терміново скопіювати текст із PDF-файлу, але замість цього виділяється лише картинка? Таке трапляється, якщо документ створено шляхом сканування, а не збережено в текстовому форматі. На щастя, є способи перетворити такий PDF, зробивши текст доступним для копіювання та пошуку.

Про це повідомляє РБК-Україна (проект Styler) з посиланням на провідний у світі сайт з технологій і життєвих порад Lifehacker.

Як скопіювати текст у PDF-документі за допомогою OCRmyPDF

Сучасні програми для сканування використовують оптичне розпізнавання символів (OCR), щоб зробити текст доступним для пошуку і виділення, але іноді зустрічаються документи, де цього немає.

У таких випадках чудово підійде OCRmyPDF - безкоштовний і з відкритим вихідним кодом додаток, який додає OCR у PDF-документи. Це консольна утиліта, яка перетворює будь-який PDF-файл у PDF/A з підтримкою пошуку за текстом. І що найприємніше - програма повністю безкоштовна.

Встановити OCRmyPDF найпростіше через менеджер пакетів на пристроях з Linux і через Homebrew на Mac. Користувачі Windows також можуть встановити додаток, але для цього знадобиться Python і кілька додаткових залежностей - якщо готові трохи розібратися, то це можливо.

Після встановлення додатка ви можете використовувати його, набравши "ocrmypdf", потім ім'я документа, до якого ви хочете додати OCR, і після цього ім'я документа, який ви хочете створити. Наприклад, команда "ocrmypdf before.pdf after.pdf" візьме файл "before.pdf", додасть розпізнавання символів і створить новий документ під назвою "after.pdf".

Обробка може зайняти деякий час, залежно від розміру документа. Якщо якість зображення низька, OCR може працювати не зовсім точно. Однак, навіть зі старими і погано стиснутими PDF-файлами програма показує хороші результати.

Додатково OCRmyPDF підтримує безліч корисних функцій:

  • Стиснення зображень усередині PDF можна ввімкнути, додавши прапор --pdfa-image-compression jpeg
  • Автоматичний поворот сторінок з бічним текстом виконується за допомогою --rotate-pages
  • Якщо в PDF вже є неякісний OCR, можна видалити його і виконати розпізнавання заново, додавши --redo-ocr

Докладний посібник із додатковими можливостями можна знайти в документації OCRmyPDF.

Джерело матеріала
loader
loader