Як зробити текст у будь-якому PDF-файлі доступним для копіювання

14 февраля, 19:01

Чи бувало у вас, що потрібно терміново скопіювати текст із PDF-файлу, але замість цього виділяється лише картинка? Таке трапляється, якщо документ створено шляхом сканування, а не збережено в текстовому форматі. На щастя, є способи перетворити такий PDF, зробивши текст доступним для копіювання та пошуку.

Про це повідомляє РБК-Україна (проект Styler) з посиланням на провідний у світі сайт з технологій і життєвих порад Lifehacker.

Як скопіювати текст у PDF-документі за допомогою OCRmyPDF

Сучасні програми для сканування використовують оптичне розпізнавання символів (OCR), щоб зробити текст доступним для пошуку і виділення, але іноді зустрічаються документи, де цього немає.

У таких випадках чудово підійде OCRmyPDF - безкоштовний і з відкритим вихідним кодом додаток, який додає OCR у PDF-документи. Це консольна утиліта, яка перетворює будь-який PDF-файл у PDF/A з підтримкою пошуку за текстом. І що найприємніше - програма повністю безкоштовна.

Встановити OCRmyPDF найпростіше через менеджер пакетів на пристроях з Linux і через Homebrew на Mac. Користувачі Windows також можуть встановити додаток, але для цього знадобиться Python і кілька додаткових залежностей - якщо готові трохи розібратися, то це можливо.

Після встановлення додатка ви можете використовувати його, набравши "ocrmypdf", потім ім'я документа, до якого ви хочете додати OCR, і після цього ім'я документа, який ви хочете створити. Наприклад, команда "ocrmypdf before.pdf after.pdf" візьме файл "before.pdf", додасть розпізнавання символів і створить новий документ під назвою "after.pdf".

Обробка може зайняти деякий час, залежно від розміру документа. Якщо якість зображення низька, OCR може працювати не зовсім точно. Однак, навіть зі старими і погано стиснутими PDF-файлами програма показує хороші результати.

Додатково OCRmyPDF підтримує безліч корисних функцій:

Стиснення зображень усередині PDF можна ввімкнути, додавши прапор --pdfa-image-compression jpeg
Автоматичний поворот сторінок з бічним текстом виконується за допомогою --rotate-pages
Якщо в PDF вже є неякісний OCR, можна видалити його і виконати розпізнавання заново, додавши --redo-ocr

Докладний посібник із додатковими можливостями можна знайти в документації OCRmyPDF.

Источник материала

InternetUA

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

Вторая трилогия обновлённой классики: Состоялся релиз сборника Tomb Raider IV-VI Remastered полностью на русском языке

GameMag

4 часа назад

Dynasty Warriors: Origins разошлась тиражом в 1 миллион копий за первый месяц

GameMag

4 часа назад

Hell is Us от арт-директора Deus Ex: Human Revolution и Mankind Divided выйдет 4 сентября — игра создается на Unreal Engine 5

GameMag

4 часа назад

Eurogamer: В этом году Microsoft может выпустить на PlayStation 5 больше игр, чем cама Sony — это самое странное поколение

GameMag

5 часов назад

СМИ: Microsoft активно работает над мощной консолью Xbox следующего поколения — детали уже утверждены

GameMag

6 часов назад

Гость из другой галактики найден в Средиземном море

Telegraf

7 часов назад

Букет за 67 тысяч: тиктокер Машуковский поразил любимого роскошным подарком

Telegraf

7 часов назад

Превзошла самого Ньютона: украинская ученая решила одну из самых сложных математических задач

Telegraf

8 часов назад

Криптокошелек Trustee Plus готов к революции: анонсировали масштабное обновление

Gazeta UA

10 часов назад