E foi lançado o OCRmyPDF 15 com várias melhorias de desempenho. Confira as novidades dessa atualização e veja como instalar no Linux.
O OCRmyPDF adiciona uma camada de texto OCR aos arquivos PDF digitalizados, permitindo que eles sejam pesquisados ou copiados e colados.
Principais características do OCRmyPDF:
- Gera um arquivo PDF/A pesquisável a partir de um PDF normal
- Coloca o texto OCR com precisão abaixo da imagem para facilitar a cópia/cola
- Mantém a resolução exata das imagens incorporadas originais
- Quando possível, insere informações de OCR como uma operação “sem perdas” sem interromper qualquer outro conteúdo
- Otimiza imagens PDF, muitas vezes produzindo arquivos menores que o arquivo de entrada
- Se solicitado, enquadra e/ou limpa a imagem antes de executar o OCR
- Valida arquivos de entrada e saída
- Distribui o trabalho em todos os núcleos de CPU disponíveis
- Usa o mecanismo Tesseract OCR para reconhecer mais de 100 idiomas
- Mantém seus dados privados privados.
- Dimensiona corretamente para lidar com arquivos com milhares de páginas
- Testado em batalha em milhões de PDFs
Novidades do OCRmyPDF 15
Uma grande atualização do OCRmyPDF já está disponível, o projeto de código aberto que pode funcionar em PDFs digitalizados e outros documentos PDF para adicionar uma camada de texto de reconhecimento óptico de caracteres (OCR) aos arquivos para permitir que eles sejam pesquisados ou copiados e colados.
O OCRmyPDF facilita muito o trabalho com arquivos de texto PDF digitalizados e agora com o OCRmyPDF v15 é ainda melhor. Para completar, o OCRmyPDF 15 atualiza seus requisitos Python e várias dependências.
Esta versão também decidiu abandonar o suporte para Windows e Linux de 32 bits – agora apenas sistemas operacionais de 64 bits são suportados, com base no fato de que muitas de suas dependências passaram a ser apenas de 64 bits.
Além disso, o OCRmyPDF continua a usar o Tesseract como mecanismo de OCR.
OCRmyPDF 15 também traz várias melhorias de desempenho, atualizações para seu pacote Snap e corrige bugs decorrentes de PDFs onde apenas uma pequena parte de uma imagem em uma página representa um DPI/resolução mais alto.
Para saber mais sobre essa versão do OCRmyPDF 15, acesse a nota de lançamento.
Como instalar ou atualizar o OCRmyPDF
Para instalar a versão mais recente do OCRmyPDF nas principais distribuições Linux, use um dos comandos abaixo:
Sistema operacional | Commando de instalaçao |
---|---|
Debian, Ubuntu | apt install ocrmypdf |
Windows Subsystem for Linux | apt install ocrmypdf |
Fedora | dnf install ocrmypdf |
macOS (Homebrew) | brew install ocrmypdf |
macOS (nix) | nix-env -i ocrmypdf |
LinuxBrew | brew install ocrmypdf |
FreeBSD | pkg install py-ocrmypdf |
Conda | conda install ocrmypdf |
Ubuntu Snap | snap install ocrmypdf |
Para todos os outros, consulte essa documentação para obter as etapas de instalação.