Se você precisa usar o recurso de reconhecimento de caracteres, conheça e veja como instalar o Tesseract OCR no Ubuntu, Mint, Debian e derivados.
Tesseract é um mecanismo de OCR de código aberto mais preciso que lê uma ampla variedade de formatos de imagem e os converte em texto em mais de 40 idiomas.
O Tesseract 5.0.0 foi lançado oficialmente há alguns dias e apresenta: Treinamento mais rápido e desempenho de OCR com menos uso de memória por meio de ‘inchaços rápidos’, suporte para macOS e Apple Silicon mais recentes, melhor suporte para ARM/ARM64, melhorias de API e muito mais.
E, abaixo, este tutorial simples mostra como instalar o mecanismo Tesseract OCR mais recente em todas as versões atuais do Ubuntu via PPA.
Como instalar o Tesseract OCR no Ubuntu e seus derivados
O mecanismo de reconhecimento óptico de caracteres está disponível nos repositórios do Ubuntu, embora sempre seja antigo.
Graças a Alexander Pozdnyakov, o mantenedor do Tesseract OCR no repositório oficial do Debian/Ubuntu, também mantém alguns PPAs com os pacotes mais recentes. E, a maioria das arquiteturas de CPU (amd64, i386, arm64/armhf, ppc64el, s390x) são suportadas.
Dito isso, para instalar o Tesseract OCR no Ubuntu e ainda poder receber automaticamente as futuras atualizações dele, você deve fazer o seguinte:
Passo 1. Abra um terminal (use as teclas CTRL + ALT + T);
Passo 2. Adicione o repositório do programa com um dos comandos abaixo;
Para a versão mais recente do Tesseract OCR 4 (v4.1.3 até agora), o PPA estável mantém os pacotes para Ubuntu 18.04, Ubuntu 20.04, Ubuntu 21.10 e Ubuntu antigo 16.04/14.04, use.
sudo add-apt-repository ppa:alex-p/tesseract-ocr
ou
A nova série de lançamento 5.x está disponível no Devel PPA para Ubuntu 18.04, Ubuntu 20.04 e Ubuntu 21.04. Ubuntu 21.10 de alguma forma não é suportado no momento. Pra essa versão, use.
sudo add-apt-repository ppa:alex-p/tesseract-ocr-devel
Para Debian Stretch, Buster, Bullseye e Sid, existem repositórios apt para Tesseract v4 e v5. Junto com o Ubuntu 21.10, os usuários podem seguir as instruções do link abaixo para adicionar o repositório:
Tesseract repository for Debian
Passo 3. Atualize o gerenciador de pacotes com o comando:
sudo apt update
Passo 4. Agora use o comando abaixo para instalar o programa;
sudo apt install tesseract-ocr
Pronto! Agora, você pode iniciar o programa no menu Aplicativos/Dash/Atividades ou qualquer outro lançador de aplicativos da sua distro, ou digite tesseract
ou em um terminal, seguido da tecla TAB.
Desinstalando
Para desinstalar o Tesseract OCR no Ubuntu e derivados, faça o seguinte:
Passo 1. Abra um terminal;
Passo 2. Desinstale o programa, usando os comandos abaixo;
sudo add-apt-repository ppa:alex-p/tesseract-ocr -r -y
sudo apt remove tesseract-ocr --auto-remove