Os sistemas operacionais são baseados em linhas de comando que nos oferecem múltiplas opções para aumentar as capacidades de distribuição, podendo realizar buscas, ações de administração, suporte e muito mais.
Precisamente uma dessas opções está ligada à possibilidade de pesquisar determinados tipos de arquivos no Linux e assim acessar facilmente o seu conteúdo e é por isso que hoje falaremos sobre o pdfgrep que está focado na pesquisa de arquivos PDF.
O que é pdfgrepPdfgrep é um utilitário de linha de comando para pesquisar texto em arquivos PDF de forma simples e funcional, poupando tempo de acessar cada arquivo e pesquisar o texto com ferramentas PDF.
Algumas de suas características são:
- Compatível com Grep, podemos executar muitos parâmetros grep como -r, -i, -n ou -c.
- Capacidade de pesquisar texto em vários arquivos PDF
- Cores apresentadas, esta opção de cor GNU Grep é suportada e habilitada por padrão.
- Suporta o uso de expressões regulares.
- Software grátis
1. Instale Pdfgrep no Linux
Passo 1
Neste caso usaremos o Ubuntu para o qual basta executar a seguinte linha. Lá, digitamos a letra S para aceitar o download e a instalação dos pacotes.
sudo apt install pdfgrep
Passo 2
Outras opções de instalação são:
- Baixe o arquivo .TAR.GZ no link a seguir.
etapa 3
- Ou execute o seguinte comando:
git clone https://gitlab.com/pdfgrep/pdfgrep.gitPasso 4
Em seguida, insira cada uma das seguintes linhas em sua ordem:
./configure make sudo make install
2. Use Pdfgrep no Linux
Passo 1
Depois que o pdfgrep for instalado, esta será a sintaxe a ser usada:
pdfgrep [OPÇÃO…] PADRÃO [ARQUIVO]Passo 2
Cada um dos elementos são:
- Opção: indica os atributos que podemos adicionar na pesquisa, por exemplo -eu ou --ignorar caso, que ignoram a distinção de letras maiúsculas e minúsculas entre o padrão que indicamos e aquele que deve corresponder ao arquivo.
- Padrão: indica uma expressão regular estendida.
- Arquivo: É o arquivo PDF onde deve ser executada a pesquisa.
etapa 3
Começaremos com uma busca simples, por exemplo, procuraremos a palavra Solvetic no arquivo Solvetic.pdf, para isso executamos o seguinte:
pdfgrep Solvetic Solvetic.pdf
PROLONGAR
Passo 4
Neste caso, este termo só existe uma vez no referido arquivo, mas agora vamos procurar o termo Windows em um arquivo oficial Microsoft PDF e este será o resultado que veremos:
PROLONGAR
Etapa 5
Podemos perceber que a palavra pesquisada é destacada o que facilita sua localização. Agora, se adicionarmos o parâmetro -em, Será possível ver os resultados com o número da página onde este termo foi detectado:
PROLONGAR
Etapa 6
Outra opção que podemos usar com o pdfgrep é listar o (s) arquivo (s) PDF que contém um determinado termo, para isso executamos o seguinte:
pdfgrep Solvetic * pdfEtapa 7
Desta forma, o arquivo PDF contendo o termo Solvetic será listado:
PROLONGAR
Etapa 8
Se quisermos abrir o arquivo PDF, podemos executar o seguinte comando:
xdg-open (File.PDF)
PROLONGAR
Etapa 9
As opções gerais que o pdfgrep nos oferece são:
-i, --ignore-caseIgnore as distinções de maiúsculas e minúsculas nos arquivos de origem e de entrada.
-F, --fixed-stringsInterpreta PATTERN como uma lista de strings fixas separadas por novas linhas.
--cacheUse um cache para texto renderizado para acelerar a operação em arquivos grandes.
-P, --perl-regexpInterpreta PATTERN como uma expressão regular compatível com Perl (PCRE).
-H, --with-filenameImprima o nome do arquivo para cada correspondência.
-h, --no-filenameSuprime o prefixo do nome do arquivo na saída.
-n, --page-numberPrefixe cada correspondência com o número da página onde o termo de pesquisa foi encontrado.
-c, --countSuprime a saída normal e imprime o número de correspondências para cada arquivo de entrada.
-p, --page countImprima o número de correspondências por página. Implica -n.
--CorPermite destacar nomes de arquivos, números de página e correspondência de texto com diferentes sequências para exibi-los em cores no terminal, algumas de suas opções são Sempre, nuca ou automático.
-o, --only-matchingImprime apenas a parte correspondente de uma linha sem qualquer contexto circundante.
-r, --recursiveEle nos permite pesquisar recursivamente todos os arquivos (restritos por --include e --exclude) em cada diretório, seguindo os links simbólicos apenas se eles estiverem na linha de comando.
-R, --recursive-referenceO mesmo que -r, mas segue todos os links simbólicos.
-quiet ou -qIsso nos permite sair do aplicativo.
Com este pdfgrep torna-se uma solução ideal ao trabalhar com arquivos PDF em ambientes Linux.