Comandos Pdfgrep para pesquisar arquivos PDF Terminal Linux

Os sistemas operacionais são baseados em linhas de comando que nos oferecem múltiplas opções para aumentar as capacidades de distribuição, podendo realizar buscas, ações de administração, suporte e muito mais.

Precisamente uma dessas opções está ligada à possibilidade de pesquisar determinados tipos de arquivos no Linux e assim acessar facilmente o seu conteúdo e é por isso que hoje falaremos sobre o pdfgrep que está focado na pesquisa de arquivos PDF.

O que é pdfgrepPdfgrep é um utilitário de linha de comando para pesquisar texto em arquivos PDF de forma simples e funcional, poupando tempo de acessar cada arquivo e pesquisar o texto com ferramentas PDF.
Algumas de suas características são:

  • Compatível com Grep, podemos executar muitos parâmetros grep como -r, -i, -n ou -c.
  • Capacidade de pesquisar texto em vários arquivos PDF
  • Cores apresentadas, esta opção de cor GNU Grep é suportada e habilitada por padrão.
  • Suporta o uso de expressões regulares.
  • Software grátis

1. Instale Pdfgrep no Linux

Passo 1
Neste caso usaremos o Ubuntu para o qual basta executar a seguinte linha. Lá, digitamos a letra S para aceitar o download e a instalação dos pacotes.

 sudo apt install pdfgrep

Passo 2
Outras opções de instalação são:

  • Baixe o arquivo .TAR.GZ no link a seguir.

etapa 3

  • Ou execute o seguinte comando:
 git clone https://gitlab.com/pdfgrep/pdfgrep.git
Passo 4
Em seguida, insira cada uma das seguintes linhas em sua ordem:
 ./configure make sudo make install

2. Use Pdfgrep no Linux

Passo 1
Depois que o pdfgrep for instalado, esta será a sintaxe a ser usada:

 pdfgrep [OPÇÃO…] PADRÃO [ARQUIVO]
Passo 2
Cada um dos elementos são:
  • Opção: indica os atributos que podemos adicionar na pesquisa, por exemplo -eu ou --ignorar caso, que ignoram a distinção de letras maiúsculas e minúsculas entre o padrão que indicamos e aquele que deve corresponder ao arquivo.
  • Padrão: indica uma expressão regular estendida.
  • Arquivo: É o arquivo PDF onde deve ser executada a pesquisa.

etapa 3
Começaremos com uma busca simples, por exemplo, procuraremos a palavra Solvetic no arquivo Solvetic.pdf, para isso executamos o seguinte:

 pdfgrep Solvetic Solvetic.pdf

PROLONGAR

Passo 4
Neste caso, este termo só existe uma vez no referido arquivo, mas agora vamos procurar o termo Windows em um arquivo oficial Microsoft PDF e este será o resultado que veremos:

PROLONGAR

Etapa 5
Podemos perceber que a palavra pesquisada é destacada o que facilita sua localização. Agora, se adicionarmos o parâmetro -em, Será possível ver os resultados com o número da página onde este termo foi detectado:

PROLONGAR

Etapa 6
Outra opção que podemos usar com o pdfgrep é listar o (s) arquivo (s) PDF que contém um determinado termo, para isso executamos o seguinte:

 pdfgrep Solvetic * pdf
Etapa 7
Desta forma, o arquivo PDF contendo o termo Solvetic será listado:

PROLONGAR

Etapa 8
Se quisermos abrir o arquivo PDF, podemos executar o seguinte comando:

 xdg-open (File.PDF)

PROLONGAR

Etapa 9
As opções gerais que o pdfgrep nos oferece são:

-i, --ignore-caseIgnore as distinções de maiúsculas e minúsculas nos arquivos de origem e de entrada.

-F, --fixed-stringsInterpreta PATTERN como uma lista de strings fixas separadas por novas linhas.

--cacheUse um cache para texto renderizado para acelerar a operação em arquivos grandes.

-P, --perl-regexpInterpreta PATTERN como uma expressão regular compatível com Perl (PCRE).

-H, --with-filenameImprima o nome do arquivo para cada correspondência.

-h, --no-filenameSuprime o prefixo do nome do arquivo na saída.

-n, --page-numberPrefixe cada correspondência com o número da página onde o termo de pesquisa foi encontrado.

-c, --countSuprime a saída normal e imprime o número de correspondências para cada arquivo de entrada.

-p, --page countImprima o número de correspondências por página. Implica -n.

--CorPermite destacar nomes de arquivos, números de página e correspondência de texto com diferentes sequências para exibi-los em cores no terminal, algumas de suas opções são Sempre, nuca ou automático.

-o, --only-matchingImprime apenas a parte correspondente de uma linha sem qualquer contexto circundante.

-r, --recursiveEle nos permite pesquisar recursivamente todos os arquivos (restritos por --include e --exclude) em cada diretório, seguindo os links simbólicos apenas se eles estiverem na linha de comando.

-R, --recursive-referenceO mesmo que -r, mas segue todos os links simbólicos.

-quiet ou -qIsso nos permite sair do aplicativo.

Com este pdfgrep torna-se uma solução ideal ao trabalhar com arquivos PDF em ambientes Linux.

Você vai ajudar o desenvolvimento do site, compartilhando a página com seus amigos

wave wave wave wave wave