Encontre cordas em pandas

Encontre cordas em pandas

Este artigo ajudará você a entender vários métodos que podemos usar para procurar uma string em um pandas datraframe.

Pandas contém o método

Os pandas nos fornecem uma função contém () que permite a pesquisa se uma substring estiver contida em uma série de pandas ou dataframe.

A função aceita uma corda literal ou um padrão de expressão regular que seja comparado com os dados existentes.

A sintaxe da função é como mostrado:

Series.str.contém (padrão, case = true, sinalizadores = 0, na = nenhum, regex = true)

Os parâmetros da função são expressos como mostrado:

  1. padrão - refere -se à sequência de personagens ou ao padrão regex para pesquisar.
  2. caso - Especifica se a função deve obedecer à sensibilidade ao caso.
  3. bandeiras - Especifica as bandeiras para passar para o módulo Regex.
  4. n / D - preenche os valores ausentes.
  5. regex - Se verdadeiro, trata o padrão de entrada como uma expressão regular.

Valor de retorno

A função retorna uma série ou índice de valores booleanos, indicando se o padrão/substring é encontrado no quadro ou série de dados.

Exemplo

Suponha que tenhamos uma amostra de dados de dados mostrada abaixo:

# importar pandas
importar pandas como PD
df = pd.DataFrame ("Full_Names": ['Irene Coleman', 'Maggie Hoffman', 'Lisa Crawford', 'Willow Dennis', 'Emmett Shelton'])
df

Pesquise uma string

Para procurar uma string, podemos passar a substring como o parâmetro padrão como mostrado:

Imprimir (df.nomes completos.str.contém ('Shelton'))

O código acima verifica se a string 'Shelton' está contida nas colunas Full_Names do DataFrame.

Isso deve retornar uma série de valores booleanos indicando se a string está localizada em cada linha da coluna especificada.

Um exemplo é como mostrado:

Para obter o valor real, você pode passar o resultado do método contains () como o índice do DataFrame.

impressão (df [df.nomes completos.str.contém ('Shelton')])

O acima deve retornar:

nomes completos
4 Emmett Shelton

Pesquisa sensível ao caso

Se a sensibilidade ao caso for importante em sua pesquisa, você poderá definir o parâmetro de caso como true como mostrado:

Imprimir (df.nomes completos.str.contém ('Shelton', caso = true))

No exemplo acima, definimos o parâmetro do caso como True, permitindo uma pesquisa sensível ao caso.

Como procuramos a string minúscula 'Shelton', a função deve ignorar a correspondência maiúscula e retornar falsa.

Pesquisa regex

Também podemos pesquisar usando um padrão de expressão regular. Um exemplo simples é como mostrado:

Imprimir (df.nomes completos.str.contém ('wi | em', case = false, regex = true))

Procuramos por qualquer string que corresponda aos padrões 'wi' ou 'em' no código acima. Observe que definimos o parâmetro de caso como falso, ignorando a sensibilidade do caso.

O código acima deve retornar:

Fechamento

Este artigo abordou como procurar uma substring em um quadro de dados de pandas usando o método contains (). Verifique os documentos para mais.