Pandas Str contém

Pandas Str contém
“Este artigo ensinará como o Python pode ser usado para determinar se uma parte específica da string está incluída no valor da string ou não. O Python tem uma variedade de métodos para encontrar uma substring em uma string, como verificação de padrões, insensibilidade ao caso e muito mais. Qualquer nível de programador deve ser capaz de lidar com strings em python.”

Depois de terminar este tutorial, você saberá:

  • Métodos e operadores python para determinar se uma string compreende uma substring ou não.
  • Filtrando o quadro de dados quando uma substring está presente em uma coluna
  • Usando o regex, determine se uma string inclui uma substring de padrão.

Como encontrar se existe uma substring ou expressão no valor da string em pandas?

Para determinar se uma string consiste em uma substring específica ou não, existem várias funções que podemos fazer para fazer isso.

Exemplo # 1: Verifique se a substring especificada está incluída nos dados da string usando o operador In no

Em Python, o operador no IN pode ser usado com tipos iteráveis, como listas e strings. É usado para determinar se um elemento está presente no iterável ou não. Um elemento encontrado é indicado pelo operador de retorno true. Caso contrário, retorna falsa. O operador in é a abordagem mais rápida e pitônica para determinar se uma string inclui uma substring no Python. O operador deixa claro para todo leitor de seu código o que você está tentando realizar.


A série Pandas foi criada usando o PD.Série () Funcionar depois de importar o módulo Pandas. Nossa série consiste em valores de string "piso", "nosso", "cancelar", "claro", "tour", "store", "bore" e "mal". Agora usaremos o operador no IN para descobrir se a substring especificada existe nos valores de string da série pandas ou não. Para iterar sobre cada valor da série Pandas, o loop "for" será usado, como visto no script abaixo.

Ao usar o operador no IN, obtivemos os resultados na forma de verdadeiro e falso. "Verdadeiro" indica a presença de uma substring para os valores da string e "false" indica a ausência de uma substring. Também podemos usar o operador no Pandas List e Dataframe Colunas contendo valores de string. Vamos experimentar o operador na coluna de dados de dados. Para criar o DataFrame, usaremos o Pandas PD.Função DataFrame ().

Primeiro, criamos um dicionário Python "DIC" composto por pares de valor-chave. Então passamos pelo dicionário "dic" dentro do PD.Quadro de dados(). Criamos nosso quadro de dados com três colunas, eu.e., id, nome e curso. Nosso objetivo é descobrir se as substringas existem na coluna String ou não, por isso vamos nos concentrar apenas nas colunas de string. Existem duas colunas de string em nosso DataFrame "Name" e "Column" com os valores de string ("Davidson", "Hendery", "Henderson", "Jason", "Kim", "Jenson", "Jackson", "Carl" ") E (" Python "," Amazon "," Economics "," Business "," Languages ​​"," Database "," Designing "," Drawing "), respectivamente.

Especificamos a coluna "Nome", que é iterada por Loop para verificar se a substring "Son" está presente nos valores de string do nome da coluna ou não. A função gera o resultado verificando cada valor dentro da coluna.

Exemplo # 2: filtre uma string se a substring estiver presente

O operador no IN será usado para filtrar a lista, série ou DataFrame, extraindo os valores da string se a substring estiver presente. Para conseguir isso, iremos iterar através de cada item do objeto usando um iterador de loop para ver se uma substring está presente. Se os itens da lista consistirem na substring, as strings serão adicionadas a outra lista. Deixe o primeiro criar um objeto de lista

Primeiro, criamos uma lista contendo os itens como valores de string "banana", "maçã", "natureza", "analisar", "peixe", "nome", "camisa", "analógico". Em seguida, uma lista vazia “filtrada” é criada para armazenar os valores resultantes. Utilizamos o operador em In para determinar a presença das substâncias. A função Apênd. Temos quatro valores, eu.e., "Banana", "Analisar", "Nome", "Analógico", que contêm a substring "Na". Agora vamos tentar isso com uma coluna de dados de dados. Usaremos o quadro de dados que criamos no Exemplo # 1.

Desta vez, verificaremos a coluna do curso.

Especificamos que a coluna do curso seja iterada por LOOP para verificar se a substring "ON" está incluída na coluna do curso do DataFrame. Os valores em que a substring existe é anexada a uma lista vazia “filtrada” que imprimimos como uma saída.

As séries.A função STR ”pode obter os valores da série como strings e executar várias operações. Para verificar se um padrão ou regex está presente em uma string de índice ou série, podemos usar a “série.str.Função contém () ”em pandas. Dependendo se um padrão especificado ou regex está presente em um valor de série ou string de índice, o método retorna um índice ou série booleana.

Sintaxe: Series.str.contém (Pat, case = true, sinalizadores = 0, Na = nan, regex = true)

Onde,

Pat: Expressão regular ou sequência de personagens.

caso: Case sensível se definido como true.

bandeiras: Bandeiras a serem passadas através do módulo RE, por exemplo, RE.IGNORAR CASO.

n / D: Para preencher os valores ausentes ou nulos.

regex: O PAT é considerado uma expressão regular se for verdade.

Exemplo # 4: Use Series.str.contém () função para determinar se a substring está presente nos dados

Primeiro, criaremos uma lista com valores de string. Junto com os pandas, também importaremos os re-módulos. O re-módulo oferece um conjunto de recursos de expressão regular eficientes que permitem determinar facilmente se uma string fornecida corresponde ou contém um padrão específico usando o método de correspondência e usando o método de pesquisa, respectivamente.

Nós criamos uma lista com PD.A função da série () com os valores da string “Team_A”, “Team_AB”, “Team_B”, “Team_alpha”, “Team_ace”, “Team_stars” e “Team_C”. Também especificamos um índice para a nossa série "SR" como "Team 1", "Team 2", "Team 3", "Team 4", "Team 5", "Team 6" e "Team 7". Agora, vamos usar a série.str.contém () função para encontrar se a substring está presente nos valores da string da lista.

Dentro do str.Função contém (), especificamos o parâmetro PAT como "Team_A" para verificar se a substring "Team_A" está incluída nos valores da string da lista. A saída mostra que um objeto em série que contém valores booleanos é retornado pela série.str.Função contém (). Onde o padrão fornecido é encontrado na corda, é verdade; Caso contrário, False é devolvido.

Exemplo # 5: Use Series.str.contém () função para determinar se o padrão está presente nos dados

Vamos verificar agora para ver se o padrão especificado existe nos dados da string do objeto da série subjacente. Vamos criar uma string contendo valores de string.

Criamos uma série com os valores "Mickey", "Rickon", "Alex", "Nick", "Rov", "Tim" e "Danny". Para determinar se um padrão está incluído nos dados da string do objeto da série, agora usaremos a “série.str.contém () ”função.

Especificamos o caminho = “i [a-z]” para descobrir se existe um valor de string na série “s” tendo a letra “eu” seguida por qualquer alfabeto minúsculo.

Conclusão

Neste tutorial, tentamos ensinar como determinar se uma string inclui uma substring em pandas. Isso pode ser feito usando vários métodos, mas discutimos alguns deles nos exemplos. Implementamos exemplos para ensinar como determinar se a string contém a substring especificada usando o operador em in, filtre uma string se a substring estiver presente em uma série ou data de dados e usamos o STR.contém () função para determinar se a substring ou expressão está presente nos dados.