O que é um algoritmo de árvore de decisão?
Os modelos de classificação e regressão são construídos usando uma técnica de árvore de decisão. Ele mapeia os vetores de valores para os rótulos e representa o classificador como uma árvore de decisão. Essa árvore pode ser comparada às declarações if-then-else aninhadas em que a condição é sempre um teste direto dos valores no vetor. E as filiais então e mais ou menos são mais declarações if-then-Otherward ou fornecem um rótulo de categorização. Uma árvore de decisão aprende com os dados, encontra os recursos mais adequados para diferenciar a saída e verifica recursivamente os dados de entrada fornecidos para prever o rótulo. Uma árvore de decisão pode ser assim, por exemplo, se o vetor de entrada for (a, b, c):
Se A> 10Observe que as outras árvores de decisão têm essa característica além deste. Consequentemente, o problema não é apenas localizar essa árvore de decisão, mas também identificar a mais adequada. O fato de a entrada ser uma amostra de uma coleção considerável do mundo real e que a árvore de decisão é construída para identificar os vetores neste conjunto mais extenso determina com precisão o que "adequado" significa neste caso. Portanto, a definição de "adequada" depende de (1) as propriedades deste conjunto mais amplo (por exemplo, a probabilidade de cada vetor) e (2) o impacto financeiro da classificação incorreta em cada instância específica.
Terminologias relacionadas à árvore de decisão
Nó raiz: O nó raiz da árvore de decisão é onde tudo começa. Todo o conjunto de dados está representado, que é dividido em dois ou mais conjuntos homogêneos.
Nó da folha: Os nós da folha são os últimos nós de saída da árvore. Depois disso, a árvore não pode ser mais dividida.
Dividindo: A divisão do nó de decisão/nó raiz em sub-nó de acordo com as condições especificadas é conhecida como divisão.
Filial: Um galho ou subárvore é uma árvore criada a partir de um nó de uma árvore -mãe.
Podando: A poda é o procedimento de remover os galhos indesejáveis da árvore.
Nós de pais e filhos: O nó raiz da árvore é referido como o nó pai, enquanto os nós que se originam são chamados de nós filhos.
Implementando árvores de decisão em Sklearn
Importando as bibliotecas:
de Sklearn.Os conjuntos de dados importam make_classificationCriando o conjunto de dados:
X, y = make_classification (random_state = 42)Saída:
Os dados do trem são [-2.02514259 0.0291022 -0.47494531… -0.33450124 0.86575519Criando o modelo:
Model = DecisionTreeClassifier (Random_state = 0)Saída:
Array ([0.9, 1. , 0.8, 1. , 1. , 0.9, 0.9, 1. , 0.9, 1. ]))Conclusão
Discutimos os modelos de árvores de decisão em Sklearn que criam uma estrutura semelhante a uma árvore para classificar ou prever os rótulos de saída. Eles dividem os nós para reduzir a profundidade da árvore. Também vimos os vários termos relacionados às árvores de decisão, como nó foliar, nós pais, poda, etc. Então, mais tarde discutimos a implementação do Sklearn.