Como Balancear Dados e Validar Modelos com Python e IA

Essa é a parte 23 de 24 na série Python + IA: Fundamentos e Projetos Práticos

Python + IA: Fundamentos e Projetos Práticos

Estamos chegando ao penúltimo dia da jornada Python + IA: Fundamentos e Projetos Práticos. Hoje vamos abordar um dos aspectos mais importantes, mas frequentemente ignorados, no aprendizado de máquina.

🧠 O que você vai aprender hoje:

Por que dados desbalanceados prejudicam modelos
Como usar validação cruzada para avaliações mais confiáveis
Estratégias para balancear datasets e melhorar a performance real

🚨 O problema: modelo “viciado”

Imagine um dataset com:

95% de notícias REAL
5% de notícias FAKE

Um modelo que classifica tudo como REAL vai ter 95% de acurácia — mas é inútil!

🛠️ O que vamos usar:

train_test_split(..., stratify=y) para manter a proporção FAKE/REAL
StratifiedKFold para validação cruzada
Técnicas de balanceamento:
- Oversampling com RandomOverSampler
- Undersampling com RandomUnderSampler
- imblearn (biblioteca complementar)

📦 Instale o pacote extra (se necessário)

pip install imbalanced-learn

✍️ Código: Validação com balanceamento

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score, StratifiedKFold
from imblearn.over_sampling import RandomOverSampler
from sklearn.pipeline import make_pipeline

# Carrega os dados
df = pd.read_csv("fake_news_dataset_v2.csv")
df = df[['text', 'label']].dropna()

# Vetoriza os textos
vectorizer = TfidfVectorizer(stop_words='english', max_df=0.7)
X = vectorizer.fit_transform(df['text'])
y = df['label']

# Aplica oversampling (aumenta a classe minoritária)
ros = RandomOverSampler()
X_bal, y_bal = ros.fit_resample(X, y)

# Modelo + Validação cruzada
model = LogisticRegression()
kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
scores = cross_val_score(model, X_bal, y_bal, cv=kfold, scoring='accuracy')

print(f"📊 Acurácia por divisão: {scores}")
print(f"🔁 Média da acurácia: {round(scores.mean()*100, 2)}%")

✅ Aprendizado do Dia

Entendeu como dados desbalanceados podem enganar
Aprendeu a usar oversampling para nivelar classes
Aplicou validação cruzada para ter múltiplos testes mais realistas

🎯 Desafio do Dia

Substitua LogisticRegression por PassiveAggressiveClassifier ou MultinomialNB
Faça uma função que imprime acurácia, precisão e f1-score para cada rodada do k-fold
Experimente com undersampling e compare os resultados

Navegação<< Como Avaliar a Qualidade de um Modelo de IA com Python — Além da AcuráciaProjeto Final: Criando um Classificador de Fake News com Interface Web em Python (Streamlit) >>