Sobreajuste - Overfitting

Você está aqui

Apesar do princípio da MRE ser uma regra bem natural, sem o devido cuidado, este método pode facilmente falhar. Para demonstrarmos tal falha, vamos retornar ao problema de classificação das bateladas do processo de fermentação. Considere uma amostra ${\bf o}_n=\{(x_1,y_1), \cdots , (x_n,y_n)\}$ distribuída uniformemente no quadrado cinza conforme a figura 1.

 

Figura 1: Amostra Rotulada

Assumimos que a probabilidade $\mathbb{P}_{\chi}$ tem distribuição uniforme sobre o quadrado cinza. Na figura 1, suponha que a área do quadrado cinza é igual a $2$ e a área do quadrado preto (tracejado) é igual a 1. Também admitimos a existência de uma função $f: \chi \rightarrow \{0,1\}$ que determina os rótulos na forma: $f(x):=1$ se $x$ pertence ao quadrado preto e $f(x):=0$ caso contrário. Considere o seguinte preditor

\[
h_E({\bf o}_n, x) :=
\left\{
  \begin{array}{ll}
    y_i, & \hbox{ se existe} ~ i ~ \mbox{tal que} ~ x=x_i ~ \mbox{para algum} ~ i=1,2, \ldots , ~n; \\ \\
    0, & \hbox{caso contrário.}
  \end{array}
\right.
\] 

Com isso, obtemos que $L_E({\bf o}_n,h_E({\bf o}_n, x))=0$ para toda amostra ${\bf o}_n \in \mathbb{O}^n$ e, consequentemente, este preditor minimiza a função de risco empírica. Com isso, dizemos que $h_E({\bf o}_n, \cdot)$ satisfaz ao princípio da MRE para todo $n=1,2, \ldots$.

Como a distribuição de probabilidade $\mathbb{P}_\chi$ é uniforme no quadrado cinza, sabemos que um preditor que assume 1 em um número finito de pontos e zero no restante, é igual a zero $\mathbb{P_\chi}$-quase certamente. Assim, obtemos que

\[
L(\mathbb{P} , h_E({\bf o}_n))= \mathbb{E}_{\mathbb{P}} \left[\ell (\cdot , h_E({\bf o}_n)) \right] = \mathbb{E}_{\mathbb{P}} \left[\ell(\cdot , 0) \right] = \frac{1}{2}.
\] 

Portanto, encontramos um preditor $h_E({\bf o}_n)$ que tem um desempenho muito bom com os dados, mas seu desempenho prático é ruim. Este fenômeno é conhecido como sobreajuste (overfitting). Intuitivamente, este fenômeno ocorre quando o preditor se ajuste muito bem aos dados de treinamento.

 

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]