Decomposição do Risco

Você está aqui

Dado um conjunto de dados de treinamento ${\bf o}_n$ e um algoritmo de aprendizado $A_E({\bf o}_n)$ obtido via o princípio da MRE, podemos decompor a função de risco na forma:

\[
L(\mathbb{P} ,A_E({\bf o}_n)) = \epsilon_{app} + \epsilon_{est}, \quad \text{nos quais} \quad  \epsilon_{app} := \inf_{h \in \mathcal{H}} L(\mathbb{P} , h), \quad \epsilon_{est} := L(\mathbb{P} , A_E({\bf o}_n)) - \inf_{h \in \mathcal{H}} L(\mathbb{P} , h).
\]

O erro de aproximação $(\epsilon_{app})$ é o menor risco atingido por um preditor na classe $\mathcal{H}$ de preditores admissíveis. Este termo mede o risco em restringirmos a classe de preditores e, é denominado vício indutivo. O erro de aproximação não depende do tamanho da amostra, sendo determinado pela classe $\mathcal{H}$. Quanto mais abrangente for a classe de preditores admissíveis $\mathcal{H}$, menor será o erro de aproximação. Mesmo sem impor restrições na classe de preditores admissíveis, o erro de aproximação não necessariamente será nulo. Por exemplo no caso de classificação binária, sempre teremos o erro do preditor de Bayes.

O erro de estimação $(\epsilon_{est})$ corresponde a diferença entre o erro de aproximação e o erro obtido pelo algoritmo de aprendizado derivado do princípio da MRE. O erro de estimação é consequência do fato de que o risco empírico é  uma estimativa da função risco. Desta forma, o preditor que minimiza o risco empírico também é  uma estimativa do preditor que minimiza a função de risco. A qualidade de estimação depende do tamanho da amostra e da complexidade (tamanho) da classe de preditores admissíveis. Como mostramos na seção Classes de Preditores Finitos, se a classe de preditores admissíveis $\mathcal{H}$ for finita, o erro de estimação $(\epsilon_{est})$ é diretamente proporcional a cardinalidade da classe $\mathcal{H}$ e inversamente proporcional ao tamanho da amostra. Assim, podemos interpretar a cardinalidade da classe de preditores admissíveis como uma medida de complexidade.

De forma geral, nosso principal objetivo consiste em minimizar a função de risco. Em face disto, lidamos com o paradigma do vício indutivo e da complexidade da classe de preditores admissíveis. Por um lado, se escolhemos a classe $\mathcal{H}$ muito rica (complexa) diminuímos o erro de aproximação, mas aumentamos o erro de estimação, o que pode nos levar ao problema de sobreajuste (overfitting). Por outro lado, se escolhemos $\mathcal{H}$ pouco rica (menos complexa) podemos reduzir o erro de estimação, mas aumentamos o erro de aproximação, o que nos leva ao problema de ajuste pobre (underfitting).

 O erro de aproximação depende do conhecimento prévio que temos da classe de preditores admissíveis e da probabilidade desconhecida $\mathbb{P}$. Além disso, o aprendizado PAC requer que o erro de estimação seja uniformemente limitado em relação ao conjunto de todas as probabilidades $\mathbb{P} \in \mathcal{P}(\mathbb{O})$. Nosso objetivo consiste em caracterizar que classes de preditores admissíveis $\mathcal{H}$ tem a propriedade PAC e consequentemente, determinar a complexidade amostral $(m_{\mathcal{H}})$ para aplicarmos o algoritmo de aprendizado dado pelo princípio da MRE. 

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]