Introdução ao Aprendizado de Máquina Estatístico

Você está aqui

Nesta seção, vamos definir os componentes do modelo de aprendizado estatístico. Considere um processo de fermentação do caldo (vinho) proveniente da cana de açúcar. O rendimento do processo de fermentação é definido como a porcentagem de açúcar do caldo que é transformada em álcool. Neste caso, podemos medir diversas características do caldo para melhorar o algoritmo de aprendizado. Suponha que medimos o teor de açúcar e o pH do caldo da cana de açúcar na entrada do processo de fermentação. Ao observarmos o processo, registramos a terna $z_1, z_2, y$ no qual $z_1$ corresponde ao teor de açúcar do caldo, $z_2$ corresponde ao pH do caldo e $y$ é o rótulo (sucesso ou fracasso) relacionado com as variáveis de entrada $x=(z_1, z_2)$.

Na sequência, introduzimos parte da notação que será utilizada neste trabalho. Seja $E$ um espaço métrico completo e separável equipado com a $\sigma$-álgebra de Borel $\beta(E)$. Dado um subconjunto $G \in  \beta(E)$, a $\sigma$ álgebra traço de $G$ é definida por $\beta(G) = \{G \cap A: A \in \beta(E) \}$. Neste caso, dizemos que $G$ é um espaço de Borel equipado com a $\sigma$-álgebra traço $\beta(G))$.   Denotamos por $\mathbb{R}$ o conjunto dos números reais com a respectiva $\sigma$-álgebra de Borel $\beta (\mathbb{R})$. Para qualquer espaço mensurável $(Y, \beta (Y))$, denotamos por $Y^n$ para $n=1,2, \cdots, \infty$ o produto Cartesiano de Y com ele mesmo $n$-vezes e por $(\beta(Y) )^n$ a $\sigma$-álgebra dos cilindros mensuráveis de $Y^n$ com base em $\{1, \cdots , n\}$ (a $\sigma$-álgebra produto). Além disso, sabemos que $(\beta(Y))^n = \beta(Y^n)$ para todo $n=1,2, \cdots, \infty$. Para os leitores não familiarizados com a terminologia de espaços de Borel, considere o espaço de Borel como um subconjunto do espaço Euclidiano $\mathbb{R}^d$, para algum $d=1,2,3, \cdots, \infty$. Os elementos de $Y^n$ são denotados por ${\bf y}_n= (y_1, y_2 , \cdots , y_n)$.  De forma geral, a entrada do processo de aprendizado é composto por três elementos: espaço domínio, espaço de rótulos e o conjunto de dados. 

1) Espaço domínio: Considere $(\chi, \beta(\chi))$ um espaço de Borel correspondente ao espaço domínio, no qual $\beta(\chi)$ corresponde a $\sigma$-álgebra de Borel dos subconjuntos de $\chi$. Em muitos exemplos, tomamos $\chi$ um subconjunto do $\mathbb{R}^d$ com $d=1,2,3, \ldots$ . Os elementos $x \in \chi$ são as entradas aleatórias com distribuição de probabilidade $\mathbb{P}_{\chi}$ definida sobre $(\chi, \beta(\chi))$. Em geral, não conhecemos a probabilidade $\mathbb{P}_{\chi}$. No exemplo do processo de fermentação, temos que $\chi = \{x=(z_1, z_2) : 0 < z_1 < 1, ~ z_2 > 0 \} \subset \mathbb{R}^2$; 

2) Espaço de Rótulos:  Considere $(\mathcal{Y}, \beta(\mathcal{Y}))$ um espaço de Borel correspondente ao espaço de rótulos. Para cada $x \in \chi$ associamos um rótulo $y \in \mathcal{Y}$ correspondente a saída do processo. Por exemplo, no processo de fermentação, temos que $\mathcal{Y}=\{0,1\}$, no qual $1$ representa um processo de fermentação com rendimento acima de $90\%$ (sucesso) e $0$ o contrário (fracasso).

3) Conjunto de dados de treinamento:  Denotamos por ${\bf o}_n = \{(x_1,y_1) , \cdots , (x_n , y_n)\}$ a sequência de pontos rotulados correspondente aos dados de treinamento. Esta é a entrada que temos disponível para conduzir o processo de aprendizado. Por exemplo, ao acompanharmos o processo de fermentação observamos ${\bf o}_n = \{((z_{11},z_{21}),y_1), \ldots , ((z_{1n},z_{2n}),y_n)\}.$ Para uma amostra de tamanho $n$, denotamos por $\mathbb{O}^n = (\chi \times \mathcal{Y})^n$ o espaço nos quais os dados tomam valores, que será equipado com  $\sigma$-álgebra de Borel $\beta(\mathbb{O}^n)$, para todo $n=1,2, \ldots$.  Como $\mathbb{O}=\chi \times \mathcal{Y}$ é um espaço de Borel, sabemos que $\mathbb{O}^n$ também é um espaço de Borel, para todo $n=1,2, \ldots , \infty$. O espaço de todos os conjuntos de dados é denotado por $\mathbb{O}^\infty$  e equipado com a $\sigma$-álgebra de Borel $\beta(\mathbb{O}^\infty)$. De forma geral, qualquer conjunto de dados ${\bf o}_n$ de tamanho $n$ pode ser definido como um elemento de $\mathbb{O}^\infty$ através da projeção coordenada $\pi^n: \mathbb{O}^\infty \rightarrow  \mathbb{O}^n$, que carrega as sequências $(o_1, o_2 , \ldots) \in \mathbb{O}^\infty$ nas primeiras $n$-coordenadas $(o_1, \ldots , o_n) \in \mathbb{O}^n$.

O problema de aprendizado de máquina consiste desenvolver uma regra de aprendizado (algoritmo) capaz de prever o rótulo futuro do processo $y \in \mathcal{Y}$ baseado nos dados de entrada $x \in \chi$. Tal regra é dada por uma função  $h : \chi \rightarrow \mathcal{Y}$. Esta função é denominada um preditor ou uma hipótese ou um classificador. O preditor será utilizado para prever novos rótulos baseados nos pontos de entrada $(x \in \chi)$. No exemplo, esta regra $h$ será utilizada para prever o comportamento do processo (sucesso ou fracasso) baseado nas variáveis de entrada (teor de açúcar e o pH). Denotamos por $\bar{\mathcal{H}} := \{ h: \chi \rightarrow \mathcal{Y}, ~ \text{Borel mensurável}\}$ a classe de preditores possíveis e $\mathcal{H} \subset \bar{\mathcal{H}}$ uma subclasse de preditores admissíveis. Vamos supor que $\mathcal{H}$ também é um espaço de Borel equipado com a $\sigma$-álgebra $\beta(\mathcal{H})$.  Um algoritmo de aprendizagem é uma função Borel mensurável $A: \mathbb{O}^n \rightarrow \mathcal{H}$, tal que para cada amostra ${\bf o}_n \in \mathbb{O}^n$ associa um preditor $A({\bf o}_n) = h({\bf o}_n , \cdot) \in \mathcal{H}$ na classe de preditores admissíveis, para todo $n \geq 1$.

O processo de geração dos dados é crítico para o entendimento da estrutura de aprendizado. Assumimos que existe uma probabilidade $\mathbb{P}_\chi$ definida sobre $(\chi , \beta(\chi))$. É importante comentarmos que não temos qualquer conhecimento sobre esta distribuição de probabilidade $\mathbb{P}_\chi$. Com respeito aos rótulos, admitimos que existe uma probabilidade de transição $\nu(\cdot \mid  \cdot): \beta(\mathcal{Y}) \times \chi \rightarrow [0,1]$, que relaciona a entrada $x \in \chi$ do processo com o rótulo $y \in \mathcal{Y}$ correspondente à saída do processo. Obviamente, que a probabilidade de transição $\nu$ também é desconhecida. A partir destes componentes, admitimos que cada elemento $ (x,y) \in \mathbb{O}$ é amostrado de uma distribuição de probabilidade conjunta dada por $$\mathbb{P} (A \times B)= \int_B \nu (A \mid x) \mathbb{P}_{\chi} (dx), \quad A\in \beta(\mathcal{Y}) , B \in \beta(\chi),$$ definida sobre $(\chi \times \mathcal{Y} , \beta(\chi) \times \beta(\mathcal{Y}))$. O ponto crítico é que não conhecemos a probabilidade conjunta $\mathbb{P}$. A única informação que temos sobre a probabilidade $\mathbb{P}$ está nos dados de treinamento. Uma forma simples de chegarmos a probabilidade de transição $\nu$ consiste em admitirmos que existe uma função $f: \chi \rightarrow \mathcal{Y}$ Borel mensurável que corresponde  à ``verdadeira" função  geradora de rótulos. Neste caso, para cada $x \in \chi$ existe um único rótulo $y=f(x)$. Assim, temos que $$\mathbb{P} (f^{-1}(B) \times B)= \int_B 1\!\!1_{ \{ f^{-1} (B) \}} (x) \mathbb{P}_{\chi} (dx), \quad B \in \beta(\chi). $$ Desde que $f$ é uma função Borel mensurável podemos estender $\mathbb{P}$ sobre a $\sigma$-álgebra produto $\beta(\mathcal{Y}) \times \beta(\chi)$. Neste caso, deduzimos que $\nu (f^{-1}(B) \mid  x) = 1\!\!1_{ \{ f^{-1} (B) \}} (x)$ para todo $x \in \chi$ e $B \in \beta(\chi)$.

A partir destes elementos do sistema de aprendizado, precisamos desenvolver uma estratégia para escolher preditores na classe $\mathcal{H}$ de preditores admissíveis. Neste sentido, necessitamos de uma função que avalia a performance dos preditores.    Uma função Borel mensurável e limitada $\ell : \mathbb{O} \times \mathcal{H} \rightarrow [0, \bar{a}]$ é denominada função perda, no qual $\bar{a}$ é uma constante positiva. A função risco é dada pelo valor esperado da função perda relacionada com um  preditor $h \in \mathcal{H}$ e com uma distribuição de probabilidade $\mathbb{P}$ sobre $(\mathbb{O} , \beta(\mathbb{O}))$, na qual $$L(\mathbb{P} , h) = \mathbb{E}_{\mathbb{P}} \left[ \ell (\cdot , h)  \right], \quad \mathbb{P} \in \mathcal{P}(\mathbb{O}), ~ ~ h \in \mathcal{H},$$  $\mathcal{P}(\mathbb{O})$ corresponde ao espaço de todas as probabilidade definidas sobre $(\mathbb{O} , \beta (\mathbb{O}))$ e $\mathbb{E}_{\mathbb{P}}$ é a esperança tomada com respeito a probabilidade $\mathbb{P}$. Formalmente, queremos encontrar um preditor $h^\star \in \mathcal{H}$ que minimize a função risco $L(\mathbb{P}, \cdot)$, \begin{equation} \label{eof} L(\mathbb{P}, h^\star) = \inf_{h\in \mathcal{H}} L(\mathbb{P} , h).\end{equation} Desde que $(\mathbb{O} , \beta(\mathbb{O}))$ é um espaço de Borel, sabemos que $\mathcal{P}(\mathbb{O})$ também é um espaço de Borel equipado com a topologia da convergência fraca. Além disso, se a função risco $L: \mathcal{P}(\mathbb{O}) \times \mathcal{H}$ for semicontínua inferiormente e o espaço de preditores admissíveis $\mathcal{H}$ for compacto, existe uma função $\Phi:  \mathcal{P}(\mathbb{O}) \rightarrow  \mathcal{H}$ que é Borel mensurável tal que $$L(\mathbb{P}, \Phi(\mathbb{P})) = \inf_{h\in \mathcal{H}} L(\mathbb{P} , h).$$  Com isso, basta tomarmos $h^\star = \Phi(\mathbb{P})$. Agora, observe que $h^\star$ é uma função da probabilidade $\mathbb{P}$, que é desconhecida. Portanto, não temos como utilizar $h^\star$ na prática.

Para ilustrarmos a abrangência da formulação do problema de aprendizado de máquina proposto acima, consideramos os seguintes exemplos.

1) Regressão: Tomamos $\chi$ e $\mathcal{Y}$ como um subconjunto do $\mathbb{R}^d$ e $\mathbb{R}$, respectivamente. A classe de preditores admissíveis $\mathcal{H}$ corresponde ao conjunto de funções $h:\chi \rightarrow \mathbb{R}$ Borel mensuráveis e limitadas. Neste caso, a função perda é dada por $\ell ((x,y),h) = (y - h(x))^2$.

2) Classificação com núcleo reprodutivo em espaços de Hilbert - Support Vector Machine: Considere $\chi$ um subconjunto do $\mathbb{R}^d$ e $\mathcal{Y}=\{0,1\}$. Seja $\mathcal{H}$ um subconjunto limitado de um espaço de Hilbert com núcleo reprodutivo (Reproducing Kernel Hilbert Space). A função perda $\ell ((x,y),h) = 1\!\!1_{ \{y \neq h(x)  \}}$ corresponde ao erro de classificação.

No exemplo de rendimento do processo temos o par $(X,Y)$, no qual o domínio é dado por $X=(Z_1 , Z_2)$  com $Z_1$ o teor de açúcar e $Z_2$ o pH do caldo. Neste caso, o espaço de rótulos é binário $\mathcal{Y}= \{0,1\}$. Dado uma probabilidade $\mathbb{P} \in \mathcal{P}(\mathbb{O})$ e um preditor $h \in \bar{\mathcal{H}}$ quaisquer, a função de risco é dada pela a probabilidade de erro de classificação na forma

\[
    \ell ((x,y),h) = 1\!\!1_{ \{y \neq h(x)  \}}  \quad \text{e} \quad L(\mathbb{P}, h) := \mathbb{P} \left[ Y \neq h(X) \right] .
 \]
Desde que $\mid Y - h(X) \mid \in \{0,1\}$, temos que

\[
L(\mathbb{P}, h) = \mathbb{E}_{\mathbb{P}} \left[ 1\!\!1_{ \{ Y \neq h(X) \}}  \right] = \mathbb{E}_{\mathbb{P}} \mid Y - h(X) \mid = \mathbb{E}_{\mathbb{P}} \mid Y - h(X) \mid^2,
\] 
no qual $\mathbb{E}_{\mathbb{P}}$ é a esperança com respeito a probabilidade $\mathbb{P}$. O mínimo de $L(\mathbb{P}, \cdot)$ é dado pelo classificador de Bayes

\[
\Phi(\mathbb{P}) = h^{\star}(X) =  \left\{
  \begin{array}{ll}
    1, & \hbox{se} ~  ~  \mathbb{E}_{\mathbb{P}} (Y \mid X) = \nu(\{1\} \mid X) \geq \frac{1}{2}, \\ \\
    0, & \hbox{se} ~  ~  \mathbb{E}_{\mathbb{P}} (Y \mid X) = \nu(\{1\} \mid X) < \frac{1}{2}.
  \end{array}
\right.
\] 

Se a distribuição de probabilidade $\mathbb{P}$ é conhecida, o classificador de Bayes $h^{\star}$ é o que apresenta menor erro de classificação. Na prática, temos acesso apenas ao conjunto de dados de treinamento ${\bf o}_n=\{(x_i , y_i) : i=1, \cdots , n\}$ que são amostrados da distribuição de probabilidade $\mathbb{P}$ desconhecida. Portanto, não temos como utilizar o classificador de Bayes na prática. Na sequência, vamos introduzir o primeiro princípio básico da teoria de aprendizado de máquina.

Sobre o Portal Action

O Portal Action é mantido pela Estatcamp - Consultoria Estatística e Qualidade, com o objetivo de disponibilizar uma ferramenta estatística em conjunto com uma fonte de informação útil aos profissionais interessados.

Facebook

CONTATO

  •  Maestro Joao Seppe, 900, São Carlos - SP | CEP 13561-180
  • Telefone: (16) 3376-2047
  • E-Mail: [email protected]