用一个联合分布$P^i_{XY}$来表示第i个domain,现实中用若干样本的集合来表示这个domain;这些domain服从一个超分布$\mathcal{P}$;
所有样本的产生过程:先从超分布$\mathcal{P}$中独立同分布地采样出m个domain:$\{P^i_{XY}\}{i=1}^m$; 再从这个domain中独立同分布地采样出若干样本:$\{x_i^s, y_i^s\}{i=1}^{n_s}$
定义:测试domain(target domain)$n_T$个sample上的误差:
$$ \mathcal{\varepsilon}(f,n_T):=\mathbb{E}{P^T{XY}\sim\mathcal{P}}\mathbb{E}{S^T\sim (P^T{XY})^{\otimes}n_T}[\frac{1}{n_T}\sum_{i=1}^{n_T}l(f(\hat{P}^T_X, X^T_i), Y^T_i)] $$
当测试domain的样本量趋向∞时:$\hat{P}(X) \rightarrow P(X)$
$$ \mathcal{\varepsilon}(f, \infty):=\mathbb{E}{P^T{XY}\sim\mathcal{P}}\mathbb{E}{(X^T,Y^T)\sim P^T{XY}}l(f(P^T_X, X^T), Y^T) $$
令$\tilde{X} = (P_X, X)$,再把超分布$\mathcal{P}$分成两个步骤:
$$ \mathcal{\varepsilon}(f,\infty):=\mathbb{E}{P^T{X}\sim\mathcal{P}X}\mathbb{E}{P^T_{Y|X}\sim\mathcal{P}{Y|X}}\mathbb{E}{X^T\sim P^T_{X}}\mathbb{E}{Y^T|X^T\sim P^T{Y|X}}l(f(P^T_X, X^T), Y^T) \\=\mathbb{E}{P^T{X}\sim\mathcal{P}X}\mathbb{E}{X^T\sim P^T_{X}}\mathbb{E}{P^T{Y|X}\sim\mathcal{P}{Y|X}}\mathbb{E}{Y^T|X^T\sim P^T_{Y|X}}l(f(\tilde{X^T}), Y^T)\\=\mathbb{E}_{(\tilde{X^T}, Y^T)\sim Q^{\mathcal{P}}}l(f(\tilde{X^T}), Y^T) $$
$Q^{\mathcal{P}}$ 是分两步生成$\tilde{X}^T$ 和 $Y^T$的分布;
Domain Generalization的目标是一种学习策略,使得在这样策略下得到的判别函数$\hat{f}$能够渐进地逼近最小化泛化误差的判别函数:
$f^* = \argmin_{f}\mathcal{E}(f, \infty)$
如果:$P_{Y|X} = F(P(X))$, $F()$是一个函数,
那么: