2.2.3. PMF（Probabilistic Matrix Factorization，概率矩阵分解）¶

简单来说，PMF是协同过滤的一种实现方式，更具体地说，它是一种非常成功且经典的基于模型的协同过滤方法。它将矩阵分解的思想置于一个概率框架之下，使得模型更加稳健和易于理解。

1. 核心思想：从矩阵分解说起¶

要理解PMF，首先要理解它的基础：矩阵分解（Matrix Factorization, MF）。

问题：我们有一个巨大的用户-物品评分矩阵 \(R\)，其中行代表用户，列代表物品，矩阵中的值 \(R_{ij}\) 代表用户 \(i\) 对物品 \(j\) 的评分。这个矩阵通常非常稀疏（大部分值是缺失的，因为用户只给少数物品评过分）。
目标：预测这个矩阵中缺失的值，也就是预测用户会对哪些他们没有评分的物品给出高分。
矩阵分解的做法：将这个大而稀疏的矩阵 \(R\) 分解为两个小而稠密的矩阵的乘积：
- 用户矩阵 \(U\)：大小为 (用户数量 × 潜在特征数量)。每一行代表一个用户在“潜在空间”中的向量（例如，这个向量可能隐含地表示用户对“科幻含量”、“喜剧含量”、“演员影响力”等抽象特征的偏好程度）。
- 物品矩阵 \(V\)：大小为 (物品数量 × 潜在特征数量)。每一行代表一个物品在“潜在空间”中的向量（例如，这个向量可能隐含地表示该物品的“科幻含量”、“喜剧含量”、“演员影响力”等程度）。
- 分解的目标是让 \(U\) 和 \(V\) 的乘积尽可能地逼近原始评分矩阵 \(R\)： \(R \approx U \times V^T\)。
- 用户 \(i\) 对物品 \(j\) 的预测评分 \(\hat{R}_{ij}\) 就是用户向量 \(U_i\) 和物品向量 \(V_j\) 的点积： \(\hat{R}_{ij} = U_i \cdot V_j^T\)。

2. PMF的突破：引入概率视角¶

PMF的贡献在于，它为上述的矩阵分解过程提供了一个严格的概率学解释。它假设整个评分矩阵的生成过程是一个概率事件：

先验假设（Prior）：
- 每个用户向量 \(U_i\) 都是从一个均值为0的正态分布（高斯分布）中采样得到的。即 \(U_i \sim \mathcal{N}(0, \sigma_U^2 I)\)。
- 每个物品向量 \(V_j\) 也都是从一个均值为0的正态分布中采样得到的。即 \(V_j \sim \mathcal{N}(0, \sigma_V^2 I)\)。
- 这相当于对模型进行了正则化（Regularization），防止过拟合，假设用户和物品的潜在特征值都不会太大。
似然函数（Likelihood）：
- 观测到的真实评分 \(R_{ij}\) 是由用户向量和物品向量的点积（即预测评分 \(\hat{R}_{ij} = U_i \cdot V_j^T\)），再加上一个随机噪声生成的。
- 这个噪声也服从一个正态分布： \(R_{ij} \sim \mathcal{N}(U_i \cdot V_j^T, \sigma_R^2)\)。
- 这意味着，在给定用户和物品向量的情况下，观测到某个评分值的概率服从一个以预测值为均值的高斯分布。
最大后验概率估计（MAP Estimation）：
- 我们的目标是找到最可能的用户矩阵 \(U\) 和物品矩阵 \(V\)，使得它们在给定观测评分 \(R\) 的条件下的后验概率达到最大。
- 根据贝叶斯定理，最大化后验概率 等价于 最大化似然函数与先验概率的乘积。
- 通过数学推导（取对数），最大化后验概率最终等价于最小化以下目标函数（损失函数）：
\(\sum_{(i,j) \in \text{观测值}} (R_{ij} - U_i V_j^T)^2 + \lambda_U \|U\|_F^2 + \lambda_V \|V\|_F^2\)
- 第一项：预测评分和真实评分之间的平方误差。这保证了模型的预测准确性。
- 第二项和第三项：用户矩阵和物品矩阵的L2正则化项（来自于先验分布）。这控制了模型的复杂度，防止过拟合。
- \(\lambda_U\) 和 \(\lambda_V\) 是超参数，用于平衡误差项和正则化项的重要性。

3. PMF的优势¶

相比于非概率的矩阵分解方法，PMF的优势在于：

坚实的数学基础：提供了一个完整的概率生成模型，使得模型的每个部分都有明确的统计意义。
优秀的正则化：通过先验分布自然地将正则化项引入目标函数，有效地控制了模型复杂度，在稀疏数据上表现更好，泛化能力更强。
灵活性：概率框架使其很容易被扩展。例如，后来很多著名的模型都是PMF的扩展，如：
- 约束PMF：加入用户/物品的偏置项（Bias）。
- 社会化PMF：引入用户的社会关系信息。
- 贝叶斯PMF：使用更复杂的贝叶斯方法（如马尔可夫链蒙特卡洛，MCMC）进行推理，而不是点估计。

4. 总结与类比¶

特性	传统矩阵分解 (MF)	概率矩阵分解 (PMF)
核心	直接分解矩阵，最小化重建误差。	假设数据由概率模型生成，最大化后验概率。
正则化	需要手动添加L2正则化项（如SVD）。	天然自带正则化（通过先验分布）。
视角	优化视角（最小化损失函数）。	概率生成模型视角。
关系	可以看作是PMF的一个特例。	是MF的概率版本解释和升级。

一句话总结PMF： PMF是将矩阵分解技术置于概率图模型框架下的一个贝叶斯方法。它假设观测到的用户评分数据是由用户和物品的潜在特征向量通过一个概率过程生成的，并通过最大化后验概率来学习这些潜在向量，从而实现精准的评分预测。它是推荐系统领域一个里程碑式的方法。