15. 传统AI¶

15.1. 检索&推荐¶

在推荐或搜索系统中，通过结合 Lucene 关键词检索与 Embedding 向量检索（Hybrid Search），可以更好地实现多种类型的召回方式，如基于商品（item）、用户（user）、搜索词（query）等角度，扩大召回范围，提高召回质量。

item2item：基于用户当前或历史浏览/点击的商品，召回相似商品（类似“看了又看”）。
query2item：基于用户搜索词召回商品，属于传统的搜索逻辑。
- 用户输入搜索词（Query），系统根据该 Query 召回一批相关的商品（Item）
- 比如用户搜索 “蓝牙耳机”，系统召回相关的耳机商品
user2item：基于用户的整体兴趣画像、历史行为召回感兴趣的商品（协同过滤或画像匹配）。

XGBoost（Extreme Gradient Boosting）是一种高效的、可扩展的梯度提升树（Gradient Boosted Trees）实现，是目前机器学习中最常用的集成学习方法之一，广泛应用于分类、回归、排序等任务。
核心思想：通过不断叠加“弱分类器”（如决策树），每一步训练一个新的树模型来修正上一步模型的错误预测。
模型类型：一种 Boosting 框架，以梯度下降思想优化损失函数。
应用场景
- Kaggle / 天池竞赛获奖常客
- 推荐系统
- 广告点击率预测
- 信用评分 / 风控模型
- 疾病预测 / 医疗建模
- 搜索排序
与其他方法的对比

方法	说明
GBDT	基础版本，XGBoost 是其优化实现
LightGBM	更快更省内存，适合超大规模数据
CatBoost	处理类别特征更好（免 one-hot）
随机森林	并行训练多个树（Bagging），而 XGBoost 是串行 Boosting

在很多工业级推荐系统、广告系统、风控系统中，会采用 多模型融合 架构，常见组合之一就是：
- XGBoost：用于挖掘复杂非线性关系、高阶交叉特征
- Logistic Regression（LR）：用于建模线性关系、解释性强、部署轻量
常见应用形式:

场景	描述
串联推理	先用 XGBoost 召回候选项，再用 LR 进行排序或打分（或者反过来）
特征融合	用 XGBoost 输出的结果作为特征，喂给 LR
集成预测	将 XGBoost 和 LR 的输出加权平均作为最终预测
AB 测试系统支持两者模型	系统支持用不同模型部署做实验对比
线上推理系统支持双模型	统一框架中既可调用 XGBoost，也能快速上线/热切换为 LR

模型	优点	缺点
XGBoost	精度高、适合处理复杂特征	模型大，推理速度慢
LR	简单、高效、易部署	表达能力有限，只建模线性关系