首頁 » 主动学习抽样与随机抽样的比较

主动学习抽样与随机抽样的比较

让我们再次看看我们的超重/体重不足预测示例并进 主动学习抽样与随机  行实验。我们想要比较两个 SVM 模型:第一个使用 10 个随机数据点进行训练,第二个使用 10 个数据点进行训练,这些数据点是使用探索与利用主动学习方法选择的。标签是通过应用启 主动学习抽样与随机  发式方法给出的 体重指数如果应用于所有行,这种启发式方法将创建一条接近直线的曲线,SVM 将尝试仅基于 10 个数据点来重现该曲线。

对于随机标签方法

我们只需选择 10 个随机数据点,使用启发式方 手机号码数据 法将它们标记为“超重”或“体重不足”,然后使用它们来训练 SVM。对于主动学习抽样方法,我们将随机选择并标记三个数据点,然后启动主动学习循环。我们训练一个 SVM 并计算所有剩余数据点的潜在分 呼叫中心占用率的未来 数。选择并标记按潜力排名最高的行,我们使用这个额外的、新标记的数据点重新训练 SVM。我们再重复六次,直到我们得到一个使用主动学习抽样选择的 10 行训练的 SVM。现在哪个模型表现更好?具有随机挑选标签的 SVM 还是使用主动学习抽样选择标签的模型?

两个实验性能比较图表

蓝色表示使用主动学习抽样选择的 10 个数据点训练 系统 印度尼西亚号码列表 已经 的模型。该模型的性能优于使用 10 个随机数据点训练的绿色模型。
正如预期的那样,主动学习策略更可靠(图 1)。而随机采样则完全取决于 10 个数据点在特征空间中的随机分布情况。在这种情况下,它们被选出的定位非常糟糕,以至于训练后的 SVM 与体重指数发现的实际决策边界相距甚远。相比之下,主动学习采样仅使用 10 个数据点就产生了与体重指数启发式几乎重叠的决策边界。

返回頂端