预筛选出确为真实欺诈威胁的数据,这样的数据样本怎样找出来。意思就是找肯定是欺诈风险的数据,那种可能是可能不是的不算。典型的二分类监督学习,所有样本,确定输入特征维度,打好标签,分为实际为欺诈与实际没确定肯定是欺诈的两类标签就行,具体用什么算法,一般都用深度神经网络,先进行预处理,例如修补或去掉缺失数据的处理、归一化……等,再送神经网络分类训练。特殊之处在于如果数据比较完善,同一客户的额外数据都有时间先后的多份(一般都这样),那实际还可同一客户按序列组织,可卷积或循环神经网络lstm等变复杂些,可能更有效提高分类质量。