数据挖掘预测企业老客户流失探讨论文

时间:2022-04-07 09:14:00

导语:数据挖掘预测企业老客户流失探讨论文一文来源于网友上传,不代表本站观点,若需要原创文章可咨询客服老师,欢迎参考。

数据挖掘预测企业老客户流失探讨论文

编者按:本文从前言、客户流失简介、数据挖掘产生的背景及主要分析方法、结束语四个方面进行主要论述。其中,包括:如何保持老客户,控制高价值客户的流失必将成为企业提高竞争力,在激烈竞争中致胜的关键;客户流失是指客户停止使用原有的产品或服务,或转而使用竞争对手的产品或服务;研究哪些客户即将流失,实质上是一个分类问题,即将现有客户分为流失和不流失两类;数据挖掘的主要方法有:概念/类描述,关联分析,分类和预测,聚类分析,孤立点分析和演变分析等,具体材料请详见:

[论文摘要]本文分析了客户流失问题产生的原因及几种主要的表现形式,阐述了运用数据挖掘技术建立客户流失预测模型的必要性,介绍了几种主要的数据挖掘分类方法,最后简单论述了数据挖掘流程中的数据准备步骤。

关键词:数据挖掘客户流失预测模型应用

一、前言

以前,人们往往很长时间内(甚至是一生)都选用同一家公司的产品,但现在情况已经改变了。随着经济的全球化、多样化,公司之间的竞争日趋激烈,客户选择产品及产家的余地越来越大,同时越来越注重服务等附加值,客户流失正日益成为全球企业面临的一个普遍性问题。据统计,赢得一个新客户所花费的成本是保留住一个老客户的5~6倍,如何保持老客户,控制高价值客户的流失必将成为企业提高竞争力,在激烈竞争中致胜的关键。企业必须将战略重心从优化内部流程、提高运营效率转移到满足客户需求、稳定和扩大客户群上,实践以客户为中心、以市场为导向的经营理念。

二、客户流失简介

客户流失是指客户停止使用原有的产品或服务,或转而使用竞争对手的产品或服务。企业客户流失有三种表现形式:公司内客户转移,客户被动流失,客户主动流失。以电信业为例,(1)公司内客户转移表现为客户转移至本电信公司的不同网络或不同业务。例如,电信企业增加新业务,或者资费调整引发的业务转移,或者从普通的固定电话转至IP电话等。在这种情况下,虽然就某个业务单独统计来看存在客户流失,但对公司整体而言客户没有流失,当然公司内客户转移也会影响公司的收入。(2)客户被动流失表现为电信运营商由于客户欺诈或恶意欠费等行为而主动终止客户使用网络和业务。这是由于电信运营商在客户开发的过程中忽视了客户质量造成的。(3)客户主动流失分为两种情况,一种是客户不再使用任何一家电信运营商的电信业务,另一种是客户选择了另一家运营商,即所谓的“客户跳网”。后者的原因主要是客户认为公司不能提供他所期待的价值,即公司为客户提供的客户让利价值低于另一家电信运营商。这可能是客户对电信公司的业务或服务不满意,也可能是客户仅仅想尝试一下别家公司提供而本公司未提供的新业务。这种客户流失形式往往是研究的主要内容。公务员之家

三、数据挖掘产生的背景及主要分析方法

研究哪些客户即将流失,实质上是一个分类问题,即将现有客户分为流失和不流失两类。传统的分类方法一般是基于经验的分类方法或基于统计的简单划分方法。前者一般由决策者根据以往的经验对客户进行类别划分,因此具有较强的主观性;后者一般是根据对客户属性特征的简单统计来划分客户类别。虽然这些划分对企业的客户管理也是很有意义的,但却无法满足一些复杂的分析需求,例如:客户流失的概率如何;哪些因素造成了客户流失;不同类别之间客户的流失情况有什么差别;如果某个客户将要流失,他会在多长时间内流失等。另一方面,数据库技术的成熟应用已使企业积累了大量的数据,管理层希望摆脱经验,从这些数据矿藏里提炼出有价值的“知识”,利用这些“知识”建立起有效的客户流失预测模型。但是传统的数据库管理系统是面向应用的,只处理日常的经营业务,不具备智能数据处理的功能,如何获得这些“知识”就促成了数据挖掘技术的产生。概括地讲,数据挖掘是指从数据仓库中提取人们感兴趣的,事先未知的,有用的或潜在有用的信息。

数据挖掘的主要方法有:概念/类描述,关联分析,分类和预测,聚类分析,孤立点分析和演变分析。在客户流失预测模型中主要用到的是分类算法。分类是一种有监督的学习方法,它通过在一个包含了已知流失和未流失的客户样本集上进行模型训练,得到一个能够预测客户是否会流失的分类器,然后去预测客户未来的流失倾向。目前运用最广泛的是基于决策树的分类算法,如ID3、C4.5、C5.0、CART等。决策树算法建模简单,分类准确率高,而且能导出简明易懂的诸如If-Then形式的分类规则,十分适合客户流失预测问题。但是,决策树算法很难确定分类概率,即难以计算出客户流失的概率。Logistic回归、人工神经网络虽然能得出流失概率,但是这两种模型的内在表示是隐含的,不能像决策树那样可以得到一个If-Then形式的分类规则,而且神经网络容易出现局部最小化和“过拟和”问题,预测性能不佳。

以上的数据挖掘方法都要求有较多的训练样本,对于小样本集,训练结果最好的模型不一定是预测能力做好的模型。因此,如何从小样本集出发,得到预测能力最好的模型,就成为数据挖掘研究领域内的一个难题。即所谓“小样本难题”。支持向量机(SVM)是数据挖掘中的一项新技术,最初于20世纪90年代有Vapnik提出,它从严格的数学理论出发,论证和实现了在小样本情况下能最大限度地提高预测可靠性的方法。近年来,SVM在解决分类问题方面得到了广泛的应用。

四、结束语

在整个数据挖掘流程中最关键,工作量最大,也最容易被忽视的一个步骤是数据准备,即通过数据清理、数据集成和变换、数据规约建立起训练样本集和测试样本集。无论算法多先进,如果数据不准确或不完整,结果都是错误的,正所谓“垃圾进,垃圾出”。如何提供干净、正确、完整的数据,这有待于进一步的研究。

参考文献:

[1]JiaweiHan:数据挖掘概念与技术.机械工业出版社,2002.9出版

[2]夏国恩陈云金炜东:电信企业客户流失预测模型.统计与决策,2006.10

[3]AlexBerson:构建面向CRM的数据挖掘应用.人民邮电出版社,2001.8出版