第四方物流的分布式数据挖掘系统研究

2010-06-29 (本文来源：中国物流与采购网)

第四方物流是在电子商务和第三方物流基础上发展起来的可以满足物流一体化、系统化的要求，可以最大限度地节约物流资源的整体供应链物流解决方案提供者。第四方物流最重要的作用是以IT技术为依托，最大限度地整合物流资源，以在整个供应链管理上，对资源进行分配。第四方物流是在第三方物流的基础上发展起来的，第三方物流服务提供商已经运营了很长时间，系统中积攒了大量的数据，这些数据当中隐含了大量的可以辅助第四方物流进行诸如优化策略中的路径选择、运输载体选择、第三方物流供应商选择等决策的知识，如何将这些分布的数据转化成决策欣据，成为第四方物流实现资源分配至关重要的一个问题。采用传统的数据挖掘办法面临着数据安全性、数据保密性、网络带宽等限制，为了解决这一问题，针对第四方物流系统的情况，本文将分布式数据挖掘应用到第四方物流系统中，辅助第四方物流有效地集成数据、处理数据、挖掘知识，为供应链中资源的合理分配提供决策依据。

1 第四方物流

1.1 第四方物流的概念及背景

1996年第四方物流由埃森哲公司提出，他们给第四方物流的定义如下：“第四方物流供应商是一个供应链的集成商，它对公司内部和具有互补性的服务供应商所拥有的不同资源、能力和技术进行整合和管理，提供一整套供应链解决方案。”第四方物流主要是对制造企业或分销企业的供应链进行监控，在解决企业物流的基础上，整合社会资源，解决物流信息充分共享、社会物流资源充分利用的问题。

第三方物流作为专业化的物流的一种形式，因其能提供良好的物流服务而在国内外得到了蓬勃发展，并且得到了各行业的广泛认可，但随着企业管理和服务能力的不断延伸，特别是企业经营面IIf的业务内容越来越复杂，活动越来越细，客观上要求企业在物流管理上不仅仅是针对某项活动戴某几项活动进行有效的运作和管理，而是能有机地整合各种物流活动和相应的业务以及信息，从事全方位、系统化的管理，第三方物流提供商在综合技术、集成技术、战略和全球扩展能力上存在局限性，不得不转而求助于咨询公司、集成技术提供商等物流服务提供商，由其评佑、设计、制汀及运作全面的供应链集成方案，由此形成了第四方物流。

1.2 第四方物流的特点

第四方物流具有策划、实施和监督供应链管理的能力，其核心思想是企业集中于其核心能力的发展，把在销售、运作和供应链管理上的责任移交给第四方物流。

第四方物流在现实的运作过程中，表现出来的功能特点如下：首先，第四方物流提供一整套完善的供应链解决方案；体现再造、供应链过程协作和供应链过程再设计的功能；实施流程一体化、系统集成和运作交接，执行、承担多个供应链职能和流程的运作。其次，第西方物流提供商充分利用一批服务提供商的能力，包括B2B、IT供应商、合同物流供应商、呼叫中心和电信增值服务商等，再加上客户的能力和第四方物流提供商自身的能力，提供一个全方位的供应链解决方案，来满足公司所面临的广泛而复杂的需求。

2 分布式数据挖掘

数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程，通过数据挖掘可以用来发现隐藏在数据中的知识，可以充分利用已拥有的数据。

传统的数据挖掘基本上是一个本地的数据分析工具，仅能对本地数据集产生一定的理解性或概括性的知识。随着网络技术和分布式数据库技术的发展和成熟，原来数据的集中式存储和管理逐渐转变为分布式存储和管理，数据存储方式的变化也必然会捉进数据挖掘技术及其系统结构的变化。由于实际应用中数据的安全性、私有性、保密性以及网络的带宽限制，使得首先将分散存储的数据集中到一个数据库中再进行挖掘的方法是不可行的，分布式数据挖掘技术就是在这个背景下产生的。

2.1 分布式数据挖掘的概念

所谓分布式数据挖掘，就是使用分布式算法，风逻辑上或物理上分布的数据源中发现知识的过程。典型地，这种环境以异种数据、多用户、大规模数据量为特征。

典型的分布式数据挖掘算法的两个基本步骤是：局部数据分析，生成局部数据模型(局部知识)；组合不同数据站点上的局部数据模型，得到全局数据模型(全局知识)。

2.2 关键技术

分布式数据挖掘不同于传统的集中式的数据挖掘，是在分布的、异构的数据上进行挖掘，对数据集成和知识吸收提出了更高的要求，所以分布式数据挖掘系统需要解决的关键技术有：a.数据收集(Data Integration)。收集数据是数据挖掘的第一阶段，集中式的数据挖掘系统先从关系数据库中提取数据表，然后把它存放到一个数据仓库戴数据集市中，因此在分布式数据挖掘中所有的挖掘过程应提供一个一致的存储结构，以方便从逻辑上戴物理上分布的数据源中收集数据。b.并行数据挖掘。采用并行算法对数据进行挖掘可以克服数据挖掘算法时间复杂度很高的缺点，目前已经出现了不少分布式和并行的数据挖掘算法，如并行挖掘关联规则的算法CD(_countDistribution)、CaD(Candidate Distribution)、DD(Data Distribution)，以及Park等人提出的PDM等。c.知识吸收。通过数据挖掘算法从几个数据集中提取知识进行知识吸收，然后用这些数据挖掘过程中产生的知识片断结合成一个完整的知识来完成知识推理过程。d.分布式软件引擎。应用开发主要是开发软组件，然后再把它们组合起来，现在比较流行的分布式组件模型是CORBA、ActiveX/DCOM和Java Beans。

2.3 体系结构

目前已出现了许多基于不同技术的分布式数据挖掘体系结构。张学明等研究了一种基于CORBA技术并采用多线程并行数据挖掘机制的分布式并行体系结构；陈刚对基于移动Agent技术的分布式数据挖掘系统结构进行了研究；侯敬军等则提出了一重基于Web Services的分布式体系结构，可实现分布式异构环境下的大容量数据的数据挖掘；Krishnaswamy研究了一种用于电子商务应用的基于异构和分布式环境的联邦式数据挖掘系统；Omer Rana等提出了一种基于组件技术的具有良好可扩展性的分布式数据挖掘系统框架，该框架可以方便地集成第三方插件和用户自定义组件。

3 第四方物流分布式数据挖拥系统设计与实现

第四方物流最重要的作用是以IT技术为依托，最大限度地整合物流资源，以在整个供应链管理上对资源进行分配。而在整合外界资源进行优化决策时，关键问题在于路径、运输载体和第三方物流供应商的选择上。第三方物流提供商在运营过程中积攒了大量的物流解决数据，其中包含了丰富的路径选择和运输载体选择的知识，成为第四方物流进行优化决策中最真实的决策依据。这些数据存在于不同的第三方物流提供商信息系统中，而且数据是异构的。结合第四方物流系统的这些特点，参考Kargupta在1996年提出的数据挖掘代理的分布式数据挖掘代理系统(PADMA)，提出了第四方物流决策支持的分布式数据挖掘系统框架(4PLDMA)。

3.1 应用程序

由客户评价模块、物流方案设计模块、路径优化选择模块、第三方物流供应商选择模块等组成，实现用户和计算机之间的交互，具有扩展性和健壮性等特点，预留了接口以用于新的功能模块的追加，在应用程序实现上，4PLDMA采用Java技术。

3.2 挖掘协调器

该构件是系统的核心部件之一，它是整个系统的协调器，负责数据挖掘要求分析和结果集成。具体过程如下：响应应用程序的数据挖掘请求，并对挖掘请求进行分析，确定挖掘的条件和目标；针对分析的结果首先查询案例库，查询是否有符合的数据挖掘结果，有符合条件的则将结果直接返回应用程序。如果不存在符合条件的结果，开始动态驱动数据疙掘分布式组件，获得分布式组件的挖掘结果，在集成知识库的指导下应用推理逻辑对中间结果进行集成，并在结果的基础上进行综合性挖掘，最后将挖掘结果返回应用程序。在技术实现上，该部分应用Agent技术，充当管理Agent的角色。

3.3 数据挖掘分布式组件

该组件部署在第三方物流信息系统处，负责接收挖掘协调器戴本地信息系统应用程序传来的挖掘请求，进行第三方物流信息系统中的数据挖掘分析，通过调用4PLDAM中数据挖掘中的数据挖掘操作方法对本地数据进行数据挖掘，并将结果返回给挖掘协调器。该组件由任务协调器、挖掘操作模块、数据预处理模块组成。

任务协调器：接受来自挖掘协调器或本地信息系统应用程序的数据挖掘请求，进行数据挖掘任务分析，决定调用哪些操作方法，应用于哪些数据源，并激活数据预处理模块和挖掘操作模块进行协同工作，完成数据挖掘任务，并将结果返回给调用者。

数据预处理模块：数据预处理模块是该组件中最重要的部分，整个4PLDAM系统的数据预处理工作是在该模块中进行的，主要功能是定义数据源、格式化数据源以及过滤数据源，包括以下子功能：a.数据映射。将源表中的数据映射成ID形式，并生成对照表(ID和原始值的对照)。此功能的目的是把不同形式的数据映射成统一的、可供挖掘模块操作的形式。b.类型映射。对源表中所列数据类型进行强制类型转换。之所以需要这个功能，是因为在数据库中不同的数据类型很多，数据挖掘算法只支持其中最基本的几种。c.列映射。从源表中提取所需要的列，以减少数据量，提高系统的效率。d.挖掘操作模块。由该模块来调用数据挖掘库中的挖掘操作方法，并按照方法中的操作顺序和挖掘算法对本地数据进行挖掘，并将结果返回给任务协调器。该组件也采用多Agent技术来实现，充当任务Agent的角色，在该组件内部各模块应用Agent技术的集中式模式来实现。

3.4 数据挖掘库

数据挖掘库是系统的核心部分，该库存储的是各种挖掘操作方法，以供挖掘协调器和数据挖掘分布式组件的调用。每个方法中包括数据准备和数据挖掘算法在内的所有挖掘操作，且这些操作信息是有顺序的(用户进行这些操作的顺序)，这是因为一个数据挖掘操作在整个知识发现过程中往往不是孤立的，一个操作的结果可能是下一个操作的输入。另外方法中还保存挖掘操作的参数设置。

数据挖掘库的特点：a.可扩充性。该库为用户提供了增加挖掘操作方法、设置挖掘操作方法参数的API，提高了系统的可扩充性。b.集成性。挖掘操作方法可以用多种语言实现，在数据挖掘库中用XML的方式保存。

3.5 集成知识库

将局部数据挖掘结果集成全局数据挖掘结果是分布式数据挖掘中一个重要的阶段，目前对多分类器的集成研究较为成熟，多分类器的组合方法包括传统的择多判决法(如投票表决法、计分法等)、线性加权组合方法、模糊推理法以及通过分析样本特征而动态选择分类器的方法等，把这些集成方法写成XML的形式存储在知识库，指导挖掘协调器的结果集成。

3.6 案例库

在物流方案设计中，由于客户业务具有一定的稳定性和相似性，所以方案中涉及的优化策略会相同或相似，另外进行一次数据挖掘将花费很多的系统资源，因此应该把挖掘的结果连同挖掘的要求存储在案例库中，实现挖掘结果的充分利用和共享。

4 基于分布式数据挖掘系统第四方物流的业务流程

第四方物流汇集了众多存储、运输、第三方物流服务提供商等合作伙伴，因此在第四方物流的决策中，如何集成、合理分配物流资源，如何充分利用合作伙伴已有的历史运营数据成为关键的问题。

把分布式数据挖掘系统应用到第四方物流的决策支持中，可以整合已有物流系统中的异构数据，挖掘出蕴含在历史运营数据中的决策知识，并能够保证数据的安全性，为物流方案的整合设计提供强大的支持，提高第四方物流业务流程的科学性。

第四方物流的业务流程中关键的是汀单接收以前的可行性分析及效益分析和在物流方案实施之前的优化决策，下文将讨论在这两个关键步骤如何利用分布式数据挖掘提供决策支持。

4.1 可行性分析及效益分析

一方面决策者使用4PLDDM应用程序中客户评价模块，应用数据挖掘中的分类算法在各处第三方供应商物流服务记录中挖掘特定客户的信用类型；另一方面，决策者将汀货的具体内容输入到效益评价模块中，应用神经网络0M遗传算法来分析此类货物运输的收益及风险度；最后分析自身的能力，确定是否拥有或控制合适的运输载体，是否拥有可供选择的第三方物流供应商，从以上各个方面来考虑是否接订单。

4.2 优化决策

要在满足客户要求的前提下进行优化决策，达到自身效益最大。优化决策中涉及路径优化选择、运输载体选择、第三方物流供应商评价及选择、效益综合评价。

在每个优化选择中，决策者把目标提交给对应的应用程序模块，应用程序模块在业务逻辑分析基础上动态调度挖掘协调器，由分布式数据挖掘组件在第三方物流信息系统中应用数据挖掘算法挖掘出相应的知识模式，如第三方物流供应商的分类模式等，以此采指导优化决策。

5 总结与展望

第四方物流是一种介于制造企业和运输企业之间的电子物流服务平台，同时也是链式管理的结合体，其通过Internet的技术支持，使“全球贸易网络”成为可能。第四方物流最大的特点是对物流资源进行整合，实现资源的最合理分配，节约成本。如何从异构的信息系统中分析数据成为一个关键的问题，本文提出了第四方物流分布式数据挖掘系统及部分技术实现，解决了数据挖掘中的数据安全性和保密性等问题，设计了在分布式数据挖掘基础上第四方物流的业务流程，大大改进了第四方物流决策的正确性和可靠性。未来几年，我国将成为全球制造基地，迫切需要建立与之配套的强大的物流配送体系。文中提出的分布式数据挖掘的第四方物流系统将在物流配送体系的决策系统中发挥巨大的作用。