数据要素产业
基于机器学习的文本分类研究
【作者】;
【导师】;
【作者基本信息】上海交通大学,计算机软件与理论,2008,博士
【摘要】 随着信息技术尤其是因特网相关技术的发展与成熟,人们可获得的信息越来越多。面对海量信息,一方面是人们对快速、准确且全面获取信息的渴望,而另一方面却是信息的杂乱无序。如何尽可能有效地组织和管理信息,是信息处理研究的重要问题之一。因此,文本分类得到了广泛关注,成为自然语言处理领域最重要的研究方向之一。本论文研究了文本分类中特征提取,大规模文本分类和跨语言文本分类等问题。我们主要解决下面三个问题,如何高效准确的进行分类、如何利用大规模的文本分类数据以及如何在多语言环境下利用某种语言的训练集,去分类另外一种语言的文本的问题。本文的主要研究工作及创新点体现在以下五个方面:(1)将一个基于概率解释的多类特征选择算法应用在文本分类中。与将每个特征作为一个单一的个体的信息增益和χ2统计量等传统方法相比,这种多类特征选择的优势在于它通过线性支持向量机所特有的结构风险最小化原则来选择一个好的特征集。实验中使用了三种常见的多类分类器测试了该特征提取方法。实验结果均显示了该方法的有效性。(2)将最近邻算法的不同投票策略应用于文本分类中,并结合最小最大模块化网络来处理大规模数据的文本分类。一般情况下,最近邻算法在文本中采用相似性累加投票法,类似于机器学习中的反距离投票策略。本文将机器学习研究领域中最近邻算法的不同投票策略引入到文本分类中进行研究,而且进一步将它们引入到最小最大模块化网络中来处理大规模的数据。实验结果显示,高斯投票能在文本分类中表现出较好的综合性能。(3)将最小最大模块化支持向量机中的超平面数据划分方法应用在大规模文本分类中。最小最大模块化网络在处理大规模数据时,通常有三个问题,一个是集成什么样的分类器,第二个是模块冗余消除问题,第三个是数据划分问题。这里研究了第三个问题,即使用超平面划分方法到文本分类领域进行研究。