软件工具-中国产业智库

软件开发背景

现在是一个互联网、云计算、大数据的年代,当代社会一大显著特征就是,人们将不得不面临越来越多的与工作、生活、生产活动等密切相关的文本信息,每天都有大量的信息在遍布世界各地的互联网上产生、发布、交换、存储和获取。如何从这些海量的文本中挖掘出潜在的有使用价值的信息,是我们最为关注的课题。

根据产业经济和产业技术领域文本信息的类目标引体系和主题词标引体系,分层级确定详细类目,分对象确定分类方式,分类对象主要包括行业主题、地域分类、内容分类、技术分类等。为实现主题标引和分类标引,我们对自动标引系统的具体流程和方法进行了研究,确定了软件开发的可行性,在此基础上开发了中文文本信息智能处理系统。

中文文本信息处理系统设计思路

软件需求

软件功能要求

  • 便捷的产业分类主题词管理平台;
  • 能够与信息采集系统无缝衔接;
  • 能够实现按照产业分类主题词表的主题标引;
  • 能够实现按照特征向量分类的分类标引;
  • 能够根据词表更新情况进行更新标引;
  • 能够根据新采集信息进行及时标引;
  • 能够将词表纳入分词系统;
  • 能够实现关键词自动提取;
  • 能够根据分词情况进行聚类分析;
  • 能够灵活对接其他系统平台......

软件使用说明

标引流程

标引流程

词表管理

词表管理

主题分类

主题分类

结果展示

结果展示

软件特点

优化分词词典,分词更准确

为实现机器自动分词,我们自建了高效、准确的分词词典,将国民经济统计行业分类及产品统计目录词汇融入其中,同时为新增词添加了词属性,从而提升中文文本信息机器分词的准确性和可靠性。

中文文本自动分类

围绕用户关注的主题领域,我们构建了面向主题分类的特征向量集,基于特征向量集开发了中文文本分类器,能够实现基于标题和正文的中文文本机器分类和聚类,准确度达到91%。

关键词智能识别

中文文本信息处理系统可以实现行业、机构、地名、人名等不同词性的标识,同时我们研究设计了智能关键词提取模型,经过权重计算,获取我们最关注的关键词,同时加入了新词识别机制,为发现热点领域和新兴领域提供了技术支撑。

智能摘要技术

摘录型文摘中绝大部分的句子选自原文,我们利用计算机的计算能力,采用统计的方法,通过计算词的权重和句子的权重,从文章中选出权重大的句子,按照句子在原文中的自然序列进行排列,加以修饰最终生成文摘。

软件应用

以产业分类为主的知识组织体系建设

产业分类知识组织

中文文本信息分类管理

中文文本信息分类管理

异构信息资源的有效整合

信息资源整合

软件著作权

文本信息自动标引系统

文本信息自动标引系统