软件工具-中国产业智库

软件开发背景

竞争情报和咨询研究离不开结构化的数据和信息支撑,网络舆情监控工具以科学技术竞争情报和产业技术分析服务体系中对数据和信息的需求为参考,开发面向用户的产业技术情报监测服务平台。

  • 互联网信息资源能够为情报和咨询研究工作提供90%以上的素材;
  • 信息源的开放性、权威性严重影响信息的质量;
  • 异构信息为信息处理带来困难;
  • 海量信息资源如果不能按照特定知识组织加工处理,则无法有效应用;
  • 当前的网络信息监测系统具有极大的局限性,主要表现在:
    • 免费的网络采集工具,对采集信息的量有严格的限制,如网络旷工限制1000条;
    • 工具长时间未更新维护,大部分网站无法有效采集;
    • 高级采集工具(收费)配置部分信息需要具备计算机语言功底;
    • 使用已有工具,在对信息的加工处理上受到极大局限,无法根据实际情况进行代码修改和升级维护,难以满足需求。

基于信息源管理和信息监测采集的需求,我们自定义设计开发了网络舆情监测工具。

软件需求

多维度信息源分类管理

信息源分类管理是构建Web数据监测网络的关键内容,为信息索引提供基础架构,也是有效进行信息源质量评价的必要环节。

大数据环境下的使用与任务

软件功能要求

  • 便捷的信息源分类配置和采集配置;
  • 能够针对各类信息源监测采集;
  • 能够识别并自动下载信息内容图片和附件;
  • 能够实现按天、周、月定时采集;
  • 能够实现历史数据的一次遍历;
  • 能够实现按字段采集;
  • 能够实现中外网站兼容采集;
  • 能够实现信息采集预警;
  • 能够实现信息分类索引和检索;
  • 能够灵活对接其他系统平台......

软件使用说明

信息源配置区

信息源配置区

信息源分类配置

信息源分类配置

①信息源大类选择:从系统预先设置的类别中选择“政府类”,也可以自定义大类

②信息源小类自定义:手工输入细分类别名称

③信息源名称:手工输入网站的名称

④信息频道:从系统预先设置的类别中选择计划采集的信息内容所属的栏目,也可以自定义类

信息频道配置

信息频道配置

列表配置

列表配置

正文配置

正文配置

采集结果

采集结果

采集预警

采集结果

软件特点

分布式数据监测网络

随着互联网技术的发展以及风起云涌的云计算浪潮,开发分布式网络舆情监测系统是大势所趋。在实际的应用中,我们利用多台小型机和电脑进行合作,共同完成分布式数据监测采集工作。

24×7小时不间断监测

为保证数据信息的及时更新,我们开发的监测网络实行24×7小时不间断遍历配置的站点信息,第一时间收集该站点更新的内容。

历史数据遍历,保证能够上溯到网站内公开的数据信息

为满足用户对目标站点历史数据的需求,我们开放了系统对目标站点历史数据一次遍历的功能,实现站点内信息的深度挖掘,无遗漏

在功能上我们实现了部分复杂网站的信息采集

一部分网站需要注册登录才能采集,一部分网站需要输入验证码才能采集。我们针对一些价值大的网站,突破注册登录和验证码的限制,实现了数据的自动采集

中文文本自动识别和富文档自动识别

为实现智能识别正文和富文档信息,我们深入研究了网站分布特点和富文档结构特点,最终实现正文自动识别和富文档自动采集,正文自动识别准确率达到90%以上。

软件应用

建立全范围的主题对象监测网络

数据资源集合

根据产业跟踪路线图,建立全方位的产业跟踪路线

产业跟踪路线

根据信息监测采集量建立信息源评价体系

信息源评价

软件著作权

中国产业大数据监测预警系统

中国产业大数据监测预警系统