竞争情报和咨询研究离不开结构化的数据和信息支撑,网络舆情监控工具以科学技术竞争情报和产业技术分析服务体系中对数据和信息的需求为参考,开发面向用户的产业技术情报监测服务平台。
基于信息源管理和信息监测采集的需求,我们自定义设计开发了网络舆情监测工具。
信息源分类管理是构建Web数据监测网络的关键内容,为信息索引提供基础架构,也是有效进行信息源质量评价的必要环节。
①信息源大类选择:从系统预先设置的类别中选择“政府类”,也可以自定义大类
②信息源小类自定义:手工输入细分类别名称
③信息源名称:手工输入网站的名称
④信息频道:从系统预先设置的类别中选择计划采集的信息内容所属的栏目,也可以自定义类
随着互联网技术的发展以及风起云涌的云计算浪潮,开发分布式网络舆情监测系统是大势所趋。在实际的应用中,我们利用多台小型机和电脑进行合作,共同完成分布式数据监测采集工作。
为保证数据信息的及时更新,我们开发的监测网络实行24×7小时不间断遍历配置的站点信息,第一时间收集该站点更新的内容。
为满足用户对目标站点历史数据的需求,我们开放了系统对目标站点历史数据一次遍历的功能,实现站点内信息的深度挖掘,无遗漏
一部分网站需要注册登录才能采集,一部分网站需要输入验证码才能采集。我们针对一些价值大的网站,突破注册登录和验证码的限制,实现了数据的自动采集
为实现智能识别正文和富文档信息,我们深入研究了网站分布特点和富文档结构特点,最终实现正文自动识别和富文档自动采集,正文自动识别准确率达到90%以上。