不良信息监测系统解决方案 - 解决方案 - 任子行:网络空间数据治理专家
不良信息监测系统解决方案

方案背景
为提供一个良好的互联网环境,根据国家相关部门要求,开展深入整治网络淫秽色情和低俗信息专项活动。
为了实现对用户上网内容监测和信息安全管理,通过建设互联网不良信息治理系统实现对省内接入的互联网网站,包括IDC机房和互联网专线,进行不良信息的解析、监测和阻断,并提供相关报警信息。
方案总体目标
根据对系统需求说明书的分析,本方案针对需求说明书中的互联网爬虫监测需求进行设计,建设一套互联网爬虫监测系统。监测系统的总体目标是对用户管辖范围内的目标网站进行爬虫搜索监测,针对互联网网页,系统能自动爬行页面所有下级链接页面,标记其中链接信息,抓取页面中的相关内容(如文字、图片、节目等)、在指定时间段内自动下载网站更新,对抓取的内容进行内容识别、进而判断内容是否违规。
系统主要实现互联网网站信息内容监测功能,包括信息采集和分类管理,信息内容(包括文本、图片等)监测和匹配识别,并建立管辖范围内的互联网监测信息基础数据库,对违规信息进行统计分析,为互联网信息的监测工作提供高效的技术手段和互联网信息数据进行特定应用挖掘提供基础数据。
系统整体架构
系统的总体部署结构图如图所示,即选择合适的互联网节点,在系统前端以独占带宽的方式接入WEB爬虫子系统,通过爬虫子系统对目标网站进行数据搜索采集后,回传给后台数据接收处理服务器,由数据接收处理服务器将数据归类写入数据库和存储空间,供用户查询和管理。




系统功能实现
网页链接识别
系统自动识别出页面中出现的所有链接和以URL或点分形式出现的文字。对于前者,应对链接的相关属性,如内容、位置等做出判断。
网页文本识别
针对目标网站传播的网页不良信息内容进行搜索和报警,提供强大和多样的报警功能(页面报警和Email报警),能及时上报网页和发布内容的不良信息,并通过特定算法对重复的报警数据进行排重处理;还提供报警数据排序机制,可以按照报警数据中关键字的个数对报警记录进行排序,将最可疑的报警记录排在最前面进行展示,方便用户高效的定位到有害信息。且报警策略支持多个关键字的与、或、非关系组合,提高报警数据的可疑度,同时支持不良信息按色情、赌博、诈骗等专题进行分类管理。
网页图片识别
系统网页图片搜索模块对目标网站各种图片文件进行高效搜索,记录图片的相关信息,并对特定的网页图片进行下载和识别。
系统支持色情图片自动识别功能,我司的色情图片识别功能不需要另外再配置图片特征库,色情图片识别程序已经学习并预置了色情图片的特征值,对色情图片的识别能达到90%以上,色情图片的识别也是这块的重点;其它类型图片(如反动)的识别本方案不支持。
系统应用情况
互联网爬虫监测系统自1.0版本开始,一直占据了较大的市场份额,在海南、湖北、上海、广东、陕西、浙江、江苏、山西、福建、黑龙江、杭州、厦门等十几个省市的通信管理局、运营商、网安等监管部门得到了广泛应用。
在系统的实施过程中,我司逐渐对系统运行所需的硬件配置、各种硬件的性能要求、运算能力、设备间配合等方面积累了大量宝贵的第一手材料和经验。针对各类硬件的配置、性能等形成很多具体的认识。对如何发挥软硬件的效率、硬件系统的日常检修等形成了一套完整的工作方法和工作流程。