
网站内容抓取(WCE3)
一、系统简介
海市网站内容抓取系统WCE(Web Content Extract)可以自动获得互联网上已发布的内容, 并存储到本地数据库中,以供再次利用。
二、系统架构
网站内容抓取系统(WCE)由抓取爬虫机器人、抓取设置、内容处理单元和内容存储服务等部分组成。具体逻辑框架关系见下图。

三、抓取设置
抓取设置包括指定互联网URL地址和网页内的每个区域、网站是否要求登陆、获取内容的分类、抽取字段、抓取时间和重复频率等。系统将记录每个设定抓取任务的日志,以显示是否成功以及未成功任务的出错信息等。
四、内容过滤和查重
获取的内容暂存在内容缓存数据库中,以备进行内容加工处理。内容加工处理主要是过滤源信息中的Html代码、脚本代码、广告,也可以过滤去处人工指定的信息块。系统将自动查找重复信息项,并去除多余的记录。
五、内容分类
系统可以根据设定把不同的信息来源(不同URL的不同区域)存入不同的分类,也可以指定相应的关键词,系统按相关度进行内容分类。
六、内容再发布
成功获取的内容被存入海市WCM系统的文档库中。文档库管理工具可以对存入的内容进行编辑,可以进行人工再分类、发布到指定站点的指定频道等操作。通过设置发布任务,存入的内容可以进行自动发布。
七、系统运行环境
关系数据库 | Oracle8i及以上,MicroSoft SQL Server 7及以上 |
服务器软件平台 | Microsoft Windows NT/2000或各种主流Unix和Linux |
服务器硬件平台 | 最低配置:至强3.0CPU/1G内存/30G硬盘 |
应用服务器 | IBM WebSphere、BEA WebLogic或Tomcat等Java应用服务器中的一种 |
WWW服务器 | IIS、Netscape Enterprise Server、Apache |




