• 北京海市经纬网络技术开发有限公司
  • 网站建设公司,网站策划,网站咨询,网站策划,网站内容管理系统
  • 内容管理搜索
  • 网站建设公司首页
  • 网站设计
  • 网站导航地图
  • 网站设计
  • English Web Site Design
当前位置:首页  >  产品中心 > 内容管理
网站内容抓取(WCE3)
打印

一、系统简介

海市网站内容抓取系统WCE(Web Content Extract)可以自动获得互联网上已发布的内容, 并存储到本地数据库中,以供再次利用。

二、系统架构

网站内容抓取系统(WCE)由抓取爬虫机器人、抓取设置、内容处理单元和内容存储服务等部分组成。具体逻辑框架关系见下图。

三、抓取设置

抓取设置包括指定互联网URL地址和网页内的每个区域、网站是否要求登陆、获取内容的分类、抽取字段、抓取时间和重复频率等。系统将记录每个设定抓取任务的日志,以显示是否成功以及未成功任务的出错信息等。

四、内容过滤和查重

获取的内容暂存在内容缓存数据库中,以备进行内容加工处理。内容加工处理主要是过滤源信息中的Html代码、脚本代码、广告,也可以过滤去处人工指定的信息块。系统将自动查找重复信息项,并去除多余的记录。

五、内容分类

系统可以根据设定把不同的信息来源(不同URL的不同区域)存入不同的分类,也可以指定相应的关键词,系统按相关度进行内容分类。

六、内容再发布

成功获取的内容被存入海市WCM系统的文档库中。文档库管理工具可以对存入的内容进行编辑,可以进行人工再分类、发布到指定站点的指定频道等操作。通过设置发布任务,存入的内容可以进行自动发布。

七、系统运行环境

关系数据库

Oracle8i及以上,MicroSoft SQL Server 7及以上

服务器软件平台

Microsoft Windows NT/2000或各种主流Unix和Linux

服务器硬件平台

最低配置:至强3.0CPU/1G内存/30G硬盘

应用服务器

IBM WebSphere、BEA WebLogic或Tomcat等Java应用服务器中的一种

WWW服务器

IIS、Netscape Enterprise Server、Apache