数字博物馆—博物馆网络信息采集系统

斌钺博物馆网络信息资源采集系统定位是一套功能强大的网络信息资源开发利用与整合系统,可用于定制跟踪和监控互联网实时信息,能够快速及时地捕获用户所需的热点新闻、市场情报、行业信息、政策法规、学术文献等网络信息内容,建立可再利用的信息服务系统。系统能够从各种网络信息源采集用户感兴趣的特定信息,经自动分类处理后,以多种形式提供给最终用户使用。

系统可以对国内外不少于50个网站上公开发布的指定内容的信息进行定向采集;实时动态监控特定目标;将标题、全文等内容转为结构化数据;支持部分附件全文等非结构化内容的采集,支持全文检索。采集信息自动建库存储,内容可进行加工处理,直接存入数据库,可与本项目中其他馆内资源整合到一起进行资源服务。

(一)系统功能要求:

(1)先进的资源智能处理能力

系统基于语义分析技术,集成多种智能信息处理算法,支持采集信息的自动分类;支持用户自定义分类体系。系统拥有自学习功能,可以根据用户反馈信息,及时地自学习完善知识体系,提高自身的智能性。

(2)强大的信息采集能力

高效的信息采集技术完成网络数据获取,能快速、全面、准确的从Internet上获取数据,并可对采集的数据进行结构化处理。可以多线程并行采集,灵活地定制采集策略。对于采集规模较大的应用,可支持采用集群式网络蜘蛛抓取,从而满足抓取速度上的需求。

(3)体系结构灵活

网络蜘蛛群集,智能代理群集,应用服务器智能调度,各子系统可以支持随时断开以及随时连接到系统中来,不影响整个系统的运行。

(4)基于海量非结构化数据存储和全文检索能力

能够与本项目购买的全文检索数据库系统协同工作,支持海量非结构化数据的存储管理,支持全文检索,支持智能相似检索技术,检索速度可达百万级文献量毫秒级响应。

(5)强大的发布系统

系统支持多种发布风格,包括:专题库风格、信息资源门户风格、搜索引擎风格等。支持动态摘要和敏感摘要,并提供标红、网页快照、相关网页自动关联等实用功能。

(6)稳定可靠的系统性能

系统支持采用分布式的群集系统、高效的搜索算法以及灵活的体系结构,保证整个系统的高稳定性和易用性。

(7)满足用户的各种个性化检索需求

支持用户自定义符合特殊需求的个性化分词词典,只需要输入专业词汇,系统便会按照用户的定制精确检索,大幅提高检索效率和查全查准率,充分满足用户的各种个性化检索需求。

(8)支持主流的中文编码标准

包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体)、Unicode,并且能够在不同的编码之间转换。

(9)支持与博物馆其他系统进行深度整合

系统采集信息支持与博物馆信息资源建设与管理系统建设的信息进行整合服务,与信息资源建设与管理系统采用相同架构的全文数据库管理系统进行数据管理。

(二)系统性能要求:

l信息采集器:采集快,实时响应。

l信息采集器监控:实时响应。

l采集信息排重:实时响应。

l相似性分析时间:100万记录/20毫秒。

Hash:27efc0d85d42f5318909e5ed01e03406c6a12910

声明:此文由 锦霖文保 分享发布,并不意味本站赞同其观点,文章内容仅供参考。此文如侵犯到您的合法权益,请联系我们 kefu@qqx.com