环球网校是美国纳斯达克上市企业欢聚时代(NASDAQ:YY)旗下品牌 | 住房和城乡建设部 建筑人才培训合作单位
您现在的位置在: > 财会考试 > 注册会计师 > 考试动态 >

垂直搜索引擎大体上需要以下技术1.2.网页结构化信息抽取技术

2023-03-11 来源:网络 作者:佚名

平行搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延展,是对网页库中的某类专门的信息进行一次整合,定向分数组抽取出还要的数据进行处理后再以某些方式返回给用户。

#

平行搜索引擎和普通的网页搜索引擎的最大差别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块剖析是以网页块为最小单位,而平行搜索是以结构化数据为最小单位。于是将那些数据储存到数据库,进行逐步的加工处理,如:去重、分类等,最后动词、索引再以搜索的方法满足用户的需求。 #

整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方法和结构化的方法返回给用户。

#

平行搜索引擎的应用方向太多,例如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各种信息都可以逐步明晰成各种的平行搜索引擎。

#

举个实例来说明会更容易理解2023垂直搜索引擎有哪些,例如购物搜索引擎,整体步骤大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以逐步将电脑简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”然后对信息进行擦洗、去重、分类、分析比较、数据挖掘2023垂直搜索引擎有哪些,最后通过动词索引提供用户搜索、通过剖析挖掘提供市场走势报告。 #

平行搜索引擎大体上还要以下技术 #

1.

#

2.网页结构化信息抽取技术或元数据采集技术 #

3.动词、索引

#

4.其他信息处理技术 #

平行搜索引擎的技术评估应从以下几点来判定 #

1.全面性 #

2.更新性

#

3.精确性 #

4.功能性 #

平行搜索的步入门坎很低,而且竞争的门坎很高。没有专注的精神和高超的技术是不行的。行业门户网站具有行业优势但它们又是没有技术优势的,绝对不要想象着招几个人就可以搞定平行搜索的全部技术,作为一个还要持续改进可营运的产品而不是一个项目来说对技术的掌握控制程度又是平行搜索成功的重要诱因之一。

#

责编:admin 返回顶部  打印

关于我们联系我们友情链接网站声明网站地图广告服务帮助中心