最新资讯 在线留言 联系我们
24小时咨询热线:17349788820
 

快捷导航
联系我们
上海华夕网络科技有限公司
咨询热线:17349788820
咨询 Q Q:345920555
邮  箱:345920555@qq.com
邮  编:201821
地  址:上海市嘉定区福海路777弄
 
资讯信息
  合肥网站建设_搜索引擎中的粒度问题  
     
发布时间:2016/5/22 12:56:41 来源: 阅读次数:
 

搜刮引擎中的粒度问题 一.媒介 传统的搜刮引擎的定义,是指一种对于指定的查询(Query),能够返回与之相关的文档集合(Documents)的系统。而百度将这个定义加倍丰富化,即搜刮引擎能够帮助人们更便利的找到所求。这里的“所求”,比“文档”加倍宽泛和丰富,比如一个关于气候的查询,直接返回一个气候预报的窗口,而非一篇关于气候的文档;再如一个关于小游戏的查询,直接返回这个小游戏的Flash页面而非简单的介绍性的文字。百度对Query深切的理解,网站SEO优化源于自然语言处理技术在其中阐扬的巨大作用。对搜刮引擎而言。

文本切分是最基础也是最重要的自然语言问题之一。今天,我们就来谈谈文本切分粒度与搜刮引擎的关系。本文后续章节组织以下第二节介绍甚么是文本的粒度,第三节讲述搜刮引擎的基本原理与文本切分粒度的关系,第四节深切切磋粒度的属性与检索相关性计算,第五节小结。二.文本粒度 甚么是文本的粒度?我们用甚么来衡量文本粒度?在答复这些问题前,让我们先看看以下几组词汇 缠绵、崎岖、葡萄、乒乓 绿茶、篮球、红色、鼠标垫、起重机 打球、跳绳、炒菜、登山 笔记本电脑、高清机顶盒、IP电视 但是、然后、若是、很是 步步惊心、家的n次方、一小我的精彩 百度在线网络技术(北京)有限公司、清华大学 张学友、赵传、工藤新一、里奥内尔·安德雷斯·梅西 …… 这几组词汇中,哪些的粒度大。

哪些的粒度小?不管在传统的语言学领域,还是在自然语言处理领域,都没有对粒度下一个清楚准确的定义。但是就搜刮引擎而言,我们不妨这样定义粒度是衡量文本所含信息量的大小。文本含信息量多,粒度就大,反之就小。有了这个原则,我们就很轻易判断文本粒度大小了。像“缠绵”,“崎岖”,“葡萄”这些词,固然有两个字组成,但是仅表达一个意思,这些词的粒度是小的。而“篮球”,“鼠标垫”等词,是由简单词合成的,固然也只有一个意思,但还可以拆分,如“篮”和“球”,“鼠标”和“垫”。这类词,粒度略微大一些。而“笔记本电脑”,“高清机顶盒”这样的词,粒度就更大了。

专名是一类比较特别的词,尽管所含字数良多,但其实只表达一个意思,如“步步惊心”,“家的n次方”这样的电影、电视剧的名称,粒度是很小的。机构名、人名等属于有内部结构的专名,比电影名的粒度稍大一些。显然易见,我们在会商文本粒度时,理想的编制是从语义角度出发,公道的阐发和判断。但是以上我们仅对粒度做了定性的阐发,为粒度找一个合适的度量单位和计算编制,是百度人一直追求的目标。三.搜刮引擎的基本原理与词汇切分关系 3.1 搜刮引擎的基本原理 文本检索系统,是搜刮引擎最简单的实现编制。经由过程返回包含关头字的页面,来满足用户的检索需求。

形式化的表达就是给定一系列关头字集合K,要求返回所有包含关头字的文档D,对D中的肆意一个文档d,包含K中的肆意一个关头字k。一般我们采用倒排索引的编制来实现这个系统。所谓倒排索引,就是对关头字建立索引,记录包含这个关头字的文档集合D。对于要求的关头字集合,找出所有关头字对应的索引,并对索引求交,最后返回同时存在于所有索引中的文档。在百度,我们不仅允许用户输入关头字,也可以输入任何长度在一定范围内的文本。此时我们需要对文本做一定处理,切分成一系列关头字,从而能够从倒排索引中找出对应的文档。那么为甚么要对输入文本做切分,若是不切分会有甚么问题。

我们可以想象一下,若是不对输入文本做切分,直接用输入文本去做匹配,会怎么样?起首,得到的结果会很是少,因为直接用全数文本匹配,就掉去了灵活性,对结果限制的很是死,必须完全匹配才能满足要求;其次,系统性能会很是差,因为需要对所有长度的文本都建立索引,这是指数级的,在现实系统中底子不可能实现。再考虑一下另一个极端?我们对输入文本做单字切分,结果又是怎样?我们会得到大量无关的页面,不仅浪费系统性能,对相关性计算也造成了巨大的压力。哈尔滨眼科医院 。

 

咨询热线:17349788820传真:021-39900826邮箱:345920555@qq.comICP备案号:沪ICP备15005556号-2网址:http://www.yjhlw.net/
copyright ◎ 2015-2020 Powered by & 上海华夕网络科技有限公司 all rights reserved.