Quantcast
Channel: 金色坐标 - 搜索引擎
Browsing all 10 articles
Browse latest View live

主题搜索引擎(垂直搜索引擎)如何进行主题描述

主题描述是指对主题的量化表现,即通过一定的方法和模型将抽象的主题概念表达为可量化计算和对比的表现形式。主题描述是主题Web搜集的基础,因为主题Web信息是通过判断Web信息是否与搜集主题相关来筛选所需的,主题描述的精确度直接影像着搜集信息的质量。目前通用的主题描述方法是选取一定的主题样本并基于一定的数学模型对其进行样本分析和特征提取,从而建立相应的主题特征描述...

View Article



搜索引擎到底怎样才算公正

央视在曝光百度虚假医药广告之后,近日又对谷歌进行了批评,加上网络和各路媒体的推波助澜,一时间搜索引擎成为众矢之的,就其虚假信息和行业公正问题热议不断。其实,单就网络上的虚假信息来说,搜索引擎本身对其也是深恶痛绝的,唯一能引起争议的话题在于,搜索引擎的广告中含有虚假信息,搜索引擎应该如何自处...

View Article

网页搜集的性能优化点

面向互联网和海量Web信息进行网页搜集,必须进行一系列的搜集性能优化工作,否则搜集网页的数量和质量(例如时效性)都将无法得到保证。这些技术涉及到很多方面,下面挑选几个有代表性的进行介绍...

View Article

互联网到底能提供哪些有价值信息

每个人都在说互联网信息的海量性,每个人都在说互联网信息的丰富,甚至还有一门学科就叫Web信息挖掘。那么,互联网到底能提供哪些有价值的信息呢?Web信息挖掘到底包括哪几方面呢?通常情况下,Web信息挖掘主要分为Web文本信息挖掘,Web结构信息挖掘和Web访问信息挖掘,因此互联网的有价值信息主要可以分为以下三类...

View Article

网络营销(垃圾邮件)邮件地址获取方法

目前,网络营销手段之一就是向广大用户定时群发邮件,当然某种程度之下也会被称为垃圾邮件轰炸。那么进行群发邮件的前提是需要事先具有大量的邮件地址(Email Address),那么这些邮件地址是怎样被发送者所获取的呢...

View Article


Lucene使用代码实例之建立索引

需要对一些HTML文档,PDF文档或者数据库文本数据进行索引的话,首先需要把HTML文档,PDF文档等转化成文本格式内容,然后将转化后的内容交给Lucene进行索引,再把创建好的索引文件保存到磁盘或者内存中,最后根据用户输入的查询条件在索引文件上进行查询。使用Lucene的代码简单来说可以分为两部分,一是建立索引,二是搜索内容。首先下载Lucene软件包,其发布形式是一个Jar文件,其中在为文档建立...

View Article

Lucene使用代码实例之搜索文档

利用Lucene为文本文档建立索引之后,就可以基于这个索引进行文档的内容搜索,从而找到包含某个关键词或短语的文档。Lucene在搜索文档时主要会用到IndexSearcher, Term, Query, TermQuery, Hits等五个基础类...

View Article

搜索引擎是否应该人工干预

由于此前百度爆发的虚假医药信息风波,很多人在对百度的口诛笔伐之中,加入了对百度人工干预搜索引擎结果的批判。但是实际上,人工干预搜索引擎本身并没有错误,如何进行干预才是真正需要关注和改进的地方...

View Article


要善于利用博客搜索引擎

现今在网络上寻找信息,使用搜索引擎是众所周知,但是博客搜索的使用率相对还是偏低的。其实,博客搜索既然作为独立搜索功能被开发出来,其本身是有一些独到之处的。如果能够善于利用博客搜索,有时候就能得到更加良好的搜索体验。博客搜索比通用搜索的独到之处有很多,但主要在于其有较高的时效性和真实性...

View Article


Lucene建立索引的四种类型

Lucene是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。Lucene提供四种不同类型的索引方法,分别是Keyword,UnIndexed,UnStored和Text,用户可以根据需要来选择合适的类型。下表详细说明了每种索引类型的用途和特点...

View Article
Browsing all 10 articles
Browse latest View live




Latest Images