索引的本质
来源:洛阳达内IT教育培训机构时间:2021/8/25 10:24:45
索引的本质
在“机器如何知道我们要寻找哪些信息”这一问题时,我看到的解决领域模型是:告诉机器如何提取信息的特性,然后机器将这些“索引”与搜索者大脑中的信息进行比较,就能知道用户要寻找的信息。
在这方面,我们已经总结出索引的本质:信息的特性。
返回开头所举的例子:
词典上都会有按字母顺序排列的目录,而字迹则是按笔画排列的目录,因此,可以将其作为索引。
库里的每本书都有编号,编号可以用有意义的字母来表示,例如T2300004可以代表科技类二楼三排等等。按照这个号码,我们可以很容易地找到这本书。在此给我们一个提示,当搜索信息自有特征不明显时,可以人工添加。例如一部电影,我们可以人工添加诸如动作片、简爱等标签,以便于搜索。
周边餐厅的特点可有:地理坐标、美味与否、价格优惠等。
由于索引是信息的特征,那么我们如何组织索引以便于使用索引呢?当前有两种编制索引的方法:
关联一批特征之后的信息。
每个特征之后关联一个批量信息。
正向索引:信息后关联一批特征。
在我的经验中,先讨论前向索引比反向索引更能让读者更好地理解索引的本质。
实际上,正向索引的结构非常简单:
反向索引:每一种特征后关联一批信息。
对于信息检索,反向索引实际上称为:Invertedindex。本国常译为倒排索引。一开始,就像大多数人一样,对名词一窍不通。因此,我倾向于将其转换为反向索引。所以我们称之为inverted,这是因为它的正向存在吧。
但是,解决域模型决定我们将使用反向索引结构,而非正向索引结构。或许这是为了什么,大多数的图书信息检索类对前向索引只字不提。
尊重原创文章,转载请注明出处与链接:http://www.peixun360.com/3850/news/400322/违者必究!
以上就是洛阳达内IT教育培训机构 小编为您整理 索引的本质的全部内容。