登录
首页 » 算法 » simHash,用来网页去重最常用的hash方法,速度很快.

simHash,用来网页去重最常用的hash方法,速度很快.

于 2022-11-14 发布 文件大小:2.93 kB
0 190
下载积分: 2 下载次数: 2

代码说明:

Simhash 传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜索引擎而言是不可接受的,simhash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似。 simhash算法很精巧,但却十分容易理解和实现,具体的simhash过程如下: 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 分数计
    这是只是一个简单的计算器,它允许某人 +,-,*,/ 分数。以为类实验室,它实际上可能是有用的人。
    2022-07-11 18:20:44下载
    积分:1
  • Mathematical Modeling of experiences, the preparation team and have team members...
    数学建模的经验之谈,对准备参赛及已经参赛的队员有一定的指导意义。对参加工作的科研人员也有一定借鉴作用。-Mathematical Modeling of experiences, the preparation team and have team members have a certain significance. For participating in the work of researchers also have some reference.
    2022-12-17 13:20:03下载
    积分:1
  • 基于LANDMARC系统的室内定位仿真研究
    资源描述摘要:首先介绍LANDMARC系统室内定位的原理。然后结合“距离一损耗”公式,建立了基于此的模型,在此基础上,对模型参数进行优化,并分别通过引入Z方向矢量和距离噪声系数a,作为干扰因子,较真实地模拟了环境变化所产生影响,得到较理想效果,仿真结果表明优化后参教具有很强的抗干扰能力,并能较好为LANDMARC系统的实验与实施提供科学的引导。 关键词:LANDMARC;RFID技术;室内Z/g;噪声模拟
    2022-06-28 10:20:14下载
    积分:1
  • 顺序表链表
    算法与数据结构试验中实验一:完成相关创建链表、排序、插入、 删除 等常见链表操作
    2022-08-10 13:25:19下载
    积分:1
  • c#实现A*
    采用C#软件,在vs平台上,实现8数码的演示。可以实现自动和手动的功能,功能基本和浙江工业大学的人工智能软件类似。
    2022-03-04 05:48:57下载
    积分:1
  • 在有限元分析中计结构整体刚度矩阵、单元刚度矩阵、单元结点位移、应力应变等...
    在有限元分析中计算结构整体刚度矩阵、单元刚度矩阵、单元结点位移、应力应变等-In finite element analysis to calculate the structure of the overall stiffness matrix, element stiffness matrix, element node displacement, stress and strain, etc.
    2022-03-14 12:45:45下载
    积分:1
  • 贝叶思网络分类规则例程
    贝叶思网络分类规则例程-Bayesian Network Classification Rule tutorial
    2022-04-10 19:55:02下载
    积分:1
  • 8 Queen of c Solutions
    8皇后问题的c++解决方案-8 Queen of c Solutions
    2023-04-06 17:05:03下载
    积分:1
  • ejercicio deitel and deitel
    这是一个自由的算法。。不,我是医生
    2023-04-12 20:40:04下载
    积分:1
  • This is a compiler for a small pascal procedures it is not enough for some but a...
    这是一个用来编译pascal的一个小程序有些还不行但也发了-This is a compiler for a small pascal procedures it is not enough for some but also made a
    2022-02-05 02:30:56下载
    积分:1
  • 696516资源总数
  • 106914会员总数
  • 0今日下载