分享好友 最新动态首页 最新动态分类 切换频道
discuz列表页调用帖子_【干货】如何利用shingle算法布局网站内链和聚合页生成...
2024-12-25 14:29

当站外的优化越来越难的时候,站内的优化就成为了seoer的必备技能,也是检验seo能力的体现。特别是在大型网站,站内优化尤为重要。

discuz列表页调用帖子_【干货】如何利用shingle算法布局网站内链和聚合页生成...

我之前有说过,内链的作用除了提升收录,那么就是提升用户的点击以及页面的投票等。

那么如何合理的分配和布局内链就是一个很有意思的研究了。

所谓的内链调用,就是我们网站的内页(包括列表页、详情页以及其它聚合页面)的链接模块上的链接调用啦。

比如:最新文章、相关文章、站长推荐、tag标签云以及其它的链接模块,由于每个站都不一样,这里就不一一展开讲。

我们一般的方式就是,最新文章是调用N条最新发布的文章,相关文章也是调用最新的tag相关的文章,还有站长推荐可能就是调用那些在后台选的推荐位的内容,tag标签云也是调用最新的N条标签链接。

但是我们很快就发现以上的调用方式存在很大的问题,我们没有合理的分配内链的资源。比如最新文章,比如调用20,30条。那么这30条内容会一下子获得全站的链接推荐,但是很快又会被其它新发布的链接给替换掉了。还有就是很多当天发布的新文章,可能展示的机会都没有1秒钟就被后来发布的新文章给替换掉了(如果我们每天发布很多的文章的话)。

对于相关文章以及tag标签也存在同样的问题。而且由于这种分布的不平等,很容易导致很多的页面的层级会很深得不到很好的推荐。那么就会非常的影响蜘蛛对于整站内容的抓取。

解决不了抓取的问题,那么对于后续的提升排名什么的都是无用的。因为蜘蛛没有发现你的链接就没法计算权重获取内容啥的。

那么如何解决这种分配不均匀的问题呢

一种很简单的方法就是随机调用,这样看起来会好很多。但是随机调用对于网站数据库的性能是很大的挑战。

因此又进行了升级,对页面进行缓存,或者生成静态页面。

但是这种方法看起来是不错,但是可控性太差了,我们没法很好的控制每个页面的链接分配。

如何解决这个问题呢?这就是我们今天的主题,shingle算法

shingle在英文中表示相互覆盖的瓦片。基本概念

  • shingle 由N个字组成一个shingle,比如可以用5个字组词一个。

shingle算法其实是搜索引擎用来计算内容的相似度的,其原理是

从文档开始位置取,每隔N个字取一个shingle,直到取完,然后计算每个shingle的签名(hash)。最后将记录完全一致的shingle数除以两个文档的shingle总数减去一致的shingle数(就是简单的集合运算)。这种算方法计算出来的数值称为jaccard系数。计算公式如下

算法结论:对于长度L的文档,每隔N个汉字取一个shingle,这样一共取到个shingle。可见N的取值对于效率和效果的影响是非常大的。

实例说明一下吧,比如我们这里有两篇文档:文档1

9月3日,林心如出席了某品牌的发布会,面对媒体的群访,她与大家分享了家人的近况。

文档2

9月3日,林心如出席了某品牌的发布会,在采访环节的时候,她也和大家分享了自己和家人的近况。

那么如何计算呢,比如我们取5个字作为一个shingle的话,那么文档1和文档2的shingle分别是

可以算出文档1的shingle数量是32,文档2的shingle数量是37。jaccard值是0.278。那么如果在搜索引擎里面jaccard值大于0.2就算是相似文档的话,这两个文档就是相似文档啦。

说了那么多,这个跟我们做内链有啥关系

假如我们想让每个页面都获得10条或20条或30天的内链推荐,那么应该怎么做呢

那么是不是就可以从 id为1的文章开始,每隔N条取出来作为本文的最新文章就行啦。

如果你要每个页面都获取20条的推荐,那么就是取当前id后的20条作为最新文章就行了。

这种方法的好处就是,除了前后20篇文章获得的推荐数少于20之外,其余所有的链接都获得相等的内链推荐数。

当然了,这个其实并没有很好的利用shingle这个算法的优势,而是借鉴了一下它这个shingle的定义。

那么还有没有其他方面的运用呢

假如你有100万的商品要做成聚合页,我们假定jaccard值大于0.2是重复页面。那么这100万的商品可以生成多少聚合页呢

假如我们每个页面展示10个商品,我们由jaccard的计算公式可以得出: 其中n是相同产品的数量,这样就可以算出,那么我们就可以得出,一个id的重复调用次数不能超过3次,这样100万的页面就可以生成 30万个聚合页了。那如果是每页调用20个商品呢?依据得出,那么每个产品就不能重复调用超过6次,100万的页面就可以生成 哈哈,还是30万,发现了么。这个生成的数量取决于jaccard值。

好啦,今天的文章就分享到这里。如果你有更好的想法和建议,欢迎留言讨论。

最后,不来一波三连么

往期文章推荐

  1.  第三期Python与seo实战训练营开始预售啦,9月开课

  2. 【干货】作为seo,如何对150万的关键词进行筛选和过滤

  3. [AI写作]体验如何通过训练让程序帮我们自动写文章

  4. [黑帽技术分享]浏览器回退拦截及代码实现

  5. 【干货】如何计算文章标题和内容相关度?提供完整代码

关注我,一起学习更多的SEO技术

最新文章
单季2万亿交易额,微信流量指挥棒再调整
文 | 一千二百字本周三发布三季度财报,先来看一下基本面:总营收1672亿元,同比增速8%,环比4%,仍然维持一年来的低位增长。分部业绩中,受本土游戏以及出海表现的拉动,增值服务同比增长9%,这是近几个季度以来的最快增速;营销服务(财
《揭秘高效秘籍!网站内部SEO优化,助你网站排名跃升新高度》(网站内部SEO优化技巧分享让你的网站在竞争中脱颖而出)
:网站内部SEO优化:常见问题解答与优化策略分享一、引言随着互联网的快速发展,网站已经成为企业展示自身形象、推广产品和服务的重要平台。而网站优化,尤其是内部SEO优化,对于提升网站在搜索引擎中的排名、吸引更多潜在客户具有重要意义
全方位营销号内容创作工具:一键生成吸引眼球的原创文章标题与内容
随着互联网的高速发展各种社交媒体平台的兴起营销号已经成为企业、个人传的必不可少途径。一篇优秀的营销文章不仅可以吸引大量读者还能为企业带来可观的收益。创作一篇高品质的营销文章并非易事,它需要具备独到的视角、巧妙的构思和引人入
SEO搜索引擎优化的工作原理
很多人对SEO优化是什么感到好奇,每天更新文章,为什么网站排名可以提高。今天,将介绍SEO搜索引擎优化的工作原理。一、搜索引擎蜘蛛抓取搜索引擎使用收集和捕获向用户显示,使用爬虫程序,通常被称为蜘蛛,网站搜索引擎优化优化是向网站发
东城SEO快排秘籍,高效策略助力企业网站排名飞跃
东城SEO快排,深度解析高效搜索引擎优化策略,助企业快速提升网站排名,实现网络营销目标。掌握SEO核心技巧,优化网站内容与结构,助力企业抢占搜索引擎流量高地。在互联网时代,搜索引擎优化(SEO)已经成为企业提升在线可见度和吸引潜在
ai智能文案自动生成网页怎么弄
ai智能文案自动生成网页怎么弄在数字化时代的浪潮下人工智能技术的飞速发展已经渗透到了各个行业。其中智能文案自动生成网页的技术以其高效、精准的特点正逐渐成为企业提升运营效率、减低人力成本的必不可少工具。无论是电子商务、内容营销
信息技术产业行业研究:AI应用表现强势,看好相关产业链投资机会.pdfVIP
投资逻辑计算机行业观点:从中美资本市场AI产业链的表现看,此前持续表现强劲的是上游,近期表现强势的是AI应用。从背后的产业逻辑看,也相对简单,先涨上游,是因为上游业绩兑现早且确定,一开始大家期待与焦虑并存,FOM心态下巨头引领开
SEO点击排名软件,揭秘网站快速上位的秘密武器
揭秘SEO点击排名软件,这款神秘工具助力网站迅速攀升搜索引擎排名。通过智能算法模拟真实点击,优化搜索引擎抓取,实现快速提升网站流量和可见度,成为提升网站竞争力的秘密武器。在互联网的时代,网站优化(SEO)已成为企业网络营销的重要
兰州企业网络曝光秘籍,关键词排名优化攻略全解析
兰州关键词排名优化策略,通过精准定位、内容优化、链接建设等手段,助力企业网络曝光度提升。掌握这些秘密武器,让你的企业在网络竞争中脱颖而出。随着互联网的普及,越来越多的企业和个人开始重视,在兰州这样的大城市,竞争愈发激烈,如
AI写作助手:轻松打造引人入胜的文章
尊敬的读者朋友,作为信赖的文字撰稿人,我想向大家强调,利用人工智能(AI)来帮助文章自动生成确实能有效提升写作能力,现为您献上使用AI的体验以及策略,帮助您轻松进入优秀的经验交流区域。
相关文章
推荐文章
发表评论
0评