企业网站建设基于网页内容的专用识别方式
日期 : 2020-12-22 12:09:11
基于网页内容的专用识别方式。由于基于网页内容的作弊方式种类繁多,很难找到一种通用的识别方式,所以一般是针对某种作弊方式设计某种专用的识别方法。
针对关键词堆砌和搜索结果摘要抄袭类型垃圾网页,可以考虑其与正常网页在某些内容特征上的不同,例如最为明显的是内容可视比例和内容压缩比例。
通常垃圾网页的内容可视比例和内容压缩比例比正常网页都要高很多。除此之外,超链接的比例、标点符号的比例、助词的词频等这些指标也可以作为识别垃圾网页的特征。
针对关键词堆砌和搜索结果摘要抄袭类型垃圾网页,可以考虑其与正常网页在某些内容特征上的不同,例如最为明显的是内容可视比例和内容压缩比例。
通常垃圾网页的内容可视比例和内容压缩比例比正常网页都要高很多。除此之外,超链接的比例、标点符号的比例、助词的词频等这些指标也可以作为识别垃圾网页的特征。