能够给你答案

Posted 小5聊

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了能够给你答案相关的知识,希望对你有一定的参考价值。

作者:小5聊

简介:一只喜欢全栈方向的程序员,专注基础和实战分享,欢迎咨询,尽绵薄之力答疑解惑!

公众号:有趣小馆,一个有趣好玩的关键词回复互动式公众号,欢迎前来体验

1、标题质量

1.1、标题质量应该做到以下几点

符合自然语言语法的主谓/动宾结构

1

部分词汇在术语词典中,重点是主语和宾语

2

如果一个标题只有术语词典中的词,做一定的降权

3

标题的情感分析结果应趋向于中立,情绪激烈的予以降权

4

对包含负分数词汇的标题降权

1)排序依据

内容质量分,这个质量,并不是严格遵循主观上的内容质量,而仅仅是一个排序依据,

属于推荐系统的一部分

2)目标

基于统计算法而非人工干涉,尽可能在统计上将更优质的内容推荐给用户,

推荐系统也不能保证推荐的内容能够百分百就是用户想要的

1.2、标题推荐

标题推荐,主要目标是两个

1)第一个目标,标题应该符合专栏题材或搜索关键字

这方面,要重点对抗通过标题堆砌关键字来提高命中率的行为(标题堆砌,容易降权,需要特别注意)

2)第二个目标,标题要能符合文章本身的内容

要对抗“标题党”行为(容易降权,需要特别注意),目前C站博主大多数标题质量还是很高的,标题党占比率还是很低的,

个人也非常认同这一点,推荐到的文章,标题和内容都是非常匹配一致的,这点必须给C站技术人员点赞!

2、内容质量

标题的质量显然不能决定一篇文章的质量,博文内容评估仍然是一个比较难定量的问题,对文章的质量进行自动化的量化评估,是一件很有争议的事情,哪怕是仅仅评估文章的形式质量,也很难做到精准明确

1)高阶词汇的差文

博文目前存在的情况,内容可能命中很多高阶词汇,但仍然是一篇很差的文章,甚至可能是不符合自然语言的词语堆砌,仅仅是符合词法语法的机器判定

2)多项式评估

总体来说,质量分计算是一个多项式,它由一组指标项的加权求和,再乘一组因子项,求得的结果做归一化处理来实现

看到这个公式,只想说,算法是个技术量很高的领域,佩服做算法的程序员

函数 f(x):归一化处理的工具函数,主要是为了将计算结果约束在一个有限的区间内,便于比较

因子项p:指以乘法作用于质量分的那些指标项,它们通常都在(0, 1]区间

总结:从这个式子可以看出,每一个低分的因子会明显的降低最终的质量分,这些因子也基本都是一些降权机制

3)重点关注指标

内容质量,关注的指标

1

博客文章的长度

1)文章针对性强和目标清晰

直白点就是,文章说1就是1,不要说1出来1、2、3,没有一个重点,不符合标题和内容不匹配

2)太长或太短的文章,会被降低分数

3)避免啰嗦或者,导致糟糕的阅读体验

4)过长的文章也不利于读者消化吸收其中的知识

5)结构和章节清晰

一篇博客,更接近于一章甚至一节

6)过长文章,鼓励按专栏或者打标签,提高用户阅读体验和知识消化

7)段落结构,要主次分明,不要标题字段比内容还多

2

链接等超文本内容的比例和质量

1)超链接比例过高

显然是不正常的,这样的文章我们会予以降权,目前比例阀值非常的高,作者们可以放心,文章带有内部目录,或者常见的包含引用资料等链接的文章,不会触发这个规则,仅针对文章都是链接的情况

2)图片比例过高的文章进行降权

3

代码等文本格式问题

1)代码块格式混乱,或者行号串位,其中一部分我们通过技术手段识别出来,并对其降权

点击查看代码混乱例子:https://bbs.csdn.net/topics/392404771

2)

4

代码复杂度

1)非决定一篇文章的质量,但作为一个非关键性因素,尝试识别文章代码中包含的信息复杂程度,甄别出认真写作的作者,和一些可能存在的对抗行为

2)注水代码和无意义的代码,会降低质量分

3)代码质量分是加法项x中的一个指标,并不会决定性的提升最终的质量分

5

段落结构

1)合理的段落结构

鼓励在结构上均衡,不会有过多极短段落,也不会有非常长的长段落的文章

  • 代码复杂度,简单举例

第一段代码

for i in range(1, 10):
    print(i)

第二段代码

print(1)
print(2)
print(3)
print(4)
print(5)
print(6)
print(7)
print(8)
print(9)
print(10)

为什么会出现第二种情况,业内有一个笑话,说有团队按代码行数计算工作量,于是就有程序员把循环展开写

这两段代码在输入输出上是等效的,如果单纯按代码行数,第二段应该分数更高,但是在信息复杂度上,其实第一段比第二段更复杂,它描述了一个有边界条件的循环,而第二段是简单的重复。在我们的代码质量分计算中,第一段质量更高

3、实际验证,优化效果

通过小5的这篇文章来验证:【Sql Server】数据库的表变量和临时表的区别,并通过变量表随机生成姓名_小5聊的博客-CSDN博客

3.1、优化前文章质量分

3.2、优化后文章质量分

优化方向

1)拆分代码展示和底部增加总结

影响不大

 

 2)增加内置目录和丰富内容描述

3)继续调整段落结构和完善内容描述,并更新内置目录

 4)标题优化

【Sql Server】数据库的表变量和临时表的区别,并通过变量表随机生成姓名

【Sql Server】数据库变量表和临时表的区别,并运用变量表遍历和随机生成姓名记录

 总结:CSDN 质量分是一项公开的 CSDN 博文内容质量分析服务,其综合分析了内容的标题、段落结构、正文长度、代码格式及复杂度、链接和超文本内容比例及质量等因素,为 IT 技术文章提供客观公共的质量分析结果。

【参考内容】

 官方博客质量分计算,推荐文章阅读,也是本篇文章的参考方向

博客质量分计算(一)

博客质量分计算(二)

博客质量分计算(三)

https://blog.csdn.net/ccat/article/details/127891341?spm=1001.2014.3001.5502

 

以上是关于能够给你答案的主要内容,如果未能解决你的问题,请参考以下文章

在Python 3中遇到了正则表达式子函数的问题

第二周结对编程-20165222

将答案保存在文本文件中

2016012036+小学四则运算练习软件项目报告

D.Same Differences(思维+式子化简)

[51node 1965] 奇怪的式子