AI小组2022总结

Posted 2023-01-02 幻灰龙

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了AI小组2022总结相关的知识，希望对你有一定的参考价值。

时间如流水，2022年即将过去，也到了一年一度年终终结的时候。CSDN-AI小组在2022年在AI+之路上又有哪些积累呢？

问答机器人

在chatGPT风靡的时候，所有人都被它的强大惊叹到了。chatGPT的实用范围还有待各种不同的用户去尝试。从技术的角度上来说，chatGPT 对于绝大部分技术用户来说是一个黑盒子，但是从本质上来说它还是一个大语言模型。

实际上，CSDN-AI小组一直独立训练一个问答机器人，programmer_ada，用在问答机器人上回答用户的问题。ada问答机器人一度占领到周采纳榜单的前3名。

做问答机器人有很多难点和痛点，对于实际问题来说，它的核心还是语料的充足，匹配的准确性，这点上我们是比较务实的。我们训练了几十个不同类型的数据索引，以及引入了领域公益的开源文档数据集。

2023年我们希望进一步强化问答机器人，在解决用户实际问题的路线上提供进一步的质变。

把内容的标签分类做好是NLP的基础核心工作之一。2022年，我们持续改进标签分类器的准确度，保持跟进最新技术调整统一标签。所有的标签变动都是公开的： https://gitcode.net/csdn/csdn-tags/-/issues

标签保持最新是重要的，2022年确立了几个新技术的分组：

在更新新技术的同时，逐渐弱化和去除老的旧的标签。以及针对性的添加一些必要的功能性分类标签。机器标签是底层机制，在这些方面都有有效的运用：

实际上包含正/反两个方面的运用：

在标签的运用上，我们逐渐摸索出一套根据标签做内容分层和分权重的机制，能有效的混排数据。我们希望好用的招数能反复深入地在多方面使用。

我们在极客日报社区上尝试了一种低代码开发方式。核心机制是：

这种方式可以快速实验数据，自动化地出数据，同时能和用户之间建立连接。特别是能快速迭代数据的准确性这点，是非常有用的机制。

另外一种方式是，给社区增加了Ada助手频道，该频道内帮助用户做AI+数据整理。

我们相信，内容的深度分类能力是CSDN平台的优势之一，基于NLP技术的深入分类能力我们可以走的更远。它的核心还是帮助技术用户获得持续的学习和成长。

我们在博客和Blink上实验了Blink评论机器人。基于内容分类和意图识别，再做个性化推荐和评论。这块实验的核心也是内容分类和识别的精确性，以及个性化信息的合成能力。这个方向是对的，不过需要进一步深化大语言模型的使用。从chatGPT也可以看出来，基于AIGC的对话会是未来起重要作用的变革技术。

我们在上半年基本就搞定了热榜的核心机制。就是前面提到的，使用内容标签分层权重体系来做混排。

而个性化推荐这里，我们在年末的时候开始从工程上处理个性化推荐项目。将工程梳理清楚后，再逐渐让数据驱动的部分起作用，做了一系列低质量数据的过滤。和所有的数据一样，过滤掉低质量的数据，把机会留给高质量数据。

这个工作还在持续改进。会进一步结合机器学历来做个性化推荐。

在结构化数据上，我们也持续做了很多工作。

在用户画像这块，要刻画有用的用户画像还是存在很多困难。一个结论是，如果基于模糊的数据做推导，得到的只会是更模糊的不可用的数据。因此，用户画像本质上是在挑少数有效的数据来做划分。

我们做了机器学历的计算。希望机器学历数据能真正帮助到技术学习者获得需要的内容推荐。基于用户的半自动化标注，我们使用机器学习的方式逐渐在改进。

结合用户的内容标签，我们也计算出了用户的机器标签。请访问你的个人学习成就页：edu.csdn.net/me 基于内容标签推理的用户标签实际上是一个比较有效的方式。但是也存在一些困难，这部分也需要再有一些方式来改进。

挖掘和改进全站的内容质量是NLP技术运用的一大目标。我们在全站针对不同内容做了这些工作

每个产品都逐渐地在底层内置的AI能力。实际上我们在将AI能力和社区、技能树、学习、个性化推荐等在做深度的结合。2022年整体上AI组还是在内容数据处理上投入了更多时间，我们治理了很多数据分类问题，也打通了很多管道。所有这一切都为做惊艳功能准备，期待2023。

–end–

以上是关于AI小组2022总结的主要内容，如果未能解决你的问题，请参考以下文章