论述性文本分类

Posted 2023-03-18

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论述性文本分类相关的知识，希望对你有一定的参考价值。

参考技术A

论述性文本分类

论述性文本分类，文本分类是一种常见的类型，在阅读的时候需要掌握一定的技巧，这样才能更快的提高阅读的水平。以下就是我为大家整理的一些关于论述性文本分类的资料，大家一起来看看吧！

论述性文本分类1

1、用问题引领

要正确认知该文章阐述说明、分析、介绍了什么，作者为什么要这样做，其中心意思是什么，是怎样表达和写作的，并标示出来，做到心中有数。据此可提出诸多问题，以助展开高效阅读。如可设计以下问题：

1、文本主要谈的是什么问题或就什么事情阐述道理？

2、作者的基本立场、观点、情感和态度是怎样的？

3、本文依照怎样的顺序布局谋篇、组织文章？其段落之间的关系如何？

4、行文中为突显立意主要运用了哪些手段和材料？

2、从整体把握

1、先看标题，预测内容

文章标题有的是论点，有的是话题，阅读文章之前，可以先根据题目预测一下文章内容，阅读文章过程中，不论预测是得到印证还是被推翻，都有助于对文意的整体把握。

2、快速阅读，把握大意

第一遍阅读的目的是了解文本的基本内容，为下一步做题时的比较、筛选信息打好基础，如了解中心论点、主要论据等。阅读时应该用稍快的速度，重点放在文章的首尾或段首段尾表达观点的语句上，而对那些举例性质的文字可以一扫而过。

3、逐段阅读，细致梳理

一般论述类文章，不论其论述对象是历史现象还是文艺现象，都属于议论文的大范畴，都会符合议论文的文体结构规律的要求。阅读时可一画观点，二标材料，这样材料是材料，观点是观点，材料从属于哪个观点，从空间位置上就能看出来。

3、多角度操作

高考对一般论述类文章阅读考查侧重于逻辑思维能力，主要让考生借助语文学习的方法和规律，捕捉语言信息，主动获取知识，而不是要求考生全面、系统、透彻地弄懂相关科技知识，更不是从专业知识理解的角度来考查。对一般论述类文章的阅读与解题，我们要运用一些与之相适应的阅读解题方法。

1、分清类属——范畴

先要认定文章类属，是历史文化类的，还是文学艺术类的、教育伦理类的，文章类属不同，话题就不同。认定类属，有助于唤起回忆，调动知识储备，迅速进入文章特定内容。

2、强化概括——论点

一般论述类文章阅读，往往要从归纳内容要点的角度来命题。既有文章局部的内容要点归纳，也有全文的内容要点归纳。平时要强化从文章中找句子并进行概括的能力训练。

3、收集材料——论据

要特别注意收集文中的材料论据。有用来证实自己观点的，有用来反驳别人观点的，有用来表述某种看法的，有肯定的，有否定的，还有局部肯定局部否定的，这些都要分清。

4、注重技巧——论证

一般论述类文章谋篇布局的技巧和修辞技巧等主要是为说理服务的。鉴赏时不要脱离所说之“理”做孤立分析。从论证方法上来讲，要注重引证，例证，对比等。

论述性文本分类2

1、概述

文本分类是在nlp中很重要的模块。也是nlp任务中比较基础的模块。可以应用到很多领域：比如情感分析，新闻分类，垃圾邮件过滤等等。应用是非常广泛的。目前文本分类分为传统方法和深度学习的方法。在深度学习中文本分类又可以分文有监督学习的.和无监督学习。但是无论何种方法文本分类最终应该是属于数学的集合的归类问题。

，则变成多分类问题、f函数，我们称之为f分类器或者说文本分类模型。根据分类器的发展，通常可以将文本分类的发展分为两个阶段：1、传统方法阶段 2、深度学习阶段

本文将文本分类开发过程中关键的几个模块进行描述，包括前期的分类体系，数据工程和模型，测试。主要描述工程方面遇到的一些问题。

2、确定分类体系。

其实在分类前期除了做数据处理和特征的选择外，最应该先了解的是分类体系。确定好分类类型和分类体系是完成任务好任务的关键。如果是简单的几个分类倒是还好。但是一旦类别多了就很难说的清楚谁应该属于哪一类别。确定好的分类体系应该明确以下几点：

1、类别之间有无重叠边界是否清晰

2、类别之间有无上下级关系

3、输入数据是否存在于所有类别。

整个分类体系的建立，需要专业性，完备性和系统性。前期如果对算法的输入没有个完备的分类体系后期对于算法开发人员，测试以及产品人员都是不好的。会有很多没必要的争吵。

3、数据的预处理。

数据预处理包括中文分词、去除噪音和数据增强。当然还有pca降维等方式对数据进行处理，根据工程任务也可能会有其他很多方式这里不详细讲述。

分词：分词应该很容易理解了，有很多分词的工具比如jieba分词，ltp分词等等。其实在后面会讲到在用一些比较强大的深度学习模型以后可能不需要分词。

去除数据的噪音：比如停用词的，是，了等等、，还有就是业务上需要去除的，有些文本不是很干净的，有的是有乱码或者其他字符，可能也是需要你把他去除。比如我在业务中又遇到过ocr后数据会有很多句号，很多“囧”，或者韩国的文字，或者日本的文字出现。