什么是象征型文本

自然科学作者 / 骚皮 / 2026-03-10 02:51
"
象征型文本是文学文本的呈现类型之一,是以暗示方式披露隐含的哲理的文本,它的特征有暗示性、说理性和待解性。第一,暗示性是文

象征型文本是文学文本的呈现类型之一,是以暗示方式披露隐含的哲理的文本,它的特征有暗示性、说理性和待解性。第一,暗示性是文本语言的间接的暗中指示特性,是象征型文本的核心特征。第二,说理性是文本往往借助具体形象而述说某种抽象观念。第三,待解性是文本具有一种等待进一步解释的特性。

文本分类特征工程概述

文学作品的文本层次

一. 名词解释:

1、文本:在英语中是原文、正文的意思,这里用来指由作者写成而有待于阅读的单个文学作品本身。 文本具有由表及里的多层次的审美结构。

2、文学言语层面:内涵:指文学文本首先呈现于读者面前、供其阅读的具体言语系统。

3、文学形象层面: 内涵:读者在阅读文学言语系统过程中,经过想像和联想而在头脑中唤起的具体可感的动人的生活图景。

4.文学意蕴层:所谓文学意蕴层,是指本文所蕴含的思想、感情等各种内容,属于本文结构的深层内容和意味。

5、哲学意味层:指通过具体事物对对宇宙人生的形而上的思考,即在诗意描绘中启发人产生对于人生、宇宙、生存等问题的思索、领悟。

6、审美意蕴层:是文学作品所唤起的审美愉悦感(形象引发的单纯的美感体验)。

对于美的感悟、体验:自然美、人生美、人性美

文学形象的理想形态

重点:1、文学典型:作为文学形象的高级形态之一,典型是文学言语系统中显出特征的富于魅力的人物性格。它在叙事性作品中,又称典型人物或典型性格。

重点:2特征性《化》:就是通过以具体、生动、独特外在形象所表现的丰富、深刻的内在本质。

3:典型环境:是充分体现现实关系真实风貌的人物的生活环境。它包括以具体独特的个别性反映出特定历史时期社会现实关系总情势的大环境,又包括由这种历史环境形成的个人生活的具体环境。

重点:4意境的定义:是指抒情性作品中呈现的那种情景交融、虚实相生的形象系统及其诱发和开拓的审美想像空间。它与文学典型一样,也是文学形象的高级形态之一。

5. 韵味无穷:指由艺术作品的物色、意味、情感、事件、风格、语言、体势等共同构成的美感效果。

6. 有我之境,无我之境:有我之境,指感情比较直露,倾向比较鲜明的意境。无我之境并不是指作者不在意境画面中出现,而是指那种情感比较含蓄,不动声色的意境画面。

7、重点:审美意象:就是充分表现审美理想的意象,是高级形象形态之一,是指以表达哲理观念为目的,以象征或荒诞性为其基本特征的,在某些理性观念和抽象思维的制导下创造的具有求解性和多义性的达到人类审美理想境界的“表意之象”。

8、哲理:人类能够取得与自然的和谐却难以消除同类间的隔膜,并且无声地呼唤人与人之间相互理解、互相信任、和谐融洽。

首先,如何构建一个完整的机器学习项目呢?

主要有以下几个步骤:

个人认为这里最重要的是第5步,特征工程。

何为特征工程呢?顾名思义,就是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。

本质上讲,特征工程是一个表示和展现数据的过程;实际工作中,特征工程的目的是去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。

好的特征工程可以 ①降低模型复杂度,减小过拟合;②提升模型泛化性能;③加快模型训练和预测速度。

为什么必须要进行特征工程呢?在实际任务中,我们接收到的数据往往是高维,非线性,高噪声的,比如一张256*256像素*3(RGB通道数)的,如果我们不*特征提取,那么就需要把这196608个特征都使用上,对于分类器来讲,这是必然会造成过拟合的。事实上对于一张来说,它关键的信息也就那么几个部位,同时你完全可以采用一种压缩的方法把它们用更小的图像展示出来,输入到训练网络中。本质上来讲,图像压缩也就是一种特征工程。

对于文本这样的非结构化数据来讲呢(、音频、文本、视频都是非结构化数据)?

文本分类的核心都是如何从文本中抽取出能够体现文本特点的关键特征,抓取特征到类别之间的映射。所以特征工程很重要,可以由四部分组成:

文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化是文本表示的一种重要方式。文本向量化就是讲文本表示成一系列能够表达文本语义的向量。

词袋模型是最早的以词语为基本处理单元的文本向量化方法。

词袋法(Bag Of Words,BOW) 基于这样一个朴素的思想:对训练集词库中的每一个词构建唯一的 独热向量(One-hot) 表示,每个单词用 00000...0100..00000 表示,向量的长度为词库的长度,对于每个词表示出的one-hot向量,只有一个特定位置是1,其余都是0。

对于一篇文本而言,同样用一个1*dim(dim表示词数量)向量来表示,其中每个元素表示词典中相关元素在文档中出现的次数。(也有的词袋模型中只要出现该词就置1,否则置0,除了0和1没有其他数字)

例如有如下两个文档:

①引入词频: 顾名思义,这是文本的词袋表示向量不再是普通的 00102100...了,相应位置上的词权重不再是该文本中某个词的数量,而是该词语在整个 语料库 上的词频。改进后的文本词袋表示如 0 0 67 0 187 43 0 0...

②引入tf-idf: 这是较常见的做法: Tf-Idf ,即 词频-逆文档频率。

TF-IDF有两层意思,一层是"词频"(Term Frequency,缩写为TF),另一层是"逆文档频率"(Inverse document Frequency,缩写为IDF)。 是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。

TF-IDF基于这样一个朴素的思想: 某个词的重要性与它在文件中出现的次数呈正比,与它在语料库中出现的次数呈反比。

IDF的常用计算公式如下图

这里D为语料库中总文档数,D(i)为语料库中出现词i的文档数量,注意这里 分母+1 ,这是采用了 拉普拉斯平滑 ,避免有部分新的词没有在语料库中出现过从而导致分母为0的情况出现。 此外,注意这里用到了log函数 ,即对idf的值取了对数。

至于为什么tf和idf是相乘而不是相加,idf为什么要取对数,拉普拉斯平滑方法的选择,这些都是经过大量理论推导和实验研究的,具体细节此处不表。

最后,需要注意的是,同一个词,在同一语料库下的不同文档中,它的tf-idf值是不同的:准确的来讲,是idf值相同,但tf值不同,因为词频的计算是依据特定文档的。

③引入N-gram

针对词袋模型无法表达语序这样的缺陷,有人提出了N-gram模型。本质上来讲,N-gram是一种语言模型,我们这里只是借用了它的思想,即为了解决词袋模型不考虑语序关系的问题,我们构建了一个大小为N的词滑动窗口进行新的表征。其实词袋模型就是一个 1-Gram模型 举例来说,对于一句话

其对应的词袋模型为:

对应的2-gram模型为:

其他的话本质上还是和词袋模型相同:N-gram模型的缺点是会造成更高的时空开销,维度也更加稀疏了。

关于N-gram在语言模型上的知识以后再表。

其他方法亦可另见《python自然语言处理实战:核心技术与算法》P85:tf-idf算法、TextRank算法、LSA/LSI/LDA算法

文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化是文本表示的一种重要方式。文本向量化就是讲文本表示成一系列能够表达文本语义的向量。

当前阶段,对文本向量化的大部分研究都是通过词向量化来实现的。与此同时,也有相当一部分研究者将文章或者句子作为文本基本处理单元,提出了doc2vec和ste2vec技术。

基于embedding的词表示,其核心思想是: 上下文相似的词,其语义也相似。 这就是著名的 词空间模型(word space model) ,词向量通常使用神经网络模型训练得到,神经网络模型就是根据上下文与目标词之间的关系进行建模。

word2vec glove fasttext

word2vec改进→doc2vec:word2vec丢失了文本的语序信息,而文本的语序包含了重要信息。 doc2vec 主要有两个模型: DM和DBOW 模型,DM和CBOW模型相对应,可以根据上下文词向量和段向量预测目标词的概率分布;DBOW与Skip-gram相对应,只输入段向量,预测从段落中随机抽取的词组概率分布。总体而言,doc2vec是word2vec的升级,不仅提取了文本的语义信息,而且提取了文本的语序信息。

关于word2vec篇幅有点大,我们不在这里讲了,移步 此处

cnn rnn

NN的好处在于能end2end实现模型的训练和测试,利用模型的非线性和众多参数来学习特征,而不需要手工提取特征。CNN善于捕捉文本中关键的局部信息,而RNN则善于捕捉文本的上下文信息(考虑语序信息),并且有一定的记忆能力。

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读