[桂花树价格]莫言演唱桂花散文墙体的关键字分析
时间:2019/10/20 6:36:50 浏览量:
本文采用中文信息处理方法,并使用语音标记工具的一部分,以莫言《卖桂花》和《唱歌墙》的文字内容为研究对象,软件MyTxtSegTag,用于在文本上标记部分语音,并使用Python编写程序。个单词分为单词和频率统计,最后根据获得的数据对关键词进行分析和总结。言是首位获得诺贝尔文学奖的中国作家,也是首位获得诺贝尔文学奖的中国作家,是中国文学界有史以来获得的最高奖项。
1980年代开始,他出现了一系列本地作品,充满了对“乡愁”和“怨恨”的复杂感觉,并被归类为“寻根作家”。不完全统计,桂花树价格莫言的著作现已被翻译成至少40种语言。莫言获得诺贝尔文学奖以来,“莫言炙手可热”已成为大家用餐后讨论的话题。于莫言写作的研究很多,但是从语言学的角度来看,尤其是计算机语言学的文章很少。今,许多学者已经通过计算机辅助方法研究了作者作品的语言风格,文体特征和思想原理,计算机技术与文学的结合已成为当今社会的主流。学科研究的重要轴。
用计算机辅助方法研究文学作品中的高频词和主题词,对于理解文献的相关方面有很大的帮助。究语料库的内容和风格的重要方法之一就是主题词的研究。料库的语言规律可以通过高频词和主语来反映。们通常认为,文本的主题越明确或连贯,单词的使用就越集中,单词之间的差异就越大。 本分析软件可以通过计算被观察文本中单词或短语的频率,被观察文本的总频率,参考语料库中单词或短语的频率以及参考语料库的总频率。们通常认为高频词,主题词和与文本相关的主题是不可分割的。果该单词非常重要,则它与文本的主题更为相关。文以此为切入点,以莫言《卖桂花》和《墙能唱》为研究对象。
特定的中文信息处理系统中,词汇搜索结果通常表示为复杂的特征集,从而提高了系统的处理能力。汇的复杂表示要求我们详细描述每个特定单词的词汇知识,由于我的能力有限,本文仅分析这两篇文章中的主题词并得出相关结论。用语音部分标记工具的MyTxtSegTag软件对文本的一部分进行分段标记,然后执行手动重播。然机器的贴标有一些错误,但是不能完全解决手动校正,但是可以保证正确率超过90%。然,桂花树价格尽管语音部分标记也可以处理标点符号,但本文仅涉及单词。用Python编写程序来浏览每个单词并执行单词频率统计。单词频率统计之后,最终的文本包括2597个单词和4641个单词,以及单词的重复次数,一部分语音的出现次数以及其他相关数据。常,一个文本或一组文本的主题越严格或连贯,单词的使用就越集中,单词的可变性就越大。章中词汇的使用和分布与文章的主题紧密相关,后者具有独特的词汇组,其语料库中的重复率非常高,表明作者表达了非常强烈的主题。词汇选择方面保持一致。别。“卖桂花”的主题比较清楚,那就是母亲带我卖桂花。语料库名称中,“母亲”一词最常出现55次,占总标称频率的2.13%。 “桂花”一词是第二次出现,共34次,占名称总频率的1.32%,而其他名称的出现频率很低,因此基本上可以确定文章的主题作为“母亲”或“桂花”。两个词与本文的主题吻合。亲走近我,洗了衣服,擦干了我的眼泪。把脸放在妈妈的胸前,严肃地mo吟着。感到母亲用粗略的手抚摸我的头,我感到长袍上有芬芳的桂花味。夏天到秋天,从秋天到冬天,在一年中的三个季节中,我和我将这104朵具有令人愉悦香气的桂花变成了浓郁的桂花:播种,播种,除草和捕获。施肥,浇水,收获,干燥...每片叶子都留下我们的指纹...但是母亲卖给他们一棵树...我忍不住哭泣,哭泣并说母亲不满意。这一段看来,“母亲”和“桂花”经常出现。于主题分散,免费文章提供了广泛的词汇和高度的自由度。料库的一般特征比主题清晰的文章的词汇量大,重复率低。“唱歌的墙”这个主题不太清楚:作者在他的家乡写了很多东西,但是最重要的是什么。据语料库的统计,语料库较大,最常见的名称是“ pond”,它出现了34次,占总标称频率的0.73%,其次是“ human”,出现了34次,代表占总标称频率的0.54%。
两个数字已经非常低,而其他名称则更低。讨论的单词在语料库中应具有非常高的频率,这显然不符合条件。
此,散文的主题尚不清楚。着三层高的黄土大道,村庄在村庄外。东南部,似乎延伸到无限远的沙漠到了。 观的变化常常使人感到精神焕发。土路已被遗弃,脚下的道路不知道何时成为一条黑色,狭窄,弯曲的土路,该路向东南延伸而不至终点。们不禁回头。您回头看时,您会看到村庄中心完全是中国天主教堂的大十字架上的乌鸦,早晨的夕阳或乳白色的烟雾将其变成模糊的黑点。许当您回头看时,事实证明这些是铃铛的钟声,溢出了尖顶,动了您的心。黄土大道上,有一片树荫,如果是秋天,你可以看到落叶的奇观:没有风的痕迹,许多金黄的树叶掉下来,树叶冲突,绳索的声音,小鸡在街上走来走去,吓坏了。坏了。该段可以看出,该文章是散文,主要是用描述性语言撰写的,主题尚不清楚。汇的选择在文章的主题中受到更大的限制:主题越具体,限制越宽,主题的词汇重复率越高。过比较这两个语料的数据,词汇重复率高的文章主题也很清楚,词汇重复率低的文章主题也不清楚。文仅从莫言的两篇论文中选取10,000多个单词进行分析,为深化莫言写作的语言特征或词汇,有必要选择一个主题相同的语料库(语料库)。作观察语料库)和另一个。
过比较大型语料库,可以从观察语料库中提取经常超出的单词组,并按主题生成词汇,以获得更完整的结论。了加深研究,第一个步骤是计算每个文本的词库,主题词是被研究语料库中频率非常高的词。本上,该表格统计信息可以提供语料库文本的单词频率分布信息,但是很难解释上下文中单词的使用以及单词之间的关系。引分析可以在短语和共现级别提供基于上下文的关键字。词的使用和单词之间的关系以及主题词的统计可以提供短语之间的关系。词在语音和文本主题以及单词之间的关系方面的分布。 占一个文本的词汇只能作为观察文本中单词分布的基础,如果通过计算提取出文本中使用的单词组,则可以观察到更多作者。于表达主题的词汇。果邀请一个主题匹配单个单词组,则单词在该文本中的出现频率应高于其他文本。过比较两个不同的文本,可以提取给定文本中频率非常高的一组单词,并且该组单词可以被视为该文本的主题词汇。
本文转载自
桂花树价格 http://m.guihua99.net/m/
1980年代开始,他出现了一系列本地作品,充满了对“乡愁”和“怨恨”的复杂感觉,并被归类为“寻根作家”。不完全统计,桂花树价格莫言的著作现已被翻译成至少40种语言。莫言获得诺贝尔文学奖以来,“莫言炙手可热”已成为大家用餐后讨论的话题。于莫言写作的研究很多,但是从语言学的角度来看,尤其是计算机语言学的文章很少。今,许多学者已经通过计算机辅助方法研究了作者作品的语言风格,文体特征和思想原理,计算机技术与文学的结合已成为当今社会的主流。学科研究的重要轴。
用计算机辅助方法研究文学作品中的高频词和主题词,对于理解文献的相关方面有很大的帮助。究语料库的内容和风格的重要方法之一就是主题词的研究。料库的语言规律可以通过高频词和主语来反映。们通常认为,文本的主题越明确或连贯,单词的使用就越集中,单词之间的差异就越大。 本分析软件可以通过计算被观察文本中单词或短语的频率,被观察文本的总频率,参考语料库中单词或短语的频率以及参考语料库的总频率。们通常认为高频词,主题词和与文本相关的主题是不可分割的。果该单词非常重要,则它与文本的主题更为相关。文以此为切入点,以莫言《卖桂花》和《墙能唱》为研究对象。
特定的中文信息处理系统中,词汇搜索结果通常表示为复杂的特征集,从而提高了系统的处理能力。汇的复杂表示要求我们详细描述每个特定单词的词汇知识,由于我的能力有限,本文仅分析这两篇文章中的主题词并得出相关结论。用语音部分标记工具的MyTxtSegTag软件对文本的一部分进行分段标记,然后执行手动重播。然机器的贴标有一些错误,但是不能完全解决手动校正,但是可以保证正确率超过90%。然,桂花树价格尽管语音部分标记也可以处理标点符号,但本文仅涉及单词。用Python编写程序来浏览每个单词并执行单词频率统计。单词频率统计之后,最终的文本包括2597个单词和4641个单词,以及单词的重复次数,一部分语音的出现次数以及其他相关数据。常,一个文本或一组文本的主题越严格或连贯,单词的使用就越集中,单词的可变性就越大。章中词汇的使用和分布与文章的主题紧密相关,后者具有独特的词汇组,其语料库中的重复率非常高,表明作者表达了非常强烈的主题。词汇选择方面保持一致。别。“卖桂花”的主题比较清楚,那就是母亲带我卖桂花。语料库名称中,“母亲”一词最常出现55次,占总标称频率的2.13%。 “桂花”一词是第二次出现,共34次,占名称总频率的1.32%,而其他名称的出现频率很低,因此基本上可以确定文章的主题作为“母亲”或“桂花”。两个词与本文的主题吻合。亲走近我,洗了衣服,擦干了我的眼泪。把脸放在妈妈的胸前,严肃地mo吟着。感到母亲用粗略的手抚摸我的头,我感到长袍上有芬芳的桂花味。夏天到秋天,从秋天到冬天,在一年中的三个季节中,我和我将这104朵具有令人愉悦香气的桂花变成了浓郁的桂花:播种,播种,除草和捕获。施肥,浇水,收获,干燥...每片叶子都留下我们的指纹...但是母亲卖给他们一棵树...我忍不住哭泣,哭泣并说母亲不满意。这一段看来,“母亲”和“桂花”经常出现。于主题分散,免费文章提供了广泛的词汇和高度的自由度。料库的一般特征比主题清晰的文章的词汇量大,重复率低。“唱歌的墙”这个主题不太清楚:作者在他的家乡写了很多东西,但是最重要的是什么。据语料库的统计,语料库较大,最常见的名称是“ pond”,它出现了34次,占总标称频率的0.73%,其次是“ human”,出现了34次,代表占总标称频率的0.54%。
两个数字已经非常低,而其他名称则更低。讨论的单词在语料库中应具有非常高的频率,这显然不符合条件。
此,散文的主题尚不清楚。着三层高的黄土大道,村庄在村庄外。东南部,似乎延伸到无限远的沙漠到了。 观的变化常常使人感到精神焕发。土路已被遗弃,脚下的道路不知道何时成为一条黑色,狭窄,弯曲的土路,该路向东南延伸而不至终点。们不禁回头。您回头看时,您会看到村庄中心完全是中国天主教堂的大十字架上的乌鸦,早晨的夕阳或乳白色的烟雾将其变成模糊的黑点。许当您回头看时,事实证明这些是铃铛的钟声,溢出了尖顶,动了您的心。黄土大道上,有一片树荫,如果是秋天,你可以看到落叶的奇观:没有风的痕迹,许多金黄的树叶掉下来,树叶冲突,绳索的声音,小鸡在街上走来走去,吓坏了。坏了。该段可以看出,该文章是散文,主要是用描述性语言撰写的,主题尚不清楚。汇的选择在文章的主题中受到更大的限制:主题越具体,限制越宽,主题的词汇重复率越高。过比较这两个语料的数据,词汇重复率高的文章主题也很清楚,词汇重复率低的文章主题也不清楚。文仅从莫言的两篇论文中选取10,000多个单词进行分析,为深化莫言写作的语言特征或词汇,有必要选择一个主题相同的语料库(语料库)。作观察语料库)和另一个。
过比较大型语料库,可以从观察语料库中提取经常超出的单词组,并按主题生成词汇,以获得更完整的结论。了加深研究,第一个步骤是计算每个文本的词库,主题词是被研究语料库中频率非常高的词。本上,该表格统计信息可以提供语料库文本的单词频率分布信息,但是很难解释上下文中单词的使用以及单词之间的关系。引分析可以在短语和共现级别提供基于上下文的关键字。词的使用和单词之间的关系以及主题词的统计可以提供短语之间的关系。词在语音和文本主题以及单词之间的关系方面的分布。 占一个文本的词汇只能作为观察文本中单词分布的基础,如果通过计算提取出文本中使用的单词组,则可以观察到更多作者。于表达主题的词汇。果邀请一个主题匹配单个单词组,则单词在该文本中的出现频率应高于其他文本。过比较两个不同的文本,可以提取给定文本中频率非常高的一组单词,并且该组单词可以被视为该文本的主题词汇。
本文转载自
桂花树价格 http://m.guihua99.net/m/