[桂花树价格]莫言演唱桂花散文墙体的关键字分析
时间:2019/10/20 6:36:50 浏览量:
本文采用中文信息处理方法,并使用语音标记工具的一部分,以莫言《卖桂花》和《唱歌墙》的文字内容为研究对象,软件MyTxtSegTag,用于在文本上标记部分语音,并使用Python编写程序。个单词分为单词和频率统计,最后根据获得的数据对关键词进行分析和总结。言是首位获得诺贝尔文学奖的中国作家,也是首位获得诺贝尔文学奖的中国作家,是中国文学界有史以来获得的最高奖项。
1980年代开始,他出现了一系列本地作品,充满了对“乡愁”和“怨恨”的复杂感觉,并被归类为“寻根作家”。不完全统计,桂花树价格莫言的著作现已被翻译成至少40种语言。莫言获得诺贝尔文学奖以来,“莫言炙手可热”已成为大家用餐后讨论的话题。于莫言写作的研究很多,但是从语言学的角度来看,尤其是计算机语言学的文章很少。今,许多学者已经通过计算机辅助方法研究了作者作品的语言风格,文体特征和思想原理,计算机技术与文学的结合已成为当今社会的主流。学科研究的重要轴。
用计算机辅助方法研究文学作品中的高频词和主题词,对于理解文献的相关方面有很大的帮助。究语料库的内容和风格的重要方法之一就是主题词的研究。料库的语言规律可以通过高频词和主语来反映。们通常认为,文本的主题越明确或连贯,单词的使用就越集中,单词之间的差异就越大。
特定的中文信息处理系统中,词汇搜索结果通常表示为复杂的特征集,从而提高了系统的处理能力。汇的复杂表示要求我们详细描述每个特定单词的词汇知识,由于我的能力有限,本文仅分析这两篇文章中的主题词并得出相关结论。用语音部分标记工具的MyTxtSegTag软件对文本的一部分进行分段标记,然后执行手动重播。然机器的贴标有一些错误,但是不能完全解决手动校正,但是可以保证正确率超过90%。然,桂花树价格尽管语音部分标记也可以处理标点符号,但本文仅涉及单词。用Python编写程序来浏览每个单词并执行单词频率统计。单词频率统计之后,最终的文本包括2597个单词和4641个单词,以及单词的重复次数,一部分语音的出现次数以及其他相关数据。常,一个文本或一组文本的主题越严格或连贯,单词的使用就越集中,单词的可变性就越大。章中词汇的使用和分布与文章的主题紧密相关,后者具有独特的词汇组,其语料库中的重复率非常高,表明作者表达了非常强烈的主题。词汇选择方面保持一致。别。“卖桂花”的主题比较清楚,那就是母亲带我卖桂花。语料库名称中,“母亲”一词最常出现55次,占总标称频率的2.13%。
两个数字已经非常低,而其他名称则更低。讨论的单词在语料库中应具有非常高的频率,这显然不符合条件。
此,散文的主题尚不清楚。着三层高的黄土大道,村庄在村庄外。东南部,似乎延伸到无限远的沙漠到了。
过比较大型语料库,可以从观察语料库中提取经常超出的单词组,并按主题生成词汇,以获得更完整的结论。了加深研究,第一个步骤是计算每个文本的词库,主题词是被研究语料库中频率非常高的词。本上,该表格统计信息可以提供语料库文本的单词频率分布信息,但是很难解释上下文中单词的使用以及单词之间的关系。引分析可以在短语和共现级别提供基于上下文的关键字。词的使用和单词之间的关系以及主题词的统计可以提供短语之间的关系。词在语音和文本主题以及单词之间的关系方面的分布。
本文转载自
桂花树价格 http://m.guihua99.net/m/
1980年代开始,他出现了一系列本地作品,充满了对“乡愁”和“怨恨”的复杂感觉,并被归类为“寻根作家”。不完全统计,桂花树价格莫言的著作现已被翻译成至少40种语言。莫言获得诺贝尔文学奖以来,“莫言炙手可热”已成为大家用餐后讨论的话题。于莫言写作的研究很多,但是从语言学的角度来看,尤其是计算机语言学的文章很少。今,许多学者已经通过计算机辅助方法研究了作者作品的语言风格,文体特征和思想原理,计算机技术与文学的结合已成为当今社会的主流。学科研究的重要轴。
用计算机辅助方法研究文学作品中的高频词和主题词,对于理解文献的相关方面有很大的帮助。究语料库的内容和风格的重要方法之一就是主题词的研究。料库的语言规律可以通过高频词和主语来反映。们通常认为,文本的主题越明确或连贯,单词的使用就越集中,单词之间的差异就越大。
特定的中文信息处理系统中,词汇搜索结果通常表示为复杂的特征集,从而提高了系统的处理能力。汇的复杂表示要求我们详细描述每个特定单词的词汇知识,由于我的能力有限,本文仅分析这两篇文章中的主题词并得出相关结论。用语音部分标记工具的MyTxtSegTag软件对文本的一部分进行分段标记,然后执行手动重播。然机器的贴标有一些错误,但是不能完全解决手动校正,但是可以保证正确率超过90%。然,桂花树价格尽管语音部分标记也可以处理标点符号,但本文仅涉及单词。用Python编写程序来浏览每个单词并执行单词频率统计。单词频率统计之后,最终的文本包括2597个单词和4641个单词,以及单词的重复次数,一部分语音的出现次数以及其他相关数据。常,一个文本或一组文本的主题越严格或连贯,单词的使用就越集中,单词的可变性就越大。章中词汇的使用和分布与文章的主题紧密相关,后者具有独特的词汇组,其语料库中的重复率非常高,表明作者表达了非常强烈的主题。词汇选择方面保持一致。别。“卖桂花”的主题比较清楚,那就是母亲带我卖桂花。语料库名称中,“母亲”一词最常出现55次,占总标称频率的2.13%。
两个数字已经非常低,而其他名称则更低。讨论的单词在语料库中应具有非常高的频率,这显然不符合条件。
此,散文的主题尚不清楚。着三层高的黄土大道,村庄在村庄外。东南部,似乎延伸到无限远的沙漠到了。
过比较大型语料库,可以从观察语料库中提取经常超出的单词组,并按主题生成词汇,以获得更完整的结论。了加深研究,第一个步骤是计算每个文本的词库,主题词是被研究语料库中频率非常高的词。本上,该表格统计信息可以提供语料库文本的单词频率分布信息,但是很难解释上下文中单词的使用以及单词之间的关系。引分析可以在短语和共现级别提供基于上下文的关键字。词的使用和单词之间的关系以及主题词的统计可以提供短语之间的关系。词在语音和文本主题以及单词之间的关系方面的分布。
本文转载自
桂花树价格 http://m.guihua99.net/m/