课程介绍:
自然语言处理与文本挖掘是机器学习当前最神秘,也是最具难度,在搜索引擎,语音识别,情感分析,大批量文档处理,机器翻译,自动应答等各个领域有着前程无可限量的应用。可以试想一台能理解自然语言,并且和人类能用语言纯熟交流的机器,那还能叫机器么?
文本挖掘(Text Mining)是数据挖掘的一个分支,挖掘对象通常是非结构化的文本数据,常见的文本挖掘对象包括网页所产生的BBS留言、博客、微博、新闻跟贴与转贴等。此外,拥有大型呼叫中心或邮件系统的企业,call center或mail积攒下来的大量语言记录也可以通过文本挖掘获得更大价值。很多统计软件都提供了文本挖掘的功能,比如常见的数据分析软件SAS、SPSS等,以及一些语言如Python、Java,侧重点有所不同。在R语言环境下,有众多的扩展包可以解决文本挖掘问题,本门课程将对这些扩展包作详细讲解。 课程目录:
第1课 自然语言处理与文本挖掘概述,既有技术和难点,应用前景,学习线路图 第2课 R的文本挖掘包tm,基本操作介绍 第3课 其它处理文本的扩展包,与tm包结合使用的应用案例
收获预期:
熟练地使用R进行文本分析处理工作
|