文本挖掘相关问题

文本挖掘主要有哪些功能

达观数据拥有多年的自然语言处理技术经验，掌握从词语短串到篇章分析个层面的分析技术，在此基础之上提供以下文本挖掘功能：
* 涉黄涉政检测：对文本内容做涉黄涉政检测，满足相应政策要求；
* 垃圾评论过滤：在论坛发言或用户评论中，过滤文本中的垃圾广告，提升文本总体质量；
* 情感分析：对用户评论等文本内容做情感分析，指导决策与运营；
* 自动标签提取：自动提取文本重要内容生成关键性标签，在此基础之上拓展更多功能形式；
* 文本自动分类：通过对文本内容进行分析，给出文本所属的类别和置信度，支持二级分类。

正常政治言论也会被过滤掉吗？

不会，达观对涉政内容会返回一个“反动”权值，取值范围0到1。当涉政内容的反动权值接近“1”时，文本的反动倾向很高，根据客户要求可以直接过滤掉，当反动权值接近“0”时，则文本为正常政治言论的几率就非常高，客户可通过反动权值控制审核松紧程度。

黄反内容、垃圾广告形式多样怎么处理？

传统的方法更多的是通过配词典的方式来解决。但是这种方法遇到变形文本时命中率很低，造成严重的漏盘，而且需要人工不断更新词典，效率很低。
达观数据通过机器学习的方法智能识别各种变形变换的内容，同时根据最新的样本数据实时更新运算模型，自动学习更新，保证检测的效果。

实时的弹幕能够做处理吗？

可以，达观数据文本挖掘系统支持高并发大数据量实时处理，完全可以支持实时弹幕的处理，实现对弹幕文本做筛除涉黄、涉政、垃圾评论、广告内容等的检测。

标签自动提取对于非热门行业适用吗？

达观标签自动提取功能可以利用行业数据进行模型训练和调整，在接入一个非热门行业服务之前，我们会以此行业的规范文本作为训练样本做模型训练，新的模型更新之后会适应此行业的个性化需求，而且在后期应用的过程模型会不断的更新迭代保证提取的结果与行业的发展保持同步。