文本挖掘接口文档

概述

达观数据为应用方提供了功能强大、使用灵活的文本挖掘服务,通过简单易用的HTTP接口,帮助应用方有效分析大量的文本数据,提高应用方的处理效率。
达观文本挖掘系统提供四种文本挖掘服务:
1. 文本标签自动提取:从文本数据中自动提取出较为重要的关键词标签。
2. 文本自动归类:自动判别文章所属类别,并给出相应的置信度,比如判断一篇文章是属于娱乐八卦、时事政治还是数码科技等。
3. 文本自动审核:自动判别文章内容是否政治违规或者是否情色违规,同时给出违规的严重程度。
4. 垃圾评论自动过滤:自动判断用户评论数据是否为垃圾评论,并给出置信度。

注意事项

您需要完成以下步骤后,才可调用达观数据相关服务。
1. 如您还没有开通达观账号,请先开通,账号开通请参考文档:Step 1:开通账号
2. 获取您的appidappname,请参考文档:获取AppId及AppName
3. 设置IP白名单,请参考文档:设置IP白名单

数据统计和结果反馈

数据统计和结果反馈目前仅限于文本自动归类、文本自动审核和垃圾评论自动过滤三种服务中。
在上述操作正确执行,服务运行正常情况下,可以登录到大数据平台查看统计数据。
2

同时,用户可在系统后台查看到并且进行结果反馈操作。
3

结果反馈请点击右侧的操作按钮。反馈结果会上传系统用于模型训练和效果提升。
4

如需将反馈结果实时响应给应用方,可以添加回调地址。回调地址是应用方提供的,接受消息推送的地址。添加回调地址之后,一旦用户在系统平台提交结果反馈,反馈结果会通过POST方式的HTTP请求,推送到用户填的回调地址,用户可以根据推送内容去进行相关处理。反馈结果格式见各服务模块。
5

接口列表

文本标签自动提取

接口描述

从文本数据中自动提取出较为重要的、标识文本核心内容的关键词标签。

URL

http://taggingapi.datagrand.com/tagging/YOUR_APP_NAME

Http Method

POST

Http 返回格式

JSON

Http 请求参数说明

参数 类型 是否必需 描述
appid int 应用的id
text string 要提标签的文本数据
title string 要提标签的文本标题
textid string 标记该文本的唯一ID

Http 返回结果说明

字段 类型 描述
status string 执行结果,OK为成功,FAIL为失败,WARN为有部分非重要字段异常,请根据返回错误信息进行排查。
tag_list string 提标签结果,为一个列表的json字符串,列表每一项是一个文本标签和权重,权重取值范围是0~1000
request_id string 该条上报记录的序号,仅用于排查问题使用
errors string 错误信息

示例

CURL调用示例:

成功返回示例:

错误返回示例:

警告返回:

文本自动归类

接口描述

自动理解文本内容并判定所属类别,给出相应的置信度,比如判断一篇文章是属于娱乐八卦、时事政治还是数码科技等。

URL

http://classifyapi.datagrand.com/classify/YOUR_APP_NAME

Http Method

POST

Http 返回格式

JSON

Http 请求参数说明

参数 类型 是否必需 描述
appid int 应用的id
text string 要进行归类的文本数据
title string 要进行归类的文本标题
textid string 标记该文本的唯一ID

Http 返回结果说明

字段 类型 描述
status string 执行结果,OK为成功,FAIL为失败,WARN为有部分非重要字段异常,请根据返回错误信息进行排查。
result string 归类结果,为一个列表,列表的每一项是类别名称和置信度的对,形如 [(“新闻”, 0.88), (“娱乐”, 0.22)]。置信度是0到1之间的浮点数,值越大代表置信度越高。分类结果按照置信度从高到低排序。
request_id string 该条上报记录的序号,仅用于排查问题使用
errors string 错误信息

示例

CURL调用示例:

成功返回示例:

错误返回示例:

警告返回示例:

结果反馈推送POST请求格式

参数 类型 描述
textid string 标记该文本的唯一ID
feedback_info string 反馈结果。json格式。例:{"is_cate_entertainment":1, "is_cate_ sports ":1}。其中1表示是文本属于该分类(此处为娱乐分类)

key的形式如is_cate_【类别】。key包括如下:
社会: is_cate_society
财经: is_cate_finance
健康: is_cate_health
美食: is_cate_food_num
时尚: is_cate_fashion
教育: is_cate_education
育儿: is_cate_baby
房产家居: is_cate_house
文化生活: is_cate_culture
旅游摄影: is_cate_travel
搞笑: is_cate_humor
情感: is_cate_emotion
娱乐: is_cate_entertainment
科技: is_cate_science
数码: is_cate_digital
互联网: is_cate_internet
游戏: is_cate_games
汽车: is_cate_automobile
体育运动: is_cate_sports |

文本自动审核(政治、色情等)

接口描述

自动判别文章内容是否政治违规和是否情色违规,同时给出违规的严重程度。

URL

http://auditapi.datagrand.com/audit/YOUR_APP_NAME

Http Method

POST

Http 返回格式

JSON

Http 请求参数说明

参数 类型 是否必需 描述
appid int 应用的id
text string 要进行审核的文本数据
title string 要进行审核的文本标题
type_list string 为一个列表的json字符串,列表每一项是要做审核的类型代号,“politic”为政治类审核,“porn”为情色类审核,列表不能为空
textid string 标记该文本的唯一ID
suspect int 控制是否返回各审核类型的嫌疑文本,适合长文本数据,值为1表示打开该功能,审核分值高于0.4会返回该审核类型的嫌疑文本。
userid string 登录用户ID
cid string 未登录用户ID。pc用户是cookieid,安卓APP 是imei ,苹果APP是UDID
mac string 用户的mac地址
user string 用户名称或昵称
ip string 文本提交IP

Http 返回结果说明

参数 类型 描述
status string 执行结果,OK为成功,FAIL为失败,WARN为有部分非重要字段异常,请根据返回错误信息进行排查。
result string 审核结果,为一个字典,字典的键(key)是审核类型代号,值(value)是违规严重程度(0到1之间的浮点数),值越大代表违规程度越严重。
request_id string 该条上报记录的序号,仅用于排查问题使用
suspect string 嫌疑文本,请求参数添加suspect=1才会返回该结果。为一个字典,字典的键(key)是审核类型,值是该审核类型对应的嫌疑文本。
errors string 错误信息

说明:
(1) 如果调用时type_list里有“politic”,返回值的result将包含“politic”(涉政程度)和“reaction”(政治违规程度)两个key,返回值的“politic”表示文本与政治相关的程度有多少,不表示文本是否政治违规,需要知道文本的政治违规嫌疑程度有多大,请使用“reaction”。
(2) 审核分值解读:
涉黄(porn):正常(0-0.5),轻微涉黄(0.5-0.75), 涉黄(0.75-1.0)
涉政(politic):正常(0 – 0.5),轻微涉政(0.5 – 0.75),涉政( 0.75 – 1.0)
反动(reaction):正常(0 – 0.5),轻微反动(0.5 – 0.75),反动( 0.75 – 1.0)

示例

CURL调用示例:

成功返回示例:

错误返回示例:

警告返回示例:

结果反馈推送POST请求格式

参数 类型 描述
textid string 标记该文本的唯一ID
feedback_info string 反馈结果。json格式。示例:{"is_reaction":0,"is_porn":null,"is_politic":1}其中1表示是涉黄/涉政/反动,0表示正常,null表示未标记。

垃圾评论自动过滤

接口描述

自动判断用户评论数据是否为垃圾评论,并给出置信度。

URL

http://commentapi.datagrand.com/bad_comment/YOUR_APP_NAME

Http Method

POST

Http 返回格式

JSON

Http 请求参数说明

参数 类型 是否必需 描述
appid int 应用的id
text string 要进行垃圾评论判断的文本数据
title string 评论的标题
textid string 标记该文本的唯一ID
userid string 发表评论的登录用户ID
user_type string 用户类型,包括”common”(通用)和”zhubo”(主播)。默认是”common”。
cid string 未登录用户ID。pc用户是cookieid,安卓APP 是imei ,苹果APP是UDID
mac string 用户的mac地址
user string 用户名称或昵称
ip string 评论提交IP
type_list string 垃圾评论识别种类,包括广告(“ad”)和低质量文本(“nonsense”),该字段为json格式,形如[“ad”,”nonsense”] 或 [“ad”],默认为[“ad”]。若指定该参数,则返回结果只包含指定类型的识别结果。

Http 返回结果说明

字段 类型 描述
status string 执行结果,OK为成功,FAIL为失败,WARN为有部分非重要字段异常,请根据返回错误信息进行排查。
score string 判定为垃圾评论的置信度(0到1之间的浮点数),值越大代表是垃圾评论的可能性越大。
request_id string 该条上报记录的序号,仅用于排查问题使用
errors string 错误信息

示例

CURL调用示例:

成功返回示例:

错误返回示例:

警告返回示例:

结果反馈推送POST请求格式

参数 类型 描述
textid string 标记该文本的唯一ID
feedback_info string 反馈结果。json格式。示例:{"is_ad":1}其中1表示是垃圾评论,0表示非垃圾评论,null表示未标记。

文本审核、评论过滤合并接口

接口描述

一次调用同时返回文本审核和评论过滤的判别结果。

URL

http://commentaggreapi.datagrand.com/commentaggre/YOUR_APP_NAME

Http Method

POST

Http 返回格式

JSON

Http 请求参数说明

参数 类型 是否必需 描述
appid int 应用的id
text string 要进行评论判断的文本数据
title string 评论的标题
textid string 标记该文本的唯一ID
userid string 发表评论的登录用户ID
user_type string 用户类型,包括”common”(通用)和”zhubo”(主播)。默认是”common”。
cid string 未登录用户ID。pc用户是cookieid,安卓APP 是imei ,苹果APP是UDID
mac string 用户的mac地址
user string 用户名称或昵称
ip string 评论提交IP

Http 返回结果说明

字段 类型 描述
status string 执行结果,OK为成功,FAIL为失败,WARN为有部分非重要字段异常,请根据返回错误信息进行排查。
result string 返回结果,weight_ad(广告指数)、is_ad(是否广告)、reaction(反动指数)、 porn(涉黄指数)和politic(涉政指数)等字段含义见文章审核和垃圾评论的返回
request_id string 该条上报记录的序号,仅用于排查问题使用
errors string 错误信息

示例

CURL调用示例:

成功返回示例:

错误返回示例:

警告返回示例:

文本情感分析

接口描述

自动判断文本的情感倾向为正面或者负面,并给出情感倾向的程度。

URL

http://sentimentapi.datagrand.com/sentiment/YOUR_APP_NAME

Http Method

POST

Http 返回格式

JSON

Http 请求参数说明

参数 类型 是否必需 描述
appid int 应用的id
text string 要进行归类的文本数据
title string 要进行归类的文本标题
textid string 标记该文本的唯一ID

Http 返回结果说明

字段 类型 描述
status string 执行结果,OK为成功,FAIL为失败,WARN为有部分非重要字段异常,请根据返回错误信息进行排查。
result string 情感分析结果,为一个字典,字典的键(key)是”positive”(正面)和”negative”(负面),值(value)是对应的情感分类的置信度(0到1之间的浮点数),值越大代表置信度越高。
request_id string 该条上报记录的序号,仅用于排查问题使用
errors string 错误信息

示例

CURL调用示例:

成功返回示例:

错误返回示例:

警告返回示例:

HTTP请求示例代码

JAVA

PHP