admin管理员组

文章数量:1574574

文本反垃圾服务能够有效帮助您检测出您的文本中是否存在违规的风险内容,本文指导您如何接入文本反垃圾服务。

本服务由阿里云计算有限公司(以下简称阿里云)提供。启用服务后,您存储在七牛云空间的文件将在您主动请求的情况下被提供给阿里云以供其计算使用。七牛不能保证鉴别结果的正确性,请您自行评估后选择是否启用。服务价格请您参考具体的服务价格,您使用本服务产生的费用由七牛代收。启用服务则表示您知晓并同意以上内容。

注意

服务地域:华东、华北、华南。

单条检测文本的长度不超过10000个字符。

一次请求最多不超过50条文本。

待检测的文本内容的编码格式支持:UTF-8、GBK、GB2312、GB18030、Big5(繁体中文)等常用编码类型。

资源的 Mime 文件格式仅支持文本类型:text/*,如:text/plain、text/html。

请求接口的并发(qps)不超过100。

请求接口为标准的HTTP/HTTPS 协议。

如何开启

进入七牛开发者平台的 第三方数据处理,找到 阿里文本反垃圾 点击并开始使用。

快速使用

第一步

获取到您存在bucket里面的文本的 url,例如:https://dora-doc.qiniu/con1.txt

第二步

在您的文本的url后加上 ali_textscan,例如:https://dora-doc.qiniu/con1.txt?ali_textscan

请求语法

GET ?ali_textscan/biztype/

Host:

请求参数

字段

类型

是否必选

说明

scanRquestUrl

string

Y

用于线上文档的请求会在请求成功之后对文档进行处理

bizType

string

N

特殊配置业务场景, 如有需要请通过工单联系技术支持

响应语法

HTTP/1.1 200 OK

X-Reqid:

Date:

Content-Length:

Content-Type: text/plain; charset=utf-8

{

// respDate

}

示例

在Web浏览器中输入以下视频地址:

https://dora-doc.qiniu/con1.txt?ali_textscan

返回结果

HTTP/1.1 200 OK

X-Reqid: _YEBAICNYlSPpbQV

Date: Thu, 25 Jul 2019 12:16:45 GMT

Content-Length: 266

Content-Type: text/plain; charset=utf-8

{

"code": 200,

"data": [

{

"code": 200,

"content": "七牛云存储\n",

"msg": "OK",

"results": [

{

"label": "normal",

"rate": 99.91,

"scene": "antispam",

"suggestion": "pass"

}

],

"taskId": "txt4CP9r0g5XdV74qlfLV6gNO-1r7hCy"

}

],

"msg": "OK",

"requestId": "D10CC413-03E1-44E1-B1C9-D1CC49D8FD78"

}

公共头响应头参数说明

字段

类型

是否必选

说明

code

整型

Y

错误码,和HTTP状态码一致(但有扩展)。

• 2xx 表示成功。

• 4xx 表示请求有误。

• 5xx 表示后端有误。

具体参照公共错误码说明

msg

字符串

Y

错误的进一步描述。

requestId

字符串

Y

错误的进一步描述。

msg

字符串

Y

唯一标识该请求的ID,可用于定位问题。

data

JSON对象

Y

API(业务)相关的返回数据。出错情况下,该字段可能为空。一般来说,该字段为一个JSON结构体或数组,参见下表

响应返回的data参数说明

字段

类型

是否必选

说明

code

整型

Y

错误码,和HTTP的status code一致。

msg

字符串

Y

错误的进一步描述。

taskId

字符串

Y

该检测任务的ID。

content

字符串

N

对应请求的内容。

results

JSON数组

N

返回结果。调用成功时(code=200),返回结果中包含一个或多个元素。每个元素是个结构体,具体结构描述见result结构表。

响应返回的results中JSON对象结构说明

字段

类型

是否必选

说明

label

字符串

Y

检测结果的分类,与具体的scene对应。取值范围参考scene和label说明。

scene

字符串

Y

检测场景,和调用请求中的场景对应(antispam)。

suggestion

字符串

Y

建议的结果,取值范围:

• pass:正常

• review:疑似违规

• block:确认违规

rate

浮点数

Y

结果为该分类的概率,取值范围为[0.00-100.00]。值越高,表示越有可能属于该分类。说明 分值仅供参考,建议关注label和suggestion内容。

details

JSON数组

N

命中风险的详细信息。具体结构描述见detail结构体说明。

detail结构体说明

字段

类型

是否必选

说明

label

字符串

Y

文本命中风险的分类,与具体的scene对应。取值范围参考scene和label说明。

contexts

数组

N

命中该风险的上下文信息。具体结构描述见context说明。

scene和label说明

功能

scene

label

垃圾文本检测

antispam

• normal:正常文本

• spam:含垃圾信息

• ad:广告

• politics:涉政

• terrorism:暴恐

• abuse:辱骂

• porn:色情

• flood:灌水

• contraband:违禁

• meaningless:无意义

• customized:自定义(比如命中自定义关键词)

计费说明

服务价格

调用量( 次/月)

单价(元/千次)

<15万

1.38

<150万

1.30

<500万

1.22

<1000万

1.15

<2000万

1.08

2000万条以上

1.00

计费示例

某公司2019年5月使用该服务,共发起25万次请求,则当月使用该服务的费用为150*1.38+100*1.30=337.0元

本文标签: 文本阿里反垃圾doraStorm