Модерация
Узнайте, как встроить модерацию в свои AI-приложения.
Обзор
Конечная точка moderations — это инструмент, который можно использовать для проверки текста на потенциальную вредоносность. Разработчики могут использоват ь его для выявления контента, который может быть вредным, и принятия мер, например, фильтрации такого контента.
Модель классифицирует следующие категории:
Категория | Описание |
---|---|
hate | Контент, выражающий, подстрекающий или пропагандирующий ненависть на основе расы, пола, этнической принадлежности, религии, национальности, сексуальной ориентации, статуса инвалидности или касты. |
hate/threatening | Ненавистнический контент, который также включает насилие или серьезный вред в отношении целевой группы на основе расы, пола, этнической принадлежности, религии, национальности, сексуальной ориентации, статуса инвалидности или касты. |
harassment | Контент, выражающий, подстрекающий или пропагандирующий оскорбления по отношению к любой цели. |
harassment/threatening | Контент оскорбительного характера, который также включает насилие или серьезный вред по отношению к любой цели. |
self-harm | Контент, пропагандирующий, поощряющий или изображающий акты самоповреждения, такие как самоубийство, порезы и расстройства пищевого поведения. |
self-harm/intent | Контент, где говорящий выражает, что он занимается или намеревается заняться актами самоповреждения, такими как самоубийство, порезы и расстройства пищевого поведения. |
self-harm/instructions | Контент, поощряющий совершение актов самоповреждения, таких как самоубийство, порезы и расстройства пищевого поведения, или дающий инструкции или советы по совершению таких актов. |
sexual | Контент, предназначенный для возбуждения сексуального интереса, такой как описание сексуальной активности, или пропагандирующий сексуальные услуги (исключая сексуальное образование и благополучие). |
sexual/minors | Сексуальный контент, включающий человека младше 18 лет. |
violence | Контент, изображающий смерть, насилие или физическое повреждение. |
violence/graphic | Контент, изображающий смерть, насилие или физическое повреждение в графических деталях. |
Конечная точка модерации бесплатна для использования большинством разработчиков. Для повышения точности попробуйте разбивать длинные фрагменты тек ста на более мелкие куски, каждый длиной менее 2000 символов.
Примечание: Мы постоянно работаем над улучшением точности нашего классификатора. В настоящее время наша поддержка неанглийских языков ограничена.
Быстрый старт
Чтобы получить классификацию для фрагмента текста, сделайте запрос на конечную точку модерации, как показано в следующих примерах кода:
Пример: Получение модерации
Использование curl
curl https://api.rockapi.com/v1/moderations \
-X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $ROCKAPI_API_KEY" \
-d '{"input": "Пример текста здесь"}'
Пример вывода
Конечная точка возвращает следующие поля:
flagged
: Установлено вtrue
, если модель классифицирует к онтент как потенциально вредный, иначеfalse
.categories
: Содержит словарь с флагами нарушений по категориям. Для каждой категории значениеtrue
, если модель флажкает соответствующую категорию как нарушенную, иначеfalse
.category_scores
: Содержит словарь с сырыми оценками по категориям, выдаваемыми моделью, обозначающими уверенность модели в том, что входные данные нарушают политику OpenAI для данной категории. Значение находится в диапазоне от 0 до 1, где более высокие значения обозначают более высокую уверенность. Оценки не следует интерпретировать как вероятности.
Пример ответа JSON:
{
"id": "modr-XXXXX",
"model": "text-moderation-007",
"results": [
{
"flagged": true,
"categories": {
"sexual": false,
"hate": false,
"harassment": false,
"self-harm": false,
"sexual/minors": false,
"hate/threatening": false,
"violence/graphic": false,
"self-harm/intent": false,
"self-harm/instructions": false,
"harassment/threatening": true,
"violence": true
},
"category_scores": {
"sexual": 1.2282071e-6,
"hate": 0.010696256,
"harassment": 0.29842457,
"self-harm": 1.5236925e-8,
"sexual/minors": 5.7246268e-8,
"hate/threatening": 0.0060676364,
"violence/graphic": 4.435014e-6,
"self-harm/intent": 8.098441e-10,
"self-harm/instructions": 2.8498655e-11,
"harassment/threatening": 0.63055265,
"violence": 0.99011886
}
}
]
}
Примечание: Мы планируем постоянно обновлять основную модель конечной точки модерации. Поэтому пользовательские политики, которые зависят от
category_scores
, могут нуждаться в перекалибровке с течением времени.