Перейти к основному содержимому

Модерация

Узнайте, как встроить модерацию в свои AI-приложения.

Обзор

Конечная точка moderations — это инструмент, который можно использовать для проверки текста на потенциальную вредоносность. Разработчики могут использовать его для выявления контента, который может быть вредным, и принятия мер, например, фильтрации такого контента.

Модель классифицирует следующие категории:

КатегорияОписание
hateКонтент, выражающий, подстрекающий или пропагандирующий ненависть на основе расы, пола, этнической принадлежности, религии, национальности, сексуальной ориентации, статуса инвалидности или касты.
hate/threateningНенавистнический контент, который также включает насилие или серьезный вред в отношении целевой группы на основе расы, пола, этнической принадлежности, религии, национальности, сексуальной ориентации, статуса инвалидности или касты.
harassmentКонтент, выражающий, подстрекающий или пропагандирующий оскорбления по отношению к любой цели.
harassment/threateningКонтент оскорбительного характера, который также включает насилие или серьезный вред по отношению к любой цели.
self-harmКонтент, пропагандирующий, поощряющий или изображающий акты самоповреждения, такие как самоубийство, порезы и расстройства пищевого поведения.
self-harm/intentКонтент, где говорящий выражает, что он занимается или намеревается заняться актами самоповреждения, такими как самоубийство, порезы и расстройства пищевого поведения.
self-harm/instructionsКонтент, поощряющий совершение актов самоповреждения, таких как самоубийство, порезы и расстройства пищевого поведения, или дающий инструкции или советы по совершению таких актов.
sexualКонтент, предназначенный для возбуждения сексуального интереса, такой как описание сексуальной активности, или пропагандирующий сексуальные услуги (исключая сексуальное образование и благополучие).
sexual/minorsСексуальный контент, включающий человека младше 18 лет.
violenceКонтент, изображающий смерть, насилие или физическое повреждение.
violence/graphicКонтент, изображающий смерть, насилие или физическое повреждение в графических деталях.

Конечная точка модерации бесплатна для использования большинством разработчиков. Для повышения точности попробуйте разбивать длинные фрагменты текста на более мелкие куски, каждый длиной менее 2000 символов.

Примечание: Мы постоянно работаем над улучшением точности нашего классификатора. В настоящее время наша поддержка неанглийских языков ограничена.

Быстрый старт

Чтобы получить классификацию для фрагмента текста, сделайте запрос на конечную точку модерации, как показано в следующих примерах кода:

Пример: Получение модерации

Использование curl

curl https://api.rockapi.com/v1/moderations \
-X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $ROCKAPI_API_KEY" \
-d '{"input": "Пример текста здесь"}'

Пример вывода

Конечная точка возвращает следующие поля:

  • flagged: Установлено в true, если модель классифицирует контент как потенциально вредный, иначе false.
  • categories: Содержит словарь с флагами нарушений по категориям. Для каждой категории значение true, если модель флажкает соответствующую категорию как нарушенную, иначе false.
  • category_scores: Содержит словарь с сырыми оценками по категориям, выдаваемыми моделью, обозначающими уверенность модели в том, что входные данные нарушают политику OpenAI для данной категории. Значение находится в диапазоне от 0 до 1, где более высокие значения обозначают более высокую уверенность. Оценки не следует интерпретировать как вероятности.

Пример ответа JSON:

{
"id": "modr-XXXXX",
"model": "text-moderation-007",
"results": [
{
"flagged": true,
"categories": {
"sexual": false,
"hate": false,
"harassment": false,
"self-harm": false,
"sexual/minors": false,
"hate/threatening": false,
"violence/graphic": false,
"self-harm/intent": false,
"self-harm/instructions": false,
"harassment/threatening": true,
"violence": true
},
"category_scores": {
"sexual": 1.2282071e-6,
"hate": 0.010696256,
"harassment": 0.29842457,
"self-harm": 1.5236925e-8,
"sexual/minors": 5.7246268e-8,
"hate/threatening": 0.0060676364,
"violence/graphic": 4.435014e-6,
"self-harm/intent": 8.098441e-10,
"self-harm/instructions": 2.8498655e-11,
"harassment/threatening": 0.63055265,
"violence": 0.99011886
}
}
]
}

Примечание: Мы планируем постоянно обновлять основную модель конечной точки модерации. Поэтому пользовательские политики, которые зависят от category_scores, могут нуждаться в перекалибровке с течением времени.