Модерация

Узнайте, как встроить модерацию в свои AI-приложения.

Обзор

Конечная точка moderations — это инструмент, который можно использовать для проверки текста на потенциальную вредоносность. Разработчики могут использовать его для выявления контента, который может быть вредным, и принятия мер, например, фильтрации такого контента.

Модель классифицирует следующие категории:

Категория	Описание
`hate`	Контент, выражающий, подстрекающий или пропагандирующий ненависть на основе расы, пола, этнической принадлежности, религии, национальности, сексуальной ориентации, статуса инвалидности или касты.
`hate/threatening`	Ненавистнический контент, который также включает насилие или серьезный вред в отношении целевой группы на основе расы, пола, этнической принадлежности, религии, национальности, сексуальной ориентации, статуса инвалидности или касты.
`harassment`	Контент, выражающий, подстрекающий или пропагандирующий оскорбления по отношению к любой цели.
`harassment/threatening`	Контент оскорбительного характера, который также включает насилие или серьезный вред по отношению к любой цели.
`self-harm`	Контент, пропагандирующий, поощряющий или изображающий акты самоповреждения, такие как самоубийство, порезы и расстройства пищевого поведения.
`self-harm/intent`	Контент, где говорящий выражает, что он занимается или намеревается заняться актами самоповреждения, такими как самоубийство, порезы и расстройства пищевого поведения.
`self-harm/instructions`	Контент, поощряющий совершение актов самоповреждения, таких как самоубийство, порезы и расстройства пищевого поведения, или дающий инструкции или советы по совершению таких актов.
`sexual`	Контент, предназначенный для возбуждения сексуального интереса, такой как описание сексуальной активности, или пропагандирующий сексуальные услуги (исключая сексуальное образование и благополучие).
`sexual/minors`	Сексуальный контент, включающий человека младше 18 лет.
`violence`	Контент, изображающий смерть, насилие или физическое повреждение.
`violence/graphic`	Контент, изображающий смерть, насилие или физическое повреждение в графических деталях.

Конечная точка модерации бесплатна для использования большинством разработчиков. Для повышения точности попробуйте разбивать длинные фрагменты текста на более мелкие куски, каждый длиной менее 2000 символов.

Примечание: Мы постоянно работаем над улучшением точности нашего классификатора. В настоящее время наша поддержка неанглийских языков ограничена.

Быстрый старт

Чтобы получить классификацию для фрагмента текста, сделайте запрос на конечную точку модерации, как показано в следующих примерах кода:

Пример: Получение модерации

Использование `curl`

curl https://api.rockapi.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $ROCKAPI_API_KEY" \
  -d '{"input": "Пример текста здесь"}'

Пример вывода

Конечная точка возвращает следующие поля:

flagged: Установлено в true, если модель классифицирует контент как потенциально вредный, иначе false.
categories: Содержит словарь с флагами нарушений по категориям. Для каждой категории значение true, если модель флажкает соответствующую категорию как нарушенную, иначе false.
category_scores: Содержит словарь с сырыми оценками по категориям, выдаваемыми моделью, обозначающими уверенность модели в том, что входные данные нарушают политику OpenAI для данной категории. Значение находится в диапазоне от 0 до 1, где более высокие значения обозначают более высокую уверенность. Оценки не следует интерпретировать как вероятности.

Пример ответа JSON:

{
    "id": "modr-XXXXX",
    "model": "text-moderation-007",
    "results": [
        {
            "flagged": true,
            "categories": {
                "sexual": false,
                "hate": false,
                "harassment": false,
                "self-harm": false,
                "sexual/minors": false,
                "hate/threatening": false,
                "violence/graphic": false,
                "self-harm/intent": false,
                "self-harm/instructions": false,
                "harassment/threatening": true,
                "violence": true
            },
            "category_scores": {
                "sexual": 1.2282071e-6,
                "hate": 0.010696256,
                "harassment": 0.29842457,
                "self-harm": 1.5236925e-8,
                "sexual/minors": 5.7246268e-8,
                "hate/threatening": 0.0060676364,
                "violence/graphic": 4.435014e-6,
                "self-harm/intent": 8.098441e-10,
                "self-harm/instructions": 2.8498655e-11,
                "harassment/threatening": 0.63055265,
                "violence": 0.99011886
            }
        }
    ]
}

Примечание: Мы планируем постоянно обновлять основную модель конечной точки модерации. Поэтому пользовательские политики, которые зависят от category_scores, могут нуждаться в перекалибровке с течением времени.

Модерация

Обзор​

Быстрый старт​

Пример: Получение модерации​

Использование curl​

Пример вывода​