Посетите наш справочник по резюмированию, чтобы увидеть пример реализации резюмирования юридических документов с использованием Claude.
Перед началом работы с Claude
Решите, использовать ли Claude для резюмирования юридических документов
Вот некоторые ключевые показатели того, что вы должны использовать LLM, такой как Claude, для резюмирования юридических документов:Вы хотите эффективно и экономично проверить большой объем документов
Вы хотите эффективно и экономично проверить большой объем документов
Вам требуется автоматизированное извлечение ключевых метаданных
Вам требуется автоматизированное извлечение ключевых метаданных
Вы хотите создавать четкие, краткие и стандартизированные резюме
Вы хотите создавать четкие, краткие и стандартизированные резюме
Вам нужны точные цитаты для ваших резюме
Вам нужны точные цитаты для ваших резюме
Вы хотите оптимизировать и ускорить процесс юридических исследований
Вы хотите оптимизировать и ускорить процесс юридических исследований
Определите детали, которые вы хотите извлечь при резюмировании
Не существует единственно правильного резюме для любого данного документа. Без четких указаний Claude может быть сложно определить, какие детали включить. Для достижения оптимальных результатов определите конкретную информацию, которую вы хотите включить в резюме. Например, при резюмировании договора субаренды вы можете захотеть извлечь следующие ключевые моменты:Установите критерии успеха
Оценка качества резюме — это печально известно сложная задача. В отличие от многих других задач обработки естественного языка, оценка резюме часто не имеет четких объективных метрик. Процесс может быть весьма субъективным, когда разные читатели ценят разные аспекты резюме. Вот критерии, которые вы можете рассмотреть при оценке того, насколько хорошо Claude выполняет резюмирование юридических документов.Фактическая правильность
Фактическая правильность
Юридическая точность
Юридическая точность
Краткость
Краткость
Последовательность
Последовательность
Читаемость
Читаемость
Предвзятость и справедливость
Предвзятость и справедливость
Как резюмировать юридические документы с помощью Claude
Выберите правильную модель Claude
Точность модели чрезвычайно важна при резюмировании юридических документов. Claude Sonnet 4.5 — отличный выбор для таких случаев использования, где требуется высокая точность. Если размер и количество ваших документов велики, так что затраты начинают становиться проблемой, вы также можете попробовать использовать меньшую модель, такую как Claude Haiku 4.5. Чтобы помочь оценить эти затраты, ниже приведено сравнение стоимости резюмирования 1000 договоров субаренды с использованием как Sonnet, так и Haiku:-
Размер контента
- Количество соглашений: 1000
- Символов на соглашение: 300000
- Всего символов: 300M
-
Предполагаемые токены
- Входные токены: 86M (при условии 1 токена на 3,5 символа)
- Выходные токены на резюме: 350
- Всего выходных токенов: 350000
-
Предполагаемая стоимость Claude Sonnet 4.5
- Стоимость входных токенов: 86 MTok * $3.00/MTok = $258
- Стоимость выходных токенов: 0.35 MTok * $15.00/MTok = $5.25
- Общая стоимость: $258.00 + $5.25 = $263.25
-
Предполагаемая стоимость Claude Haiku 3
- Стоимость входных токенов: 86 MTok * $0.25/MTok = $21.50
- Стоимость выходных токенов: 0.35 MTok * $1.25/MTok = $0.44
- Общая стоимость: $21.50 + $0.44 = $21.96
Преобразуйте документы в формат, который Claude может обрабатывать
Перед началом резюмирования документов необходимо подготовить данные. Это включает извлечение текста из PDF-файлов, очистку текста и обеспечение его готовности к обработке Claude. Вот демонстрация этого процесса на примере PDF-файла:Создайте сильную подсказку
Claude может адаптироваться к различным стилям резюмирования. Вы можете изменить детали подсказки, чтобы направить Claude быть более или менее многословным, включить больше или меньше технической терминологии или предоставить резюме более высокого или более низкого уровня контекста. Вот пример того, как создать подсказку, которая гарантирует, что созданные резюме следуют последовательной структуре при анализе договоров субаренды:summarize_document, которая использует Claude для резюмирования содержимого договора субаренды. Функция принимает текстовую строку и список деталей для извлечения в качестве входных данных. В этом примере мы вызываем функцию с переменными document_text и details_to_extract, которые были определены в предыдущих фрагментах кода.
В функции для Claude создается подсказка, включающая документ, который будет резюмирован, детали для извлечения и конкретные инструкции по резюмированию документа. Подсказка инструктирует Claude ответить резюме каждой детали для извлечения, вложенной в теги XML.
Поскольку мы решили вывести каждый раздел резюме в теги, каждый раздел можно легко разобрать как этап постобработки. Этот подход позволяет создавать структурированные резюме, которые можно адаптировать для вашего случая использования, так что каждое резюме следует одному и тому же шаблону.
Оцените вашу подсказку
Подсказки часто требуют тестирования и оптимизации, чтобы быть готовыми к производству. Чтобы определить готовность вашего решения, оцените качество ваших резюме, используя систематический процесс, сочетающий количественные и качественные методы. Создание сильной эмпирической оценки на основе ваших определенных критериев успеха позволит вам оптимизировать ваши подсказки. Вот некоторые метрики, которые вы можете захотеть включить в вашу эмпирическую оценку:Оценки ROUGE
Оценки ROUGE
Оценки BLEU
Оценки BLEU
Сходство контекстного встраивания
Сходство контекстного встраивания
Оценка на основе LLM
Оценка на основе LLM
Оценка человеком
Оценка человеком
Разверните вашу подсказку
Вот некоторые дополнительные соображения, которые следует учитывать при развертывании вашего решения в производство.- Обеспечьте отсутствие ответственности: Поймите юридические последствия ошибок в резюме, которые могут привести к юридической ответственности для вашей организации или клиентов. Предоставьте отказы от ответственности или юридические уведомления, уточняющие, что резюме созданы ИИ и должны быть проверены юридическими специалистами.
- Обработайте разнообразные типы документов: В этом руководстве мы обсудили, как извлекать текст из PDF-файлов. В реальном мире документы могут быть в различных форматах (PDF-файлы, документы Word, текстовые файлы и т. д.). Убедитесь, что ваш конвейер извлечения данных может преобразовывать все форматы файлов, которые вы ожидаете получить.
- Параллелизируйте вызовы API к Claude: Длинные документы с большим количеством токенов могут потребовать до минуты для Claude, чтобы создать резюме. Для больших коллекций документов вы можете захотеть отправлять вызовы API к Claude параллельно, чтобы резюме можно было завершить в разумные сроки. Обратитесь к ограничениям скорости Anthropic, чтобы определить максимальное количество вызовов API, которые можно выполнять параллельно.
Улучшите производительность
В сложных сценариях может быть полезно рассмотреть дополнительные стратегии для улучшения производительности помимо стандартных методов инженерии подсказок. Вот некоторые продвинутые стратегии:Выполните мета-резюмирование для резюмирования длинных документов
Резюмирование юридических документов часто включает работу с длинными документами или многими связанными документами одновременно, так что вы превышаете контекстное окно Claude. Вы можете использовать метод разбиения, известный как мета-резюмирование, чтобы справиться с этим случаем использования. Этот метод включает разбиение документов на меньшие, управляемые части и последующую обработку каждой части отдельно. Затем вы можете объединить резюме каждой части, чтобы создать мета-резюме всего документа. Вот пример того, как выполнить мета-резюмирование:summarize_long_document расширяет более раннюю функцию summarize_document, разделяя документ на меньшие части и резюмируя каждую часть отдельно.
Код достигает этого, применяя функцию summarize_document к каждому фрагменту из 20000 символов в исходном документе. Отдельные резюме затем объединяются, и из этих резюме фрагментов создается окончательное резюме.
Обратите внимание, что функция summarize_long_document не является строго необходимой для нашего примера PDF-файла, так как весь документ помещается в контекстное окно Claude. Однако это становится необходимым для документов, превышающих контекстное окно Claude, или при резюмировании нескольких связанных документов вместе. Независимо от этого, этот метод мета-резюмирования часто захватывает дополнительные важные детали в окончательном резюме, которые были пропущены в более раннем подходе с одним резюме.
Используйте индексированные по резюме документы для изучения большой коллекции документов
Поиск коллекции документов с помощью LLM обычно включает поиск с дополнением поколения (RAG). Однако в сценариях, включающих большие документы или когда требуется точное извлечение информации, базовый подход RAG может быть недостаточным. Индексированные по резюме документы — это продвинутый подход RAG, который обеспечивает более эффективный способ ранжирования документов для извлечения, используя меньше контекста, чем традиционные методы RAG. В этом подходе вы сначала используете Claude для создания краткого резюме для каждого документа в вашем корпусе, а затем используете Claude для ранжирования релевантности каждого резюме к задаваемому вопросу. Для получения дополнительной информации об этом подходе, включая пример на основе кода, ознакомьтесь с разделом индексированных по резюме документов в справочнике по резюмированию.Тонко настройте Claude, чтобы учиться на вашем наборе данных
Еще один продвинутый метод для улучшения способности Claude создавать резюме — это тонкая настройка. Тонкая настройка включает обучение Claude на пользовательском наборе данных, который специально соответствует вашим потребностям в резюмировании юридических документов, обеспечивая адаптацию Claude к вашему случаю использования. Вот обзор того, как выполнить тонкую настройку:- Определите ошибки: Начните с сбора экземпляров, где резюме Claude не соответствуют — это может включать пропуск критических юридических деталей, неправильное понимание контекста или использование неподходящей юридической терминологии.
- Подготовьте набор данных: После того как вы определили эти проблемы, составьте набор данных из этих проблемных примеров. Этот набор данных должен включать исходные юридические документы вместе с вашими исправленными резюме, обеспечивая, чтобы Claude изучил желаемое поведение.
- Выполните тонкую настройку: Тонкая настройка включает переобучение модели на вашем подготовленном наборе данных для корректировки ее весов и параметров. Это переобучение помогает Claude лучше понять конкретные требования вашего юридического домена, улучшая его способность резюмировать документы в соответствии с вашими стандартами.
- Итеративное улучшение: Тонкая настройка — это не одноразовый процесс. По мере того как Claude продолжает создавать резюме, вы можете итеративно добавлять новые примеры, где он показал недостаточную производительность, дополнительно совершенствуя его возможности. Со временем этот непрерывный цикл обратной связи приведет к модели, которая высоко специализирована для ваших задач резюмирования юридических документов.