Besuchen Sie unser Zusammenfassungs-Cookbook, um ein Beispiel einer Implementierung der Zusammenfassung von Rechtsdokumenten mit Claude zu sehen.
Vor dem Aufbau mit Claude
Entscheiden Sie, ob Sie Claude für die Zusammenfassung von Rechtsdokumenten verwenden möchten
Hier sind einige wichtige Indikatoren dafür, dass Sie ein LLM wie Claude zur Zusammenfassung von Rechtsdokumenten einsetzen sollten:Sie möchten eine große Menge von Dokumenten effizient und kostengünstig überprüfen
Sie möchten eine große Menge von Dokumenten effizient und kostengünstig überprüfen
Sie benötigen die automatisierte Extraktion wichtiger Metadaten
Sie benötigen die automatisierte Extraktion wichtiger Metadaten
Sie möchten klare, prägnante und standardisierte Zusammenfassungen erstellen
Sie möchten klare, prägnante und standardisierte Zusammenfassungen erstellen
Sie benötigen präzise Zitate für Ihre Zusammenfassungen
Sie benötigen präzise Zitate für Ihre Zusammenfassungen
Sie möchten Ihren Rechtsrechercheprozess rationalisieren und beschleunigen
Sie möchten Ihren Rechtsrechercheprozess rationalisieren und beschleunigen
Bestimmen Sie die Details, die die Zusammenfassung extrahieren soll
Es gibt keine einzige richtige Zusammenfassung für ein gegebenes Dokument. Ohne klare Anleitung kann es für Claude schwierig sein, zu bestimmen, welche Details einzubeziehen sind. Um optimale Ergebnisse zu erzielen, identifizieren Sie die spezifischen Informationen, die Sie in die Zusammenfassung aufnehmen möchten. Wenn Sie beispielsweise eine Untermietvereinbarung zusammenfassen, möchten Sie möglicherweise die folgenden wichtigsten Punkte extrahieren:Etablieren Sie Erfolgskriterien
Die Bewertung der Qualität von Zusammenfassungen ist bekanntermaßen eine schwierige Aufgabe. Im Gegensatz zu vielen anderen Aufgaben der Verarbeitung natürlicher Sprache fehlen bei der Bewertung von Zusammenfassungen oft klare, objektive Metriken. Der Prozess kann sehr subjektiv sein, wobei verschiedene Leser verschiedene Aspekte einer Zusammenfassung schätzen. Hier sind Kriterien, die Sie möglicherweise berücksichtigen möchten, wenn Sie bewerten, wie gut Claude die Zusammenfassung von Rechtsdokumenten durchführt.Sachliche Korrektheit
Sachliche Korrektheit
Rechtliche Präzision
Rechtliche Präzision
Prägnanz
Prägnanz
Konsistenz
Konsistenz
Lesbarkeit
Lesbarkeit
Voreingenommenheit und Fairness
Voreingenommenheit und Fairness
Zusammenfassung von Rechtsdokumenten mit Claude
Wählen Sie das richtige Claude-Modell
Die Modellgenauigkeit ist äußerst wichtig bei der Zusammenfassung von Rechtsdokumenten. Claude Sonnet 4.5 ist eine ausgezeichnete Wahl für Anwendungsfälle wie diesen, bei denen hohe Genauigkeit erforderlich ist. Wenn die Größe und Menge Ihrer Dokumente so groß ist, dass die Kosten zu einem Problem werden, können Sie auch ein kleineres Modell wie Claude Haiku 4.5 verwenden. Um diese Kosten zu schätzen, finden Sie hier einen Vergleich der Kosten für die Zusammenfassung von 1.000 Untermietvereinbarungen mit Sonnet und Haiku:-
Inhaltsgröße
- Anzahl der Vereinbarungen: 1.000
- Zeichen pro Vereinbarung: 300.000
- Gesamtzeichen: 300M
-
Geschätzte Token
- Input-Token: 86M (angenommen 1 Token pro 3,5 Zeichen)
- Output-Token pro Zusammenfassung: 350
- Gesamtausgabe-Token: 350.000
-
Claude Sonnet 4.5 geschätzte Kosten
- Input-Token-Kosten: 86 MTok * $3,00/MTok = $258
- Output-Token-Kosten: 0,35 MTok * $15,00/MTok = $5,25
- Gesamtkosten: $258,00 + $5,25 = $263,25
-
Claude Haiku 3 geschätzte Kosten
- Input-Token-Kosten: 86 MTok * $0,25/MTok = $21,50
- Output-Token-Kosten: 0,35 MTok * $1,25/MTok = $0,44
- Gesamtkosten: $21,50 + $0,44 = $21,96
Transformieren Sie Dokumente in ein Format, das Claude verarbeiten kann
Bevor Sie mit der Zusammenfassung von Dokumenten beginnen, müssen Sie Ihre Daten vorbereiten. Dies umfasst das Extrahieren von Text aus PDFs, das Bereinigen des Textes und das Sicherstellen, dass er von Claude verarbeitet werden kann. Hier ist eine Demonstration dieses Prozesses auf einer Beispiel-PDF:Erstellen Sie einen starken Prompt
Claude kann sich an verschiedene Zusammenfassungsstile anpassen. Sie können die Details des Prompts ändern, um Claude anzuleiten, mehr oder weniger ausführlich zu sein, mehr oder weniger technische Terminologie einzubeziehen oder eine höhere oder niedrigere Zusammenfassung des Kontexts bereitzustellen. Hier ist ein Beispiel, wie Sie einen Prompt erstellen, der sicherstellt, dass die generierten Zusammenfassungen eine konsistente Struktur bei der Analyse von Untermietvereinbarungen befolgen:summarize_document-Funktion, die Claude verwendet, um den Inhalt einer Untermietvereinbarung zusammenzufassen. Die Funktion akzeptiert eine Textzeichenkette und eine Liste von zu extrahierenden Details als Eingaben. In diesem Beispiel rufen wir die Funktion mit den Variablen document_text und details_to_extract auf, die in den vorherigen Code-Snippets definiert wurden.
Innerhalb der Funktion wird ein Prompt für Claude generiert, der das zusammenzufassende Dokument, die zu extrahierenden Details und spezifische Anweisungen zur Zusammenfassung des Dokuments enthält. Der Prompt weist Claude an, mit einer Zusammenfassung jedes zu extrahierenden Details zu antworten, das in XML-Headern verschachtelt ist.
Da wir uns entschieden haben, jeden Abschnitt der Zusammenfassung in Tags auszugeben, kann jeder Abschnitt leicht als Nachbearbeitungsschritt analysiert werden. Dieser Ansatz ermöglicht strukturierte Zusammenfassungen, die für Ihren Anwendungsfall angepasst werden können, sodass jede Zusammenfassung dem gleichen Muster folgt.
Bewerten Sie Ihren Prompt
Das Prompting erfordert oft Tests und Optimierungen, um produktionsreif zu sein. Um die Bereitschaft Ihrer Lösung zu bestimmen, bewerten Sie die Qualität Ihrer Zusammenfassungen mit einem systematischen Prozess, der quantitative und qualitative Methoden kombiniert. Die Erstellung einer starken empirischen Bewertung basierend auf Ihren definierten Erfolgskriterien ermöglicht es Ihnen, Ihre Prompts zu optimieren. Hier sind einige Metriken, die Sie möglicherweise in Ihre empirische Bewertung einbeziehen möchten:ROUGE-Scores
ROUGE-Scores
BLEU-Scores
BLEU-Scores
Ähnlichkeit von kontextuellem Embedding
Ähnlichkeit von kontextuellem Embedding
LLM-basierte Bewertung
LLM-basierte Bewertung
Menschliche Bewertung
Menschliche Bewertung
Stellen Sie Ihren Prompt bereit
Hier sind einige zusätzliche Überlegungen, die Sie bei der Bereitstellung Ihrer Lösung in der Produktion beachten sollten.- Stellen Sie sicher, dass keine Haftung besteht: Verstehen Sie die rechtlichen Auswirkungen von Fehlern in den Zusammenfassungen, die zu rechtlicher Haftung für Ihre Organisation oder Ihre Kunden führen könnten. Geben Sie Haftungsausschlüsse oder rechtliche Hinweise ab, die klarstellen, dass die Zusammenfassungen von KI generiert werden und von Rechtsanwälten überprüft werden sollten.
- Behandeln Sie verschiedene Dokumenttypen: In diesem Leitfaden haben wir besprochen, wie man Text aus PDFs extrahiert. In der Praxis können Dokumente in verschiedenen Formaten vorliegen (PDFs, Word-Dokumente, Textdateien usw.). Stellen Sie sicher, dass Ihre Datenextraktions-Pipeline alle Dateiformate konvertieren kann, die Sie erwarten zu erhalten.
- Parallelisieren Sie API-Aufrufe an Claude: Lange Dokumente mit einer großen Anzahl von Token können bis zu eine Minute dauern, bis Claude eine Zusammenfassung generiert. Für große Dokumentsammlungen möchten Sie möglicherweise API-Aufrufe an Claude parallel senden, damit die Zusammenfassungen in einem angemessenen Zeitrahmen abgeschlossen werden können. Beachten Sie die Rate Limits von Anthropic, um die maximale Anzahl von API-Aufrufen zu bestimmen, die parallel durchgeführt werden können.
Verbessern Sie die Leistung
In komplexen Szenarien kann es hilfreich sein, zusätzliche Strategien zu berücksichtigen, um die Leistung über standardmäßige Prompt-Engineering-Techniken hinaus zu verbessern. Hier sind einige fortgeschrittene Strategien:Führen Sie Meta-Zusammenfassung durch, um lange Dokumente zusammenzufassen
Die Zusammenfassung von Rechtsdokumenten beinhaltet oft die Behandlung langer Dokumente oder vieler verwandter Dokumente gleichzeitig, sodass Sie das Kontextfenster von Claude überschreiten. Sie können eine Chunking-Methode namens Meta-Zusammenfassung verwenden, um diesen Anwendungsfall zu behandeln. Diese Technik beinhaltet die Aufteilung von Dokumenten in kleinere, verwaltbare Chunks und die separate Verarbeitung jedes Chunks. Sie können dann die Zusammenfassungen jedes Chunks kombinieren, um eine Meta-Zusammenfassung des gesamten Dokuments zu erstellen. Hier ist ein Beispiel, wie Sie Meta-Zusammenfassung durchführen:summarize_long_document-Funktion baut auf der früheren summarize_document-Funktion auf, indem sie das Dokument in kleinere Chunks aufteilt und jeden Chunk einzeln zusammenfasst.
Der Code erreicht dies, indem die summarize_document-Funktion auf jeden Chunk von 20.000 Zeichen im ursprünglichen Dokument angewendet wird. Die einzelnen Zusammenfassungen werden dann kombiniert, und eine endgültige Zusammenfassung wird aus diesen Chunk-Zusammenfassungen erstellt.
Beachten Sie, dass die summarize_long_document-Funktion für unsere Beispiel-PDF nicht unbedingt erforderlich ist, da das gesamte Dokument in Claudes Kontextfenster passt. Sie wird jedoch für Dokumente, die Claudes Kontextfenster überschreiten, oder bei der Zusammenfassung mehrerer verwandter Dokumente zusammen unerlässlich. Unabhängig davon erfasst diese Meta-Zusammenfassungstechnik oft zusätzliche wichtige Details in der endgültigen Zusammenfassung, die beim früheren Single-Summary-Ansatz übersehen wurden.
Verwenden Sie zusammengefasste indizierte Dokumente, um eine große Dokumentsammlung zu durchsuchen
Das Durchsuchen einer Dokumentsammlung mit einem LLM beinhaltet normalerweise Retrieval-Augmented Generation (RAG). In Szenarien mit großen Dokumenten oder wenn eine genaue Informationsbeschaffung entscheidend ist, kann ein grundlegender RAG-Ansatz jedoch unzureichend sein. Summary Indexed Documents ist ein fortgeschrittener RAG-Ansatz, der eine effizientere Möglichkeit bietet, Dokumente für den Abruf zu bewerten, wobei weniger Kontext als bei traditionellen RAG-Methoden verwendet wird. Bei diesem Ansatz generieren Sie zunächst mit Claude eine prägnante Zusammenfassung für jedes Dokument in Ihrem Corpus und verwenden dann Claude, um die Relevanz jeder Zusammenfassung für die gestellte Frage zu bewerten. Weitere Details zu diesem Ansatz, einschließlich eines Code-basierten Beispiels, finden Sie im Abschnitt Summary Indexed Documents im Zusammenfassungs-Cookbook.Fine-Tunen Sie Claude, um von Ihrem Datensatz zu lernen
Eine weitere fortgeschrittene Technik zur Verbesserung der Fähigkeit von Claude, Zusammenfassungen zu generieren, ist Fine-Tuning. Fine-Tuning beinhaltet das Training von Claude auf einem benutzerdefinierten Datensatz, der speziell auf Ihre Anforderungen zur Zusammenfassung von Rechtsdokumenten abgestimmt ist, um sicherzustellen, dass Claude sich an Ihren Anwendungsfall anpasst. Hier ist ein Überblick über die Durchführung von Fine-Tuning:- Identifizieren Sie Fehler: Beginnen Sie damit, Instanzen zu sammeln, in denen Claudes Zusammenfassungen zu kurz kommen – dies könnte das Übersehen kritischer Rechtsdetails, das Missverständnis von Kontext oder die Verwendung unangemessener Rechtsterminologie umfassen.
- Kuratieren Sie einen Datensatz: Nachdem Sie diese Probleme identifiziert haben, stellen Sie einen Datensatz dieser problematischen Beispiele zusammen. Dieser Datensatz sollte die ursprünglichen Rechtsdokumente zusammen mit Ihren korrigierten Zusammenfassungen enthalten, um sicherzustellen, dass Claude das gewünschte Verhalten erlernt.
- Führen Sie Fine-Tuning durch: Fine-Tuning beinhaltet das erneute Training des Modells auf Ihrem kuratierten Datensatz, um seine Gewichte und Parameter anzupassen. Dieses erneute Training hilft Claude, die spezifischen Anforderungen Ihrer Rechtsdomäne besser zu verstehen und verbessert seine Fähigkeit, Dokumente nach Ihren Standards zusammenzufassen.
- Iterative Verbesserung: Fine-Tuning ist kein einmaliger Prozess. Während Claude weiterhin Zusammenfassungen generiert, können Sie iterativ neue Beispiele hinzufügen, bei denen es unterperformt hat, und seine Fähigkeiten weiter verfeinern. Im Laufe der Zeit wird diese kontinuierliche Feedback-Schleife zu einem Modell führen, das hochgradig spezialisiert auf Ihre Aufgaben zur Zusammenfassung von Rechtsdokumenten ist.