Predictive Coding: Wichtige Warnhinweise

in Advisory, 09.10.2014

Die heutige Realität:

‘Discovery’ war schon immer Teil von Rechtsstreitigkeiten (Litigation): Es ist die Identifizierung, Analyse und der Austausch von Fall-relevanten Informationen der Litigation-Parteien. Da heutzutage die meisten Informationen in elektronischem Format vorliegen, ist Discovery heute mehrheitlich zu ‘eDiscovery’ geworden. Zur Unterstützung ihrer Kunden bei Litigation, Investigations und behördlichen Anfragen, benötigen Anwälte Hilfe bei der Verwaltung grosser elektronischer Datenmengen.

Das massive Datenvolumen und die steigende Themenkomplexität können dazu führen, dass die Kosten für eDiscovery den eigentlichen Streitwert übersteigen. Um Kosten zu reduzieren und einige Einschränkungen der Schlagwortsuche zu überwinden, wurde  2005 die  Technologie ‘Concept-Searching’ entwickelt (siehe weitere Informationen unten im Kasten). Concept-Search Technologien sind in der Lage Ähnlichkeiten in Inhalt und Bedeutung von Dokumenten zu erkennen, ohne dass bestimmte Worte enthalten sein müssen.

Es gab Antreiber und frühe Anwender von Concept-Searching Technologien; es gab aber auch warnende Worte dazu: Viele Nutzer verwendeten weiterhin die „alten“ Methoden: Schlagwortsuchen und lineare Analysen[1] der Ergebnisse – für manche Firmen ist dies nach wie vor Alltag.

Das elektronische Datenvolumen und die Kosten für die Kunden wachsen kontinuierlich, wobei sich die folgende Frage aufdrängt: Können neue Technologien diese Aufgaben auch oder sogar besser erfüllen als die bisherigen Methoden, und das zu niedrigeren Kosten?

Seit ein paar Jahren bieten Software Unternehmen die nächste Generation konzeptbasierter Such- und Klassifikationstechnologien: ‘Predictive Coding’ oder (die kommerziell neutralere Bezeichnung) ‘Technologie-assistiertes Review’ (TAR)[2]Die Behauptung bzw. Bestrebung ist, dass TAR bei angemessenem Design und Handhabung, Zeit und Geld spart und sogar bessere Ergebnisse erzielt als eine lineare Analyse von Schlagwort-Ergebnissen. Untersuchungen zeigen, dass dies tatsächlich möglich ist. Aber wie bei allen komplexen Tools, kann auch TAR falsch eingesetzt werden: Einerseits kann das Tool selbst falsch verwendet  und andererseits der Prozess, anhand dessen das Tool genutzt wird, schlecht gehandhabt werden. Doch viele Wege führen nach Rom; so wurde auch TAR oftmals für Analysen eingesetzt, für die es eigentlich nicht vorgesehen war.

Entwicklung von eDiscovery-Ansätzen

Die Methoden, die zur Identifizierung relevanter Dokumente genutzt werden, haben sich weiterentwickelt und sind nun effizienter und effektiver.

Schlagwortsuchen identifizieren alle Dokumente, die bestimmte Worte enthalten, die vom Nutzer festgelegt wurden. Dokumente, die diese definierten Schlagworte enthalten, können aber sogenannte ‘Falsche Treffer’ (False Positives) sein – Dokumente, die ein gesuchtes Wort enthalten, aber tatsächlich nicht Prozess-relevant sind. False Positives erhöhen den Zeitaufwand sowie die Kosten in Verbindung mit Discovery.

Konzeptsuchen haben das Ziel False Positives, die bei Schlagwortsuchen aufkommen, zu reduzieren, indem sie den konzeptuellen Inhalt des Dokuments erkennen. ‘Konzept-Indexing’ berücksichtigt u.a. wie häufig Worte in einem oder mehreren Dokumenten vorkommen, wie dicht sie aufeinander folgen und welche anderen Worte oft im Umfeld auftreten. Algorithmen identifizieren Muster, die häufige Wortkonstellationen darstellen (‘Co-Occurrence’).

Beim Technologie-assistierten Review (TAR) wird die konzeptbasierte Technologie von einem oder mehreren Experten (Subject-Matter-Expert(s) – ‘SME'(s)) daraufhin trainiert zwischen gewollten und ungewollten Dokumenten zu unterscheiden, basierend auf dem konzeptuellen Inhalt der Dokumente. Mithilfe einer Reihe von Test-und-Review Phasen, trainieren die SMEs das System darin eine höhere Trefferquote von gewünschten Ergebnissen zu erzielen und die Elemente, nach denen nicht gesucht wird, zu ignorieren.

Konferenzen und eDiscovery Websites enthalten heute nicht nur Wie-Lektionen und Artikel zum Thema TAR, sondern auch Warnhinweise. Nur wenige scheinen sich der womöglich grössten Schwäche dieser Technologie zu stellen: TAR analysiert den Inhalt eines Dokuments, mit dem Ziel eine einfache Ja/Nein-Bewertung zu erzeugen – zumeist daraufhin, ob die grundsätzlich relevanten Kriterien erfüllt werden. Es gibt jedoch keine einfache Erklärung für die ausgegebenen Bewertungen. Um herauszufinden warum ein Dokument als relevant eingeschätzt wurde, muss es geöffnet und gelesen werden.

Diese Art von intelligenter und maschineller Bewertung – insbesondere bezüglich der Entscheidung auf Dokumentenebene – ist in der Praxis akzeptiert worden, da die Dokumente auf dem untersten Level nach Relevanz untersucht wurden („Produzieren oder nicht?“) Dies ist in Ordnung und funktioniert in der Regel, wenn  der konzeptionelle Inhalt eines Dokuments eher homogen ist. Allerdings ist das bei vielen wichtigen Dokumenten nicht der Fall; Dokumente können sich mit mehreren verschiedenen Themen befassen, und die rechtliche Bedeutung des Texts kann Seite für Seite, Absatz für Absatz oder sogar Satz für Satz stark variieren. Es ist sehr problematisch eine übergreifende Bewertung eines Dokuments abzugeben, bei dem eine besonders bedeutende Passage beispielsweise auf Seite 17 von 56 versteckt ist. Wäre diese Passage in einem leeren Dokument enthalten, gäbe TAR einen sehr hohen Wert an. Auf Seite 17 eines grösseren Dokuments geht dessen Wirkungskraft allerdings verloren.

Nach derzeitigem Entwicklungsstand haben TAR Tools noch nicht das Niveau eines aufmerksamen Reviewers erreicht: Relevanz im Inneren eines Dokuments erkennen und den bestimmten Abschnitt zur besonderen Berücksichtigung isolieren.

Aufgrund der aufgezeigten Gründe ist der Hype um das Tool mit Vorsicht zu geniessen. TAR ist vor allem für allgemeine inhaltliche Gruppierungen von Dokumenten geeignet (beispielsweise Geschäftsberichte oder Hotelbuchungen gruppieren). Dass TAR genau die relevanten Passagen aus den generellen Gruppierungen heraus erkennt, kann daher nicht erwartet werden[3].

Einige von TAR’s inhärenten Einschränkungen, beinhalten:

  • TAR nutzt ausschliesslich Text – mit Zahlen und Graphiken kann es nicht umgehen
  • TAR kann nicht ermitteln, welche Art Dokument es analysiert (Briefe, Emails, Memos, medizinische Unterlagen, Geschäftsberichte)
  • TAR kennt keine Daten, Chronologien, Sequenzen oder besondere Zeiträume
[1] Lineare Analysen beziehen sich auch auf  Dokument-für-Dokument Reviews. Diese Vorgehensweise beansprucht einen hohen Zeitaufwand und ist für Nutzer sowie für Reviewer, die unterschiedliche Leistungen und Einschätzungen abgeben, äusserst mühsam.
[2] Das Unternehmen Recommind besitzt ein Patent auf „predictive coding“ (US7933859)
[3] Dieser Artikel ist eine Übersetzung eines Beitrages aus dem KPMG Forensic Focus (September 2014). Die Originalautoren sind David Sharpe und Dominic Jaar.

 

Further information:

 


Leave a Reply

Your email address will not be published.