Für die Prognose der Höhe des Strafmass wird der RandomForestRegressor, für die Prognose der Sanktionsart und Vollzugsform wird der RandomForestClassifier und für die Eruierung der Präjudizen der KNeighborsRegressor der frei verfügbaren Python-Programmbibliothek scikit-learn verwendet.
Eine Erklärung der Funktionsweise der genannten und hier verwendeten KI-Systeme findet sich hier.
Wenn im folgenden die Prognoseleistung der KI-Modelle, welche das Strafmass, die Sanktionsart und die Vollzugsmodalität prognostizieren, erhoben wird, ist zu erwarten, dass die Prognoseleistung dieser KI-Modelle (für eine solche Zwecksetzung zu) gering ausfallen wird. Dies einerseits aus dem nachgezeichneten Grund, dass bei der Strafzumessung ein hoher Ermessenspielraum besteht, zu dessen Ausfüllung – abgesehen davon, dass bei Vermögensdelikten der Deliktsbetrag nach der Theorie eine gewichtige Rolle spielen soll – kaum fassbare Kriterien vorgegeben werden. Bei dieser Ausgangslage ist zu erwarten, dass die durch sachverhaltsfremde Kriterien bedingte Streuung, welche darauf zurückzuführen ist, dass weite Ermessenspielräume von unterschiedlichen Personen verschieden ausgefüllt werden, ein gewisses Ausmass annimmt. Anderseits werden die verwendeten KI-Modelle nur eine bestimmte Auswahl von Sachverhaltsmerkmalen berücksichtigen und dabei zwangsläufig Merkmale ausser Acht lassen, welche bei der Strafzumessung in legitimer Weise eine Rolle spielen dürfen. So wird bspw. nicht berücksichtigt werden, in welchem Verhältnisausmass die geschädigte Person betroffen ist und in welcher Art und Weise, der Täter vorgegangen ist. Für die Bemessung des Tatverschuldens eines Betrugs ist es massgebend, ob eine natürliche Person um ihr gesamtes Hab und Gut gebracht worden ist oder ob die geschädigte Person eine grundbedürfnislose rechtliche Einheit darstellt, welche auch einen hohen Deliktsbetrag mühelos verkraften kann. Dabei spielt es – legitimerweise – eine Rolle, ob der Täter dabei mit besonderer Raffinesse oder Machenschaften vorging, und/oder ob die geschädigte Person auch ein bestimmtes Mass an Selbstverschulden an den Tag gelegt hat. Dies sind alles Kriterien, welche das Strafmass beeinflussen dürfen und welche durch das verwendete KI-Modell nicht erfasst werden.
Das KI-Modell, welches lediglich mit legitimen Strafzumessungskriterien darauf trainiert wurde, basierend auf bekannte Sachverhaltseckwerte (Deliktsumme, Anzahl Schuldsprüche etc.) das Strafmass hervorzusagen, lag bei der Prognose von real bestehenden Fällen, dessen Ergebnis es nicht kannte, durchschnittlich um 6,73 Monatseinheiten daneben. Die Standardabweichung beträgt 6,08 Monatseinheiten. Die beste Prognoseleistung dieses KI-Modells lag 0,04 Monatseinheiten neben der effektiv ausgefällten Strafe. Dies war beim Urteil des Bezirksgericht Zürich vom 29. November 2021 der Fall. Die schlechteste Prognoseleistung dieses KI-Modells lag 30,13 Monatseinheiten neben der effektiv ausgefällten Strafe. Dies war beim Urteil des Bezirksgericht Zürich vom 4. Juni 2016 der Fall.
Die Prognoseleistung des KI-Modells, welches die Vollzugsart (bedingt, teilbedingt, unbedingt) prognostiziert, beträgt 66,3 %. D.h. in 66,3 % der Fälle wird die Vollzugsart korrekt prognostiziert.
Die Prognoseleistung des KI-Modells, welches die Sanktionsart (Freiheitstrafe, Geldstrafe) prognostiziert, beträgt 88,6 %. D.h. in 88,6 % der Fälle wird die Sanktionsart korrekt prognostiziert.
Einzuräumen ist, dass eine Prognose, welche durchschnittlich gegen 7 Monatseinheiten daneben liegt, nicht wirklich als treffsicher bezeichnet werden kann und etwa einer beschuldigten Person, die ihr Strafmass vorhersagen möchte, kaum haltbare Orientierung mitzugeben vermöchte. In diesem Sinne kann die einleitends getroffene Annahme als bestätigt angesehen werden. Trotzdem liegt die die Prognoseleistung insb. des random forest KI-Modells höher, als ich es angesichts der dargelegten weiten Ermessenspielräume, der empirisch nachgewiesenen Inkonsistenz der Strafzumessung sowie der Bildung des KI-Modells nur unzureichenden Erfassung der für die Strafzumessung massgebenden Faktoren intuitiv erwartet hätte. Ich führe dies auf die Tatsache zurück, dass dem Urteilsmerkmal der Deliktssumme die in der Theorie bei den Vermögensdelikte nachgesagte Bedeutung zukommt und dass dieser Umstand womöglich gar die Zufälligkeiten einzudämmen vermag, welche durch den grossen Ermessenspielraum mitgebracht werden. Vielleicht ist das Feld der Strafzumessung — zumindest auf dem Bereich der Vermögensdelikte — gar nicht so willkürlich, wie es ihm teilweise nachgesagt wird?
KI-Systeme sind angesichts ihrer dargelegten Funktionsweise prädestiniert dafür, eine Prognose über die Zukunft abzugeben. In vorliegendem Kontext bedeutet dies, dass man eine KI auf Grundlage der Präjudizen-Datenbank – welche die sachverhaltlichen Eckwerte (wie bspw. die gehandelten Betäubungsmittel, die Stellung des Täters etc.) sowie das ausgefällte Strafmass von Urteilen enthält – darauf trainieren kann, basierend auf vorgegebenen Sachverhaltsmerkmalen das Strafmass zu prognostizieren. Der Funktionsweise eines solchen KI-Prognosemodells ist daher zwangsläufig inhärent, dass dieses im Rahmen des Trainings eine Bewertung darüber anstellen muss, wie wichtig die einzelnen, für die Prognosebildung verwendeten Merkmale für diese Vorhersage sind. Diese Bewertung – wie wichtig das KI-Modell einzelne Sachverhaltsmerkmale für die Prognosebildung hält – kann nach dem Training des Modells abgerufen werden.
Dieser Umstand kann für die Evaluation der Rechtsprechung nutzbar gemacht werden. Da Algorithmen für das Training von KI-Modelle grundsätzlich wertfrei sind und sämtliche mitgegebenen Sachverhaltsmerkmale für die Trainingsbildung berücksichtigen, erlaubt dieser Ansatz, die Erheblichkeit von Sachverhaltsmerkmalen zu evaluieren, welche gemäss der Strafzumessungsmethodik illegitim (bspw. Nationalität oder Herkunft der beschuldigten Person; zuständiges Gericht, zuständige Abteilung oder zuständige Richterpersonen) oder höchstens mittelbar und nicht von ausschlaggebender Bedeutung sein dürfen (bspw. Alter der beschuldigten Person, Urteilszeitpunkt), indem man dem fraglichen KI-Modell dem Training diese Sachverhaltsmerkmale bekanntgibt. Weitere Hypothesen, die mit einem Strafmass prognostizierenden KI-Modell geprüft werden können, sind etwa, ob dem Geständnis in der Rechtswirklichkeit die von der Theorie geforderte strafmindernde Wirkung tatsächlich zukommt oder ob die Vereinbarung eines abgekürzten Verfahrens tatsächlich - im Sinne eines sog. "sentence bargaining" - eine Verringerung der Strafe bewirkt.
Es ist zu erwarten, dass die erwähnten KI-Modelle die Zumessungskriterien, welche von der Theorie für das Strafmass als zulässig und massgebend bezeichnet werden, für die Prognosestellung als solche identifizieren und stärker gewichten werden. Es ist daher im Bereich der Vermögensdelikte zu erwarten, dass die KI-Modelle das Sachverhaltsmerkmal der (Höhe der) Deliktssumme als für das Strafmass als relevant erkennen werden. Überdies ist angesichts der Strafasperation bei mehreren Straftaten zu erwarten, dass die Anzahl der Schuldsprüche (in casu erhoben durch einen sog. «Nebenverurteilungsscore») einen massgebenden Einfluss auf das Strafmass nehmen wird.
Umgekehrt ist zu erwarten bzw. zu erhoffen, dass Sachverhaltsmerkmale, die nach der Theorie keinen Einfluss auf das Strafmass nehmen dürften, bei den gebildeten KI-Modelle effektiv keine Rolle spielen. Um diese Annahme einer Prüfung zu unterziehen, wurden aus dem vorliegenden Datenbestand bewusst derartige Merkmale erhoben und beim Training der KI-Modelle mitgegeben, namentlich das Geschlecht der verurteilten Person, deren Nationalität und das zuständige Gericht.
Folgende Prognosemerkmale hält das verwendete KI-Modell für die Vorhersage des Strafmasses in angegebenem Prozentsatz für bedeutend, sofern ihm lediglich zulässige Strafzumessungskriterien bekannt gegeben werden:
Wichtigkeit | Merkmal |
---|---|
55,6 % | Deliktssumme |
17,0 % | Nebenverurteilungsscore |
13,0 % | gewerbsmaessige Qualifikation |
6,7 % | einschlägige Vorstrafe |
3,0 % | Hauptdelikt |
3,0 % | Vorbestraft |
1,4 % | bandenmässige Qualifikation |
0,3 % | Mehrfach |
Folgende Prognosemerkmale hält das verwendete KI-Modell für die Vorhersage der Vollzugsform in angegebenem Prozentsatz für bedeutend, sofern ihm lediglich zulässige Strafzumessungskriterien bekannt gegeben werden:
Wichtigkeit | Merkmal |
---|---|
31,8 % | Deliktssumme |
16,6 % | Nebenverurteilungsscore |
15,9 % | einschlägige Vorstrafe |
11,3 % | Vorbestraft |
11,2 % | Hauptdelikt |
6,8 % | gewerbsmaessige Qualifikation |
5,4 % | Mehrfach |
1,0 % | bandenmässige Qualifikation |
Werden dem KI-Modell beim Training Sachverhaltsgrundlagen bekanntgegeben, die keine legitimen Strafzumessungskriterien darstellen (Geschlecht, Nationalität, zuständiges Gericht), so schätzt es deren relative Wichtigkeit bei der Strafmassbildung wie folgt ein:
Wichtigkeit | Merkmal |
---|---|
53,0 % | Deliktssumme |
16,8 % | Nebenverurteilungsscore |
12,8 % | gewerbsmaessige Qualifikation |
6,0 % | einschlägige Vorstrafe |
4,2 % | Urteilsjahr |
2,9 % | Vorbestraft |
2,2 % | Hauptdelikt |
1,0 % | Nationalität |
0,8 % | Gericht |
0,1 % | Mehrfach |
0,1 % | Geschlecht |
0 % | bandenmässige Qualifikation |
Die zuvor skizzierten Ansätze sind verwendet worden, um einen Feldversuch am Beispiel der Rechtsprechung des Kantons Zürich vorzunehmen. Dabei sind der KI beim Training über 150 Urteile aus dem Bereich des Vermögensstrafrechts zur Verfügung gestanden. Die wichtigsten Erkenntnisse sind die folgenden: Hinsichtlich der Erheblichkeit der ausgewerteten Strafzumessungsfaktoren hat die KI – was den Erwartungen entsprach – den Deliktsbetrag als massgebendsten Faktor identifiziert. Bei der Erhebung, ob illegitime Sachverhaltsmerkmale (Nationalität, Geschlecht, zuständiges Gericht) eine Rolle spielen, kann den Zürcher Gerichten zumindest im Bereich des Vermögensstrafrechts attestiert werden, dass keinerlei Anzeichen für eine diskriminierende oder gerichtsstandortspezifische Rechtsprechung bestehen.
Der Liniengraph bildet die Prognose bei unterschiedlichen Deliktssummen ab, wenn die übrigen Sachverhaltsmerkmale – ceteribus paribus – wie folgt bestehen bleiben: