Sensible Informationen in SharePoint Dokumenten erkennen und auswerten

16. Juli 2024

Über vordefinierte Modelle unterstützt SharePoint Premium bisher die Erkennung von Verträgen, Rechnungen und Belegen. Bei Prebuild Models bereitet Microsoft die Modelle initial vor. Eine Organisation kann die Modelle übernehmen und darauf basierend eigene, vortrainierte Modelle erstellen und ihre in SharePoint gespeicherten Dokumente mit ausgewählten Metadaten aufbereiten und optional automatisch auswerten.

Neu wurden Prebuild Models mit einem vierten Model ergänzt: Prebuilt model to detect sensitive information

The sensitive information prebuilt model analyzes and detects key information from documents, and then optionally extracts the information. The model recognizes documents in various formats and detects sensitive information, such as personal and financial identification numbers, physical and email addresses, and phone numbers.

*Document Processing Models in SharePoint Premium*

Derzeit unterstützen sensible Informationen eine Vielzahl von Typen in verschiedenen Sprachen. Microsoft führt eine Liste über mögliche Typen. Neben der Liste erwähnt Microsoft immer wieder folgende drei Typen:

E-Mail Adresse
Telefonnummer
Adressangaben

Die automatische Analyse von sensiblen Informationen kann im Zusammenspiel mit DLP Policies und anderen Microsoft Purview Produkten eine sinnvolle Ergänzung sein. Das neue Modell kann Mitarbeitenden ausserdem aufzeigen, welche potenziell sensiblen Informationen sie in Dokumenten speichern.

Während der letzten Tage probierte ich das neue Modell aus.

Content

Konfiguration von Prebuilt Models in SharePoint

1) Syntex pay-as-you-go

Wie üblich benötigen Syntex / SharePoint Premium Features zuerst die einmalige Konfiguration von Syntex pay-as-you-go. Über die Azure Subscription rechnet SharePoint Premium all seine monatlichen Kosten ab. Du kannst den Schritt überspringen, wenn Syntex pay-as-you-go in der Vergangenheit für andere SharePoint Premium Features eingerichtet wurde.

2) SharePoint Content Center

Für Prebuilt Models ist ein Content Center erforderlich. Im Content Center findet die organisationsweite Modellerstellung und das Training statt. Ein Content Center ist eine von Microsoft vordefinierte SharePoint Site Collection.

Enterprise Content Center
Das Enterprise Content Center ist ein organisationsweites Content Center. In einem Enterprise Content Center erstellen und trainieren berechtigte Personen zentral die von Microsoft vordefinierten Modelle und weisen die Modelle einer SharePoint Dokumentenablagen zu. Die hier aktualisierten Modelle werden später von SharePoint an die verknüpften Dokumentenablagen publiziert.

Lokales Content Center
Ein lokales Content Center bezieht sich auf eine definierte Site Collection. Modelle sind nur für Dokumentenablagen in dieser Site Collection verfügbar.

SharePoint Administratoren können eines oder mehrere Content Center erstellen, es kann jedoch nur ein Standard Content Center geben. Das erste erstellte Content Center definiert Syntex als Standard Content Center. Das erste Content Center sollte ein Enterprise Content Center sein.

Praktisch erstellt ein Administrator im SharePoint Admin Center eine neue Site Collection und wählt als Vorlage das Content Center. Damit erstellt es ein Enterprise Content Center. Bei der Erstellung einer neuen Site Collection wird das Content Center mittlerweile promoted.

*Neues SharePoint Content Center erstellen*

3) Prebuilt Models freischalten

Im M365 Admin Center können Konten mit der Rolle Global Admin und SharePoint Admin Prebuilt Models aktivieren und für Site Collections freigeben. Die Erstellung von Prebuilt Models muss zumindest für Content Center freigeschalten sein.

In meinem Fall limitiere ich die Modellerstellung auf mein Enterprise Content Center.

*Content Center für Modellerstellung freigeben*

Erstellung und Training von Prebuilt Models

1) Modellerstellung

Öffne das Enterprise Content Center und wähle in der Navigation Models. Erstelle ein neues Modell und wähle in der Auswahl “Sensitive information processing”.

*Neues Sensitive information processing Modell erstellen*

Im nächsten Schritt informiert das Modell wie es die Informationen am Ende darstellen wird.

Als Metadaten, welche sensiblen Informationen es im Dokument gefunden hat, vorteilhaft für weitere Prozesse wie beispielsweise DLP-Policies.

Als Werte (optional), vorteilhaft für die Nutzung der Daten mit PowerShell, Power Automate und anderen Möglichkeiten.

Du gibst dem Modell einen Namen und speichert es als Modell ab. Der Modellname ist später für Mitglieder einer Site Collection sichtbar. Wähle einen nützlichen Namen.

2) Modelltraining

Nach der Modellerstellung öffnet sich das Models Center mit vier Abschnitten. Im Models Center definieren berechtigte Personen, welche sensiblen Informationen gesucht werden, in welcher Sprache, wie die Daten ausgewertet werden sollen, trainieren das Modell mit Beispieldaten und veröffentlichen das neue Modell an ausgewählte Ablagen in SharePoint.

Auswahl der gesuchten sensiblen Informationen + die Wahl einer Sprache. Jedes Modell unterstützt nur eine Sprache. Für weitere Sprachen musst du mehrere Modelle erstellen. Hier hat Microsoft die möglichen Typen gelistet.

Im nächsten Schritt welche der ausgewählten Typen das Modell extrahieren soll. Ohne Extrahierung erfasst das Modell sensible Informationen nur als Metadaten, ohne den Wert.

Modell an Beispieldokumenten testen. Je mehr Beispiele desto eher kann das Modell Daten finden. Es zeigt einen Auszug welche Typen gefunden wurden und welche Werte das Modell ausgeben wird. Eine manuelle Korrektur der Ergebnisse lässt SharePoint nicht zu.

Im letzten Schritt wird das Modell an eine Ablage in SharePoint zugewiesen.

Alle vier Schritte können nachträglich bearbeitet und angepasst werden.
Nach der Einrichtung wurde das Modell an meine Dokumentenablage “Sensitive Information Library” zugewiesen.

Sensible Informationen in SharePoint Dokumenten auswerten

Nachdem das Modell für meine Dokumentenablage freigegeben wurde, informiert die Dokumentenablage über die automatische Analyse. In der Menüleiste wurde ausserdem eine neue Option für die Klassifizierung und Extraktion hinzugefügt.

*Model wurde Dokumentenablage zugewiesen*

Eine Information zeigt Mitgliedern der Site Collection was das Modell analysiert.

Jedes neu hochgeladene Dokument wird automatisch analysiert.
Bestehende oder überarbeitete Dokumente können über die Option “Classify and extract” manuell analysiert werden.
SharePoint führt nachträglich keine weitere automatische Analyse durch. Der Auftrag für eine manuelle Analyse ist jederzeit möglich.

Die Analyse dauert bis zu 30 Minuten. In meinen Fällen waren es jeweils nur wenige Minuten.

Für meinen Test wurden über ChatGPT Testdokumente mit zufällig generierten Daten erstellt. Mit den Angaben trainierte ich das von Microsoft bereitgestellte Modell.
ChatGPT hat in den Dokumenten folge Typen erfasst:

Telefonnummer
Name einer Person
E-Mail Adresse
IP Adresse
Name einer Organisation
Adressangaben

In der Dokumentenablage hat SharePoint eine neue Ansicht für das Modell erstellt, die den Namen des Modells trägt. Die neue Ansicht enthält Spalten mit den von mir ausgewählten Informationen.
Am Ende der Analyse enthält sie für jedes Dokument Metadaten über die gefundenen Informationen und Werte aus den Dokumenten. In der Praxis hat SharePoint die Daten fast vollständig erkannt.

*Auswertung von sensiblen Informationen mit SharePoint Premium*

Reporting für Prebuilt Models im SharePoint Content Center

Das Enterprise Content Center enthält auf der Startseite ein Reporting über die Nutzung der Modelle im Vergleich zu anderen Modelle . Das Reporting zeigt die letzten 30 Tage. Mangels Anzahl der Modelle und produktiver Nutzung kann ich das Reporting nicht bewerten. Microsoft beschreibt das Reporting in der Dokumentation.

Kosten von Prebuilt Models in SharePoint

Die Erstellung, Bearbeitung und das Training von Modellen im Content Center wird nicht verrechnet. Für Prebuilt Models notiert Microsoft in den Kosten.

$0.01/transaction
The number of pages processed for PDF or image files. Each of these counts as one transaction. You won’t be charged for model training. You’re charged for processing whether or not there’s a positive classification, or any entities extracted.

Processing occurs on document upload and on subsequent updates. Processing is counted for each model applied. For example, if you have two models applied to a library and you upload or update a five-page document in that library, the total pages processed is 10.

Bis Juni 2025 ermöglicht eine Promotion ausgewählte SharePoint Premium Features zu testen. Für Prebuilt Models sind die ersten 100 Seiten pro Monat inkludiert. Die SharePoint Premium Promotion wurde bereits mehrmals verlängert. Die Einhaltung der Promotion kann eine Organisation über die Kosten nicht nachprüfen.

Hinweis zu Kosten
Der obligatorische Hinweis zu allen SharePoint Premium Features und Kosten.
Microsoft bietet nach wie vor keine Kostenkontrolle für SharePoint Premium Features. Einmal eingerichtet, nutzen alle SharePoint Premium Features eine gemeinsame Azure Subscription. Es ist nicht möglich, ein monatliches Kostenlimit festzulegen. In der Praxis ist SharePoint Premium ein finanzielles Fass ohne Boden. Microsoft weist in den Syntex Lizenzbedingungen darauf hin, dass Organisationen die Azure Subscription von Syntex trennen sollten, um die Kosten zu stoppen.

Abrechnung von Prebuilt Models über Syntex

In der Azure Subscription werden Prebuilt Models als “Pre-built understanding Transaction” erfasst. Wie üblich erfasst Microsoft nur die Summe, keine Angabe über den Verbrauch. Die Berechnung ist jeweils um 24 Stunden verzögert.

Fazit zu Prebuilt Models in SharePoint

Nach der Erstellung und dem Training eines Modells funktioniert das neue Modell pro Dokumentenablage nahezu zuverlässig und schnell. Die Konfiguration neuer Modelle ist einfach. Eine manuelle Korrektur fehlerhafter Ergebnisse ist nicht möglich. Bei vorkonfigurierten Modellen ist es zudem einfach, die Verfügbarkeit der Modelle einzuschränken.
Je nach Konfiguration kann es den Mitarbeitenden über Metadaten aufzeigen, welche potenziell sensiblen Informationen SharePoint im Dokument auswerten kann.

Leider ist die fehlende Kostenbegrenzung und Intransparenz seitens Microsoft immer noch ein Hindernis für die Nutzung der SharePoint Premium Features.
SharePoint Premium schafft die grösstmögliche Intransparenz über Kosten und Verbrauch. Die Azure Subscription zeigt nur den berechneten Betrag an. Eine Auswertung über die gezählten Seiten oder wie Syntex auf den Betrag kommt, habe ich bisher bei keinem Feature gefunden. Organisationen haben keine Kontrolle über die monatlichen Kosten und den Datenverbrauch.