Sensible Informationen in SharePoint Dokumenten erkennen und auswerten

Über vordefinierte Modelle unterstützt SharePoint Premium bisher die Erkennung von Verträgen, Rechnungen und Belegen. Bei Prebuild Models bereitet Microsoft die Modelle initial vor. Eine Organisation kann die Modelle übernehmen und darauf basierend eigene, vortrainierte Modelle erstellen und ihre in SharePoint gespeicherten Dokumente mit ausgewählten Metadaten aufbereiten und optional automatisch auswerten.

Neu wurden Prebuild Models mit einem vierten Model ergänzt: Prebuilt model to detect sensitive information

The sensitive information prebuilt model analyzes and detects key information from documents, and then optionally extracts the information. The model recognizes documents in various formats and detects sensitive information, such as personal and financial identification numbers, physical and email addresses, and phone numbers.

Document Processing Models in SharePoint Premium
Document Processing Models in SharePoint Premium

Derzeit unterstützen sensible Informationen eine Vielzahl von Typen in verschiedenen Sprachen. Microsoft führt eine Liste über mögliche Typen. Neben der Liste erwähnt Microsoft immer wieder folgende drei Typen:

  • E-Mail Adresse
  • Telefonnummer
  • Adressangaben

Die automatische Analyse von sensiblen Informationen kann im Zusammenspiel mit DLP Policies und anderen Microsoft Purview Produkten eine sinnvolle Ergänzung sein. Das neue Modell kann Mitarbeitenden ausserdem aufzeigen, welche potenziell sensiblen Informationen sie in Dokumenten speichern.

Während der letzten Tage probierte ich das neue Modell aus.

Konfiguration von Prebuilt Models in SharePoint

1) Syntex pay-as-you-go

Wie üblich benötigen Syntex / SharePoint Premium Features zuerst die einmalige Konfiguration von Syntex pay-as-you-go. Über die Azure Subscription rechnet SharePoint Premium all seine monatlichen Kosten ab. Du kannst den Schritt überspringen, wenn Syntex pay-as-you-go in der Vergangenheit für andere SharePoint Premium Features eingerichtet wurde.

2) SharePoint Content Center

Für Prebuilt Models ist ein Content Center erforderlich. Im Content Center findet die organisationsweite Modellerstellung und das Training statt. Ein Content Center ist eine von Microsoft vordefinierte SharePoint Site Collection.

  • Enterprise Content Center
    Das Enterprise Content Center ist ein organisationsweites Content Center. In einem Enterprise Content Center erstellen und trainieren berechtigte Personen zentral die von Microsoft vordefinierten Modelle und weisen die Modelle einer SharePoint Dokumentenablagen zu. Die hier aktualisierten Modelle werden später von SharePoint an die verknüpften Dokumentenablagen publiziert.
  • Lokales Content Center
    Ein lokales Content Center bezieht sich auf eine definierte Site Collection. Modelle sind nur für Dokumentenablagen in dieser Site Collection verfügbar.

SharePoint Administratoren können eines oder mehrere Content Center erstellen, es kann jedoch nur ein Standard Content Center geben. Das erste erstellte Content Center definiert Syntex als Standard Content Center. Das erste Content Center sollte ein Enterprise Content Center sein.

Praktisch erstellt ein Administrator im SharePoint Admin Center eine neue Site Collection und wählt als Vorlage das Content Center. Damit erstellt es ein Enterprise Content Center. Bei der Erstellung einer neuen Site Collection wird das Content Center mittlerweile promoted.

Neues SharePoint Content Center erstellen
Neues SharePoint Content Center erstellen
3) Prebuilt Models freischalten

Im M365 Admin Center können Konten mit der Rolle Global Admin und SharePoint Admin Prebuilt Models aktivieren und für Site Collections freigeben. Die Erstellung von Prebuilt Models muss zumindest für Content Center freigeschalten sein.

In meinem Fall limitiere ich die Modellerstellung auf mein Enterprise Content Center.

Content Center für Modellerstellung freigeben
Content Center für Modellerstellung freigeben


Erstellung und Training von Prebuilt Models

1) Modellerstellung

Öffne das Enterprise Content Center und wähle in der Navigation Models. Erstelle ein neues Modell und wähle in der Auswahl “Sensitive information processing”.

Neues Sensitive information processing Modell erstellen
Neues Sensitive information processing Modell erstellen

Im nächsten Schritt informiert das Modell wie es die Informationen am Ende darstellen wird.

  • Als Metadaten, welche sensiblen Informationen es im Dokument gefunden hat, vorteilhaft für weitere Prozesse wie beispielsweise DLP-Policies.
Ausgabe von Metadaten
Ausgabe von Metadaten
  • Als Werte (optional), vorteilhaft für die Nutzung der Daten mit PowerShell, Power Automate und anderen Möglichkeiten.
Ausgabe von Werten
Ausgabe von Werten

Du gibst dem Modell einen Namen und speichert es als Modell ab. Der Modellname ist später für Mitglieder einer Site Collection sichtbar. Wähle einen nützlichen Namen.

2) Modelltraining

Nach der Modellerstellung öffnet sich das Models Center mit vier Abschnitten. Im Models Center definieren berechtigte Personen, welche sensiblen Informationen gesucht werden, in welcher Sprache, wie die Daten ausgewertet werden sollen, trainieren das Modell mit Beispieldaten und veröffentlichen das neue Modell an ausgewählte Ablagen in SharePoint.

Model vorbereiten
Model vorbereiten
  1. Auswahl der gesuchten sensiblen Informationen + die Wahl einer Sprache. Jedes Modell unterstützt nur eine Sprache. Für weitere Sprachen musst du mehrere Modelle erstellen. Hier hat Microsoft die möglichen Typen gelistet.
Sensible Informationen auswählen
Sensible Informationen auswählen
  1. Im nächsten Schritt welche der ausgewählten Typen das Modell extrahieren soll. Ohne Extrahierung erfasst das Modell sensible Informationen nur als Metadaten, ohne den Wert.
Screenshot
  1. Modell an Beispieldokumenten testen. Je mehr Beispiele desto eher kann das Modell Daten finden. Es zeigt einen Auszug welche Typen gefunden wurden und welche Werte das Modell ausgeben wird. Eine manuelle Korrektur der Ergebnisse lässt SharePoint nicht zu.
Model testen und trainieren
Model testen und trainieren
  1. Im letzten Schritt wird das Modell an eine Ablage in SharePoint zugewiesen.
Model zuweisen
Model zuweisen

Alle vier Schritte können nachträglich bearbeitet und angepasst werden.
Nach der Einrichtung wurde das Modell an meine Dokumentenablage “Sensitive Information Library” zugewiesen.


Sensible Informationen in SharePoint Dokumenten auswerten

Nachdem das Modell für meine Dokumentenablage freigegeben wurde, informiert die Dokumentenablage über die automatische Analyse. In der Menüleiste wurde ausserdem eine neue Option für die Klassifizierung und Extraktion hinzugefügt.

Model wurde Dokumentenablage zugewiesen
Model wurde Dokumentenablage zugewiesen

Eine Information zeigt Mitgliedern der Site Collection was das Modell analysiert.

Zugewiesene Modelle
Zugewiesene Modelle
  • Jedes neu hochgeladene Dokument wird automatisch analysiert.
  • Bestehende oder überarbeitete Dokumente können über die Option “Classify and extract” manuell analysiert werden.
  • SharePoint führt nachträglich keine weitere automatische Analyse durch. Der Auftrag für eine manuelle Analyse ist jederzeit möglich.

Die Analyse dauert bis zu 30 Minuten. In meinen Fällen waren es jeweils nur wenige Minuten.

Für meinen Test wurden über ChatGPT Testdokumente mit zufällig generierten Daten erstellt. Mit den Angaben trainierte ich das von Microsoft bereitgestellte Modell.
ChatGPT hat in den Dokumenten folge Typen erfasst:

  • Telefonnummer
  • Name einer Person
  • E-Mail Adresse
  • IP Adresse
  • Name einer Organisation
  • Adressangaben

In der Dokumentenablage hat SharePoint eine neue Ansicht für das Modell erstellt, die den Namen des Modells trägt. Die neue Ansicht enthält Spalten mit den von mir ausgewählten Informationen.
Am Ende der Analyse enthält sie für jedes Dokument Metadaten über die gefundenen Informationen und Werte aus den Dokumenten. In der Praxis hat SharePoint die Daten fast vollständig erkannt.

Auswertung von sensiblen Informationen mit SharePoint Premium
Auswertung von sensiblen Informationen mit SharePoint Premium


Reporting für Prebuilt Models im SharePoint Content Center

Das Enterprise Content Center enthält auf der Startseite ein Reporting über die Nutzung der Modelle im Vergleich zu anderen Modelle . Das Reporting zeigt die letzten 30 Tage. Mangels Anzahl der Modelle und produktiver Nutzung kann ich das Reporting nicht bewerten. Microsoft beschreibt das Reporting in der Dokumentation.


Kosten von Prebuilt Models in SharePoint

Die Erstellung, Bearbeitung und das Training von Modellen im Content Center wird nicht verrechnet. Für Prebuilt Models notiert Microsoft in den Kosten.

$0.01/transaction
The number of pages processed for PDF or image files. Each of these counts as one transaction. You won’t be charged for model training. You’re charged for processing whether or not there’s a positive classification, or any entities extracted.

Processing occurs on document upload and on subsequent updates. Processing is counted for each model applied. For example, if you have two models applied to a library and you upload or update a five-page document in that library, the total pages processed is 10.

Bis Juni 2025 ermöglicht eine Promotion ausgewählte SharePoint Premium Features zu testen. Für Prebuilt Models sind die ersten 100 Seiten pro Monat inkludiert. Die SharePoint Premium Promotion wurde bereits mehrmals verlängert. Die Einhaltung der Promotion kann eine Organisation über die Kosten nicht nachprüfen.


Abrechnung von Prebuilt Models über Syntex

In der Azure Subscription werden Prebuilt Models als “Pre-built understanding Transaction” erfasst. Wie üblich erfasst Microsoft nur die Summe, keine Angabe über den Verbrauch. Die Berechnung ist jeweils um 24 Stunden verzögert.

Azure Abrechnung über Prebuilt Models


Fazit zu Prebuilt Models in SharePoint

Nach der Erstellung und dem Training eines Modells funktioniert das neue Modell pro Dokumentenablage nahezu zuverlässig und schnell. Die Konfiguration neuer Modelle ist einfach. Eine manuelle Korrektur fehlerhafter Ergebnisse ist nicht möglich. Bei vorkonfigurierten Modellen ist es zudem einfach, die Verfügbarkeit der Modelle einzuschränken.
Je nach Konfiguration kann es den Mitarbeitenden über Metadaten aufzeigen, welche potenziell sensiblen Informationen SharePoint im Dokument auswerten kann.

Leider ist die fehlende Kostenbegrenzung und Intransparenz seitens Microsoft immer noch ein Hindernis für die Nutzung der SharePoint Premium Features.
SharePoint Premium schafft die grösstmögliche Intransparenz über Kosten und Verbrauch. Die Azure Subscription zeigt nur den berechneten Betrag an. Eine Auswertung über die gezählten Seiten oder wie Syntex auf den Betrag kommt, habe ich bisher bei keinem Feature gefunden. Organisationen haben keine Kontrolle über die monatlichen Kosten und den Datenverbrauch.

Share
Avatar-Foto

Tobias Asböck

Tobias ist ein Senior System Engineer mit rund 10 Jahren Berufserfahrung für Microsoft 365 Produkte wie SharePoint Online, OneDrive for Business, Teams Collaboration, Entra ID, Information Protection, Universal Print und Microsoft 365 Lizenzierung. Aus der Vergangenheit kennt er über einen Zeitraum von 15+ Jahren die Planung, Administration und den Betrieb von SharePoint Server Umgebungen. Tobias ist ein PowerShell Scripter mit Zertifizierungen für Microsoft 365 Produkte. In seiner Freizeit beschäftigt sich Tobias mit Aktualisierungen in der M365-Welt, ist mit seinem Rennvelo unterwegs und anderen sportlichen Aktivitäten beschäftigt. Bei Fragen kontaktiere mich über LinkedIn oder [email protected].

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert