Optical Character Recognition (OCR) in Microsoft Purview

30. Juni 2023

Mit den richtigen Regeln und Konfigurationen können Produkte aus Microsoft Purview Daten einer Organisation schützen. Neu unterstützen ausgewählte Microsoft Purview Produkte die Erkennung über Optical Character Recognition (OCR). Mit OCR kann Purview Texte in Bildern erkennen.

OCR in Microsoft Purview ist aktuell in Preview und muss im Tenant manuell aktiviert werden. Einmal aktiviert unterstützen folgende Produkte die Erkennung über OCR.

Microsoft Purview Insider Risk Management
Microsoft Purview Data Loss Prevention (DLP)
Microsoft Purview Data Loss Management
Microsoft Purview Information Protection Autolabeling

In meinem Beitrag fasse ich Anforderungen und Informationen zusammen, und konfiguriere am Ende zur Simulation eine DLP Policy zur Erkennung von Inhalten über OCR.

**************
Update vom 5. August 2023:
Der globale Rollout für SharePoint Online, OneDrive for Business und Windows Devices ist bis Ende Oktober geplant. Die Preview für alle unterstützten Produkte sollte mittlerweile in den Tenants verfügbar sein.
**************

Content

Anforderungen und allgemeine Informationen

Für den Einsatz von OCR in Purview Policies sollten Organisationen manche Punkte beachten. Für Hilfe dienen Dokumentationen hier und hier.

Lizenzierung

Für die Konfiguration von Purview Policies benötigt deine Organisation zumindest eine Lizenz (oder Serviceplan) Information Protection Plan 1. Für Autolabeling und Insider Risk Management Information Protection Plan 2.

Bildformate

Folgende Bildformate sind unterstützt:
JPG/JPEG, PNG, BMP, TIFF und PDF (bei PDF sofern es sich um ein Bild handelt), mit einer Dateigrösse von max. 50 MB (in SharePoint und OneDrive) und 20 MB (in Exchange und Teams).

Unterstützte Produkte

In folgenden Produkten unterstützen Purview Policies die Erkennung über OCR:

Exchange Online
SharePoint Online
OneDrive for Business
Teams Chats und Channels
Devices

Microsoft Syntex Pay-as-you-go

OCR in Purview Produkten wird über Microsoft Syntex Pay-as-you-go bereitgestellt und verursacht laufende Kosten. Eine Azure Subscription ist erforderlich.
Welche Datenquellen in einer Policy inkludiert sind sollte überlegt sein. Pro 1.000 gescannte Bilder verrechnet Microsoft eine Gebühr, siehe Informationen zur Abrechnung. In einem PDF-Dokument zählt jede Seite als ein Bild.

NOTE

Bis zum 9. Juli sind die Scans kostenlos und es findet keine Abrechnung statt.

Konfiguration von Microsoft Syntex Pay-as-you-go

Seit Anfang 2023 gibt es mit Microsoft Syntex Pay-as-you-go eine Subscription zur Abrechnung von laufenden Kosten aus dem Syntex Portfolio. Für OCR können Organisationen zum aktuellen Zeitpunkt keine vollwertige Microsoft Syntex Lizenz einsetzen.
Syntex Pay-as-you-go ist von einer Azure Subscription abhängig und wird darüber abgerechnet. Im M365 Admin Center muss Microsoft Syntex für die Abrechnung mit einer Azure Subscription verknüpft sein. Die globale Konfiguration für Microsoft Syntex kannst du für OCR ignorieren. Microsoft will für den Scan der Bilder nur das Abrechnungskonto kennen. Beachte die Dokumentation für Hilfe zur ersten Konfiguration.

*Syntex Pay-as-you-go Abrechnung einrichten*

Konfiguration im M365 Compliance Portal

Für die Aktivierung der OCR Preview benötigt dein Konto im M365 Compliance Portal die Rolle Compliance Administrator. Beachte, selbst wenn dein Konto die Rolle Global Admin hat benötigt es zusätzlich die Compliance Rolle.
Öffne das M365 Compliance Portal > Roles & Scopes > Permissions > Microsoft Purview Solutions und füge dein Konto in die Rolle Compliance Administrator ein. Bis die Rechte aktiv sind kann es 24 Stunden dauern.

Aktivierung von OCR Preview

Öffne das M365 Compliance Portal > Settings und wähle die Option für Optical Character Recognition (OCR).

Hier musst du der Abrechnung über Syntex Pay-as-you-go zustimmen. Zusätzlich kannst du definieren für welche Produkte OCR aktiv sein soll.

Für die Produktaktivierung solltest du folgende Dinge beachten:

In dem Abschnitt aktivierst du für welche Produkte und Inhalte die OCR Preview aktiv sein soll. Neben der Aktivierung benötigt es immer noch eine Purview Policy aus einem der unterstützten Produkte, siehe Abschnitt über Einrichtung einer DLP Policy.
Planst du die Funktionen von OCR zu testen, solltest du die Produkte und Inhalte eingrenzen (siehe Info über Kostenüberblick).
Nachdem die OCR Preview aktiviert wurde scannen die Purview Produkte nur neu hochgeladene Bilder. Für bestehende Bilder zieht eine Policy nicht. Eventuell ändert es sich später noch.

Für meinen Test (und bezüglich Kosten) probiere ich die Preview nur für eine ausgewählte SharePoint Seite aus. Die Aktivierung von OCR sollte im Tenant nach 60 Minuten abgeschlossen sein.

Data Classifier einrichten

In meinem Test möchte ich OCR mit einer Data Loss Prevention (DLP) Policy testen. Laut Dokumentation werden Keywords aus einem Keyword Dictionary unterstützt. Ich erstelle mir daher im Compliance Portal als Sensitive Information Type ein neues (benutzerdefiniertes) Keyword Dictionary. In mein Dictionary füge ich als Test nur zwei Begriffe ein: Bier und Nasdaq
Laut Microsoft soll die OCR-Technik 150 Sprachen erkennen können. Die restlichen Konfigurationen im Dictionary kannst du nach deinen Präferenzen einrichten.

*Benutzerdefiniertes Keyword Dictionary einrichten*

DLP Policy einrichten

Für die Erstellung einer DLP Policy benötigt dein Konto eine der folgenden Rollen:

Compliance administrator
Compliance data administrator
Information Protection
Information Protection Admin

Zur Erinnerung, bis neue Berechtigungen aktiv sind dauert es wieder 24 Stunden.

Erstelle im Compliance Portal eine neue DLP Policy und wähle Custom Policy als Vorlage.
In Locations solltest du zumindest den Inhalt inkludieren, den du oben im Abschnitt für Aktivierung von OCR Preview angewählt hast. In meiner Simulation inkludiere ich zwei SharePoint Seiten. Eine inkludierte ich in der OCR-Aktivierung, die zweite Seite aktiviere ich als Test, ob OCR Bilder in der Seite scannt.

Im nächsten Schritt musst du zumindest eine DLP Rule erstellen. Der Rule gibst du einen Namen (der Name wird Mitarbeitenden bei einer Erkennung angezeigt).
Als Conditions wählst du Content contains > Sensitive info types und dein zuvor erstelltes Keyword Dictionary.

Zur Simulation wähle ich als Action den Zugriff zu blockieren.

Die restlichen Angaben in der Rule kannst du nach deinen Präferenzen einrichten.
In meiner Rule aktiviere ich noch einen Policy Tip als Information warum das Dokument blockiert wurde und Benachrichtigungen an mein Konto bei Erkennung von einem Match.
Speichere deine Rule und aktiviere die Policy.

DLP Policy mit Bildern testen

Ich suchte mir verschiedene OCR-Testbilder (in Deutsch und Englisch) und lade 6 neue Bilder in beide SharePoint Seiten hoch.

In der ersten SharePoint Seite (mit Aktivierung für OCR) findet die DLP Policy nach kurzer Zeit Begriffe aus dem Dictionary und symbolisiert es als Sensitive Information.
Über die Vorschau zeigt SharePoint es handelt sich um ein Bild mit Bier als Begriff. Der Policy Tip bestätigt es handelt sich um die zuvor konfigurierte DLP Policy. Über die neue OCR-Funktion hat die DLP Policy den Zugriff auf die Datei blockiert.

*Sensitive Information in Bild gefunden*

Eine Benachrichtigung per Mail bestätigt den Fund. In der Benachrichtigung wird der über OCR gefundene Text bestätigt.

In der zweiten SharePoint Seite (ohne Aktivierung für OCR) hat die DLP Policy nichts erkannt. Es wurde kein OCR Scan durchgeführt.