Für in SharePoint Site Collections gespeicherte Dateien können Administratoren seit 2023 Optical Character Recognition (OCR) aktivieren.
OCR kann aus verschiedenen Dateitypen handgeschriebenen Text oder Text in Bildern extrahieren und als lesbaren Text aufbereiten. Seit letztem Oktober unterstützt OCR auch Bilder in PDF-Dateien. Die Texte können Produkte wie Microsoft Purview oder eine Microsoft 365 Suche für weitere Zwecke nutzen.
Neu hat Microsoft OCR auf Dateien in OneDrive erweitert.
Bei OCR handelt es sich um ein SharePoint Premium Feature. Es wird, wie alles mit SharePoint Premium, über Syntex Pay-as-you-go (PAYG) abgerechnet.
Wie bei allen SharePoint Premium Features probiere ich es in der Praxis aus. In nutze die Erweiterung auf OneDrive für einen eigenen OCR-Praxistest. Generell ist OCR kein neues SharePoint Premium Feature. Neu ist die Ergänzung für OneDrive.
Content
Konfiguration von Optical Character Recognition
Syntex Pay-as-you-go einrichten
Für SharePoint Premium Features nicht mehr neu, wie üblich benötigt es die einmalige Konfiguration von Syntex pay-as-you-go (PAYG). Über die Azure Subscription rechnet SharePoint Premium all seine monatlichen Kosten ab. Du kannst den Schritt überspringen, wenn Syntex pay-as-you-go in der Vergangenheit für andere SharePoint Premium Features eingerichtet wurde.
Optical Character Recognition aktivieren
Ein Konto mit der Rolle SharePoint Administrator oder Global Administrator muss OCR im Microsoft 365 Admin Center aktivieren. Öffne das M365 Admin Center > Org settings > Pay-as-you-go services > Settings > Optical Character Recognition.
Neu findest du hier neben der Aktivierung von SharePoint Site Collections einen weiteren Abschnitt für OneDrive. Der OCR-Service kann zwischen SharePoint und OneDrive unabhängig aktiv oder inaktiv sein. Im Vergleich zu SharePoint wählst du für OneDrive statt Site Collections die Benutzerkonten oder Benutzergruppen aus.

Mehr Schritte sind für die Aktivierung nicht erforderlich. OCR ist nach wenigen Minuten für Konten und SharePoint Site Collections aktiviert.
Optical Character Recognition nutzen
SharePoint Premium wird nach der Konfiguration beginnen Texte aus Bildern und unterstützten Dateien zu extrahieren. Einen Einfluss welche Dateien hat weder ein Administrator noch der Benutzer. OCR analysiert alle unterstützten Dateitypen in den definierten OneDrive und SharePoint Site Collections. OCR lässt sich ausserdem nicht manuell pro Datei anstossen, wie es bei anderen SharePoint Premium Features bekannt ist.
- Jede neu hochgeladene oder bearbeitete Datei wird per OCR analysiert. Jede Bearbeitung startet den OCR-Prozess neu.
- Bestehende Dateien können von OCR unbearbeitet sein. In dem Fall kann es helfen die Datei entweder neu hochzuladen oder einmal zu bearbeiten.
- Kann OCR keinen Text extrahieren hast du Pech gehabt. Den Vorgang können weder Benutzer noch Administratoren beeinflussen. Es ist wie bei allen SharePoint Premium Features, es funktioniert oder funktioniert nicht. Microsoft Support wird auf die Dokumentation verweisen.
Die Limits solltest beachten:
- Images must be less than 50 MB.
- Images must be at least 50 x 50 pixels and not larger than 16,000 x 16,000 pixels.
- Images uploaded after OCR has been enabled are the only images that are scanned.
- Images that are embedded in Office documents aren’t supported.
OCR in SharePoint Site Collections
OCR extrahiert Texte in die Spalte “Extracted Text”. Zur Kontrolle solltest du die Spalte in deiner Dokumentenablage einblenden. In der Dokumentation vermerkt Microsoft es werden nicht alle Daten in der Spalte gespeichert.
When you apply OCR to an image file, the text is stored in the Extracted text metadata column. When you apply OCR to a PDF or TIFF file, the extracted text is indexed in search but not available in the metadata column.
ChatGPT hat mir einige Beispiele erstellt: Bilder und Dateien mit Rechnungen + andere Texte
In SharePoint Site Collection extrahiert OCR die Texte innerhalb einer Minute. In vielen Fällen erkennt OCR die Texte. In meinen Word und Excel Dateien sind nur Texte, keine Bilder. OCR extrahiert nur Texte aus Bildern in Office Dateien. Texte aus Office Dateien werden bereits mit Microsoft 365 Suche durchsucht. Die Texte in “Extracted Text” sind im Suchindex und können mit Microsoft Purview analysiert werden.

OCR in OneDrive for Business
Bei OCR in OneDrive ist deutlich erkennbar, es hat ein anderes Team entwickelt und sie sich keine Gedanken über die Implementierung gemacht. Aus meiner Beurteilung hatten sie den Auftrag OCR auf OneDrive zu erweitert. Hier endete ihr Auftrag.
- Das Team hat vergessen die Darstellung und Möglichkeiten einer Dokumentenablage in OneDrive unterscheiden sich zu der in SharePoint Site Collections.
- Das Team hat vergessen die extrahierten Texte in OneDrive darzustellen. Im Unterschied zu einer SharePoint Dokumentenablage können Benutzer in OneDrive keine Spalte manuell hinzufügen.
- OCR benötigt in OneDrive 24 Stunden für die Erkennung der Texte. Im Unterschied, bei SharePoint erfolgt der Vorgang innerhalb einer Minute.
So sieht eine OneDrive Ablage in der Standardkonfiguration mit OCR aus. Informationen aus OCR fehlen und können nicht angezeigt werden.

Als SharePoint Admin kenne ich Wege um die gesuchten Informationen über SharePoint Classic einzublenden. OneDrive inkludiert weiterhin den SharePoint Classic Mode.
Du kannst die von Microsoft vordefinierte Standardansicht in der Dokumentenablage nicht verändern, aber eine neue Ansicht erstellen. Ich erstellte mir manuell eine neue Ansicht. Statt “Extracted Text” nutzt Microsoft in OneDrive für die OCR-Spalte den internen Namen: MediaServiceOCR

In MediaServiceOCR sind die extrahierten Daten inkludiert. Es dauert 24 Stunden. Mit SharePoint Classic ist zumindest ein Test möglich, ob OCR in OneDrive funktioniert.
Vom produktiven Einsatz in OneDrive rate ich im aktuellen Entwicklungsstand ab. Wie immer ist alles rund um SharePoint Premium sehr intransparent und eine Blackbox.
Kosten von Optical Character Recognition
OCR in SharePoint und OneDrive wird pro analysierter Seite abgerechnet; jede Seite ist eine Transaktion, bei jeder Bearbeitung.
Optical Character Recognition
- The number of pages processed for images (JPEG, JPG, PNG, or BMP)
- the number of pages processed for PDF, TIF, or TIFF
- or the number of embedded images in Teams chats and email messages.
- Each of these counts as one transaction. Processing occurs every time the file is edited.
- $0.001/transaction
Auswertung der Kosten
Microsoft stellt in Azure weiterhin keinen kundenfreundlichen Bericht für Syntex PAYG zur Verfügung.

Durch meine Analyse von Januar kannst du die Kosten trotzdem auswerten.
# Get the PAYG costs from an Azure subscription
# PowerShell module Az.Billing is required: https://www.powershellgallery.com/packages/Az.Billing
Import-Module Az.Accounts, Az.Billing
# Define the Azure subscription ID and the resource group name
$AzureSubscriptionID = "<AzureSubscriptionID>"
$ResourceGroupName = "<ResourceGroupName>"
# Use an account or service principal with at least the Cost Management Reader role to connect
Connect-AzAccount -SubscriptionId $AzureSubscriptionID
# Define the current month as the time period for the cost report
$CurrentDate = Get-Date
$StartDate = (Get-Date -Year $CurrentDate.Year -Month $CurrentDate.Month -Day 1).ToString("yyyy-MM-dd")
$EndDate = Get-Date -format "yyyy-MM-dd"
# Get the cost details for the specified resource group and time period
$CostDetails = Get-AzConsumptionUsageDetail -ResourceGroup $ResourceGroupName -StartDate $StartDate -EndDate $EndDate -IncludeMeterDetails -IncludeAdditionalProperties -Expand MeterDetails
$CostDetails | select ConsumedService,InstanceName,Product,UsageQuantity,PretaxCost,Currency,IsEstimated,Tags,UsageStart,UsageEnd,AdditionalInfo | sort UsageStart
Das Ergebnis inkludiert das Datum, den Verbrauch und welche Site Collection. OneDrive wurde erst am 18. April durchgeführt und fehlt noch in der Liste.
