Informationen aus SharePoint Dokumenten extrahieren

Im November 2024 hat Microsoft für SharePoint Premium ein neues vordefiniertes Modell (Prebuilt Model) angekündigt: Simple Document

The simple document processing model offers a flexible, pretrained solution for extracting key-value pairs, selection marks, and named entities from basic structured documents. Unlike other prebuilt models with fixed schemas, this model can identify keys that others might miss, providing a valuable alternative to custom model labeling and training. This model also supports barcodes and language detection.

Das neue Modell sollte mittlerweile globar verfügbar sein.
Mit dem neuen Modell stellt Microsoft nun fünf vordefinierte Modelle bereit:

  • Verträge (Contracts)
  • Rechnungen (Invoices)
  • Quittungen (Receipts)
  • Sensible Informationen (Sensitive Information)
  • Einfache Dokumente (Simple Documents)

Diese Modelle können für Organisationen nützlich sein, weil Syntex für andere Produkte wie Microsoft Purview, Power Automate, Microsoft Search,… die extrahierten Informationen für Folgeaufgaben aufbereitet und als lesbare Metadaten erfasst.

Simple Documents unterstützt aktuell die Dateiformate .bmp, .jpeg, .pdf, .png und .tiff, weitere Formate sollen folgen.
Mit dem Modell kann SharePoint mithilfe von OCR automatisch allgemeine Informationen aus Dateien extrahieren und die Informationen als Metadaten in einer SharePoint Dokumentenablage erfassen. Zudem soll das Modell erkennen in welcher Sprache ein Dokument erstellt wurde (bis zu 100 Sprachen). Beachte Limitationen für das Simple Document Modell.

Das Simple Documents Modell kann folgende Informationen im Dokument auswerten:

  • Key-value pairs – Think of these like labels and their corresponding information, such as “Name: Adele Vance.”
  • Selection marks – These are checkboxes or other marks that indicate choices or selections in a document.
  • Named entities – These are specific items like names of people, places, or organizations mentioned in the text of a document.
  • Barcodes – These are machine-readable representations of data that can be used for tracking or identification purposes in a document.

Für einen Test probierte ich das neue Modell aus.
Alle Dokumente und Daten wurden von ChatGPT zufallsmässig erstellt und in drei Sprachen exportiert.

Hast du die Schritte zur Konfiguration von Prebuilt Models bereits in der Vergangenheit für Syntex eingerichtet, kannst du diese überspringen und mit der Modellerstellung fortfahren.

Konfiguration von Prebuilt Models in SharePoint

1) Syntex pay-as-you-go

Wie üblich benötigen Syntex / SharePoint Premium Features zuerst die einmalige Konfiguration von Syntex pay-as-you-go. Über die Azure Subscription rechnet SharePoint Premium all seine monatlichen Kosten ab. Du kannst den Schritt überspringen, wenn Syntex pay-as-you-go in der Vergangenheit für andere SharePoint Premium Features eingerichtet wurde.

2) SharePoint Content Center

Für Prebuilt Models ist ein Content Center erforderlich. Im Content Center findet die organisationsweite Modellerstellung und das Training statt. Ein Content Center ist eine von Microsoft vordefinierte SharePoint Site Collection.

  • Enterprise Content Center
    Das Enterprise Content Center ist ein organisationsweites Content Center. In einem Enterprise Content Center erstellen und trainieren berechtigte Personen zentral die von Microsoft vordefinierten Modelle und weisen die Modelle einer SharePoint Dokumentenablagen zu. Die hier aktualisierten Modelle werden später von SharePoint an die verknüpften Dokumentenablagen publiziert.
  • Lokales Content Center
    Ein lokales Content Center bezieht sich auf eine definierte Site Collection. Modelle sind nur für Dokumentenablagen in dieser Site Collection verfügbar.

Microsoft beschreibt die Erstellung von einem Content Center.
SharePoint Administratoren können eines oder mehrere Content Center erstellen, es kann jedoch nur ein Standard Content Center geben. Das erste erstellte Content Center definiert Syntex als Standard Content Center. Das erste Content Center sollte ein Enterprise Content Center sein.

3) Prebuilt Models freischalten

Im M365 Admin Center aktivieren Konten mit der Rolle Global Admin oder SharePoint Admin Prebuilt Models und geben das Modell für Site Collections frei. Beachte, du musst das Content Center selbst ebenfalls für die Erstellung von Prebuilt Models freigeben.

Content Center für Modellerstellung freigeben
Content Center für Modellerstellung freigeben


Erstellung und Training von Simple Document Modell

1) Modellerstellung

Öffne das Enterprise Content Center, dann in der Navigation Models. Erstelle ein neues Modell und wähle “Simple document processing”.

Neues Simple Document Processing Modell erstellen
Neues Simple Document Processing Modell erstellen

Im nächsten Schritt informiert das Modell welche Informationen es allgemein exportieren kann.

Neues Simple Document Processing Modell erstellen
Neues Simple Document Processing Modell erstellen

Du definierst für das Modell einen Namen, Beschreibung und erstellst das Modell. Zusätzlich kannst du weitere Standardkonfigurationen für vorkonfigurierten Content Type, Sensitivity oder Retention Labels setzen. Das Modell könnte dadurch Daten automatisch klassifizieren und eine Vorhaltezeit definieren.

Neues Simple Document Processing Modell erstellen
Neues Simple Document Processing Modell erstellen
2) Modelltraining

Nach der Modellerstellung öffnet sich das Models Center mit vier Abschnitten. Praktisch führt das Models Center durch alle Schritte. Microsoft beschreibt alle Schritte.
Im Models Center führen berechtigte Personen mit bestehenden Dokumenten das Training des Modells durch, definieren ob die Spracherkennung aktiv ist, welche Daten jemand extrahieren möchte und veröffentlichen das neue Modell an ausgewählte Ablagen in SharePoint.
Je mehr Beispiele jemand bereitstellt, desto besser soll SharePoint die Daten später erkennen können. Es sollten zumindest fünf Beispiele sein.

Nach dem Training wird das Modell an eine SharePoint Dokumentenablage zugewiesen. Die Ablage kann das neu erstellte Modell nutzen und wird zukünftige Änderungen am Modell übernehmen.

Modell an SharePoint Dokumentenablage zuweisen
Modell an SharePoint Dokumentenablage zuweisen

Beachte, für die Zuweisung muss die Site Collection für Prebuilt Models freigeschalten sein, siehe Abschnitt 3) Prebuilt Models freischalten. Andernfalls informiert SharePoint die Site Collection sei nicht berechtigt ein Modell einzusetzen.

Site Collection für Prebuild Models freischalten
Site Collection für Prebuild Models freischalten

Für meine Tests mit Prebuilt Models erstellte ich mir eine neue Ablage und weise das Modell dieser Ablage zu.

Zuweisen des Modells an eine SharePoint Dokumentenablage
Zuweisen des Modells an eine SharePoint Dokumentenablage

Informationen aus SharePoint Dokumenten extrahieren

Nachdem das Modell der SharePoint Dokumentenablage zugewiesen wurde, ist in der Ablage eine neue Option “Classify and extract” verfügbar. Die Option zeigt welche Modelle zugewiesen sind.

"Classify and extract" signalisiert die Ablage nutzt ein Syntex Modell
“Classify and extract” signalisiert die Ablage nutzt ein Syntex Modell

Es ist es möglich in einer Ablage mehrere Modelle einzusetzen.

Mehrere Syntex Modelle in einer Ablage
Mehrere Syntex Modelle in einer Ablage

In der Praxis ist es unübersichtlich und unkontrollierbar. Syntex informiert eine Person hat auf die Modelle in der Ablage keinen Einfluss.

A model is already applied to this library. When you apply more than one, Syntex chooses how to process each file.

Mit dem zugewiesenen Modell gilt:

  • Für bestehende Dokumente muss jemand Classify and extract manuell ausführen. Du markierst die gewünschten Dokumente und wählst die Option im Menü.
  • Neu hochgeladene Dokumente analysiert SharePoint selbstständig.

Die Analyse kann bis zu 30 Minuten dauern. Während meiner Tests dauert es jeweils weniger als eine Minute.

Das Resultat ist gemischt.

Für Dokumente in einer Sprache
Es funktioniert sehr gut. Das Modell extrahiert praktisch alle konfigurierten Daten.

Simple Document Processing mit Dokumenten in einer Sprache
Simple Document Processing mit Dokumenten in einer Sprache

Für Dokumente in unterschiedlichen Sprachen
Es funktioniert nicht konstant. Das Modell wertet jeweils nur einige Daten aus. Die Sprache der Dokumente kann es immer zuordnen.

Simple Document Processing mit Dokumenten in mehreren Sprachen
Simple Document Processing mit Dokumenten in mehreren Sprachen

Eine Option ist pro Sprache ein Modell zu erstellen und Dokumente pro Sprache in unterschiedlichen Dokumentenablagen zu speichern. So kannst du das Modell jeweils einer anderen Ablage zuordnen.


Für einen Test probierte ich beide Modelle in einer Ablage.

Simple Document Processing für mehrere Sprachen
Simple Document Processing für mehrere Sprachen

Auch in dem Fall ist das Ergebnis für die unterschiedlichen Sprachen nicht besser.

Ergebnis wird dadurch nicht besser
Ergebnis wird dadurch nicht besser


Kosten von Prebuilt Models in SharePoint

Die Erstellung, Bearbeitung und das Training von Modellen im Content Center wird nicht verrechnet. Für Prebuilt Models notiert Microsoft in den Kosten.

$0.01/transaction
The number of pages processed for PDF or image files. Each of these counts as one transaction. You won’t be charged for model training. You’re charged for processing whether or not there’s a positive classification, or any entities extracted.

Processing occurs on document upload and on subsequent updates. Processing is counted for each model applied. For example, if you have two models applied to a library and you upload or update a five-page document in that library, the total pages processed is 10.

Bis Juni 2025 ermöglicht eine Promotion ausgewählte SharePoint Premium Features zu testen. Für Prebuilt Models sind die ersten 100 Seiten pro Monat inkludiert.

Share
Avatar-Foto

Tobias Asböck

Tobias ist ein Senior System Engineer mit rund 10 Jahren Berufserfahrung für Microsoft 365 Produkte wie SharePoint Online, OneDrive for Business, Teams Collaboration, Entra ID, Information Protection, Universal Print und Microsoft 365 Lizenzierung. Aus der Vergangenheit kennt er über einen Zeitraum von 15+ Jahren die Planung, Administration und den Betrieb von SharePoint Server Umgebungen. Tobias ist ein PowerShell Scripter mit Zertifizierungen für Microsoft 365 Produkte. In seiner Freizeit beschäftigt sich Tobias mit Aktualisierungen in der M365-Welt, ist mit seinem Rennvelo unterwegs und anderen sportlichen Aktivitäten beschäftigt. Bei Fragen kontaktiere mich über LinkedIn oder [email protected].

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert