Im November 2024 hat Microsoft für SharePoint Premium ein neues vordefiniertes Modell (Prebuilt Model) angekündigt: Simple Document
The simple document processing model offers a flexible, pretrained solution for extracting key-value pairs, selection marks, and named entities from basic structured documents. Unlike other prebuilt models with fixed schemas, this model can identify keys that others might miss, providing a valuable alternative to custom model labeling and training. This model also supports barcodes and language detection.
Das neue Modell sollte mittlerweile globar verfügbar sein.
Mit dem neuen Modell stellt Microsoft nun fünf vordefinierte Modelle bereit:
- Verträge (Contracts)
- Rechnungen (Invoices)
- Quittungen (Receipts)
- Sensible Informationen (Sensitive Information)
- Einfache Dokumente (Simple Documents)
Diese Modelle können für Organisationen nützlich sein, weil Syntex für andere Produkte wie Microsoft Purview, Power Automate, Microsoft Search,… die extrahierten Informationen für Folgeaufgaben aufbereitet und als lesbare Metadaten erfasst.
Simple Documents unterstützt aktuell die Dateiformate .bmp, .jpeg, .pdf, .png und .tiff, weitere Formate sollen folgen.
Mit dem Modell kann SharePoint mithilfe von OCR automatisch allgemeine Informationen aus Dateien extrahieren und die Informationen als Metadaten in einer SharePoint Dokumentenablage erfassen. Zudem soll das Modell erkennen in welcher Sprache ein Dokument erstellt wurde (bis zu 100 Sprachen). Beachte Limitationen für das Simple Document Modell.
Das Simple Documents Modell kann folgende Informationen im Dokument auswerten:
- Key-value pairs – Think of these like labels and their corresponding information, such as “Name: Adele Vance.”
- Selection marks – These are checkboxes or other marks that indicate choices or selections in a document.
- Named entities – These are specific items like names of people, places, or organizations mentioned in the text of a document.
- Barcodes – These are machine-readable representations of data that can be used for tracking or identification purposes in a document.
Für einen Test probierte ich das neue Modell aus.
Alle Dokumente und Daten wurden von ChatGPT zufallsmässig erstellt und in drei Sprachen exportiert.
Content
Hast du die Schritte zur Konfiguration von Prebuilt Models bereits in der Vergangenheit für Syntex eingerichtet, kannst du diese überspringen und mit der Modellerstellung fortfahren.
Konfiguration von Prebuilt Models in SharePoint
1) Syntex pay-as-you-go
Wie üblich benötigen Syntex / SharePoint Premium Features zuerst die einmalige Konfiguration von Syntex pay-as-you-go. Über die Azure Subscription rechnet SharePoint Premium all seine monatlichen Kosten ab. Du kannst den Schritt überspringen, wenn Syntex pay-as-you-go in der Vergangenheit für andere SharePoint Premium Features eingerichtet wurde.
2) SharePoint Content Center
Für Prebuilt Models ist ein Content Center erforderlich. Im Content Center findet die organisationsweite Modellerstellung und das Training statt. Ein Content Center ist eine von Microsoft vordefinierte SharePoint Site Collection.
- Enterprise Content Center
Das Enterprise Content Center ist ein organisationsweites Content Center. In einem Enterprise Content Center erstellen und trainieren berechtigte Personen zentral die von Microsoft vordefinierten Modelle und weisen die Modelle einer SharePoint Dokumentenablagen zu. Die hier aktualisierten Modelle werden später von SharePoint an die verknüpften Dokumentenablagen publiziert.
- Lokales Content Center
Ein lokales Content Center bezieht sich auf eine definierte Site Collection. Modelle sind nur für Dokumentenablagen in dieser Site Collection verfügbar.
Microsoft beschreibt die Erstellung von einem Content Center.
SharePoint Administratoren können eines oder mehrere Content Center erstellen, es kann jedoch nur ein Standard Content Center geben. Das erste erstellte Content Center definiert Syntex als Standard Content Center. Das erste Content Center sollte ein Enterprise Content Center sein.
3) Prebuilt Models freischalten
Im M365 Admin Center aktivieren Konten mit der Rolle Global Admin oder SharePoint Admin Prebuilt Models und geben das Modell für Site Collections frei. Beachte, du musst das Content Center selbst ebenfalls für die Erstellung von Prebuilt Models freigeben.
Erstellung und Training von Simple Document Modell
1) Modellerstellung
Öffne das Enterprise Content Center, dann in der Navigation Models. Erstelle ein neues Modell und wähle “Simple document processing”.
Im nächsten Schritt informiert das Modell welche Informationen es allgemein exportieren kann.
Du definierst für das Modell einen Namen, Beschreibung und erstellst das Modell. Zusätzlich kannst du weitere Standardkonfigurationen für vorkonfigurierten Content Type, Sensitivity oder Retention Labels setzen. Das Modell könnte dadurch Daten automatisch klassifizieren und eine Vorhaltezeit definieren.
2) Modelltraining
Nach der Modellerstellung öffnet sich das Models Center mit vier Abschnitten. Praktisch führt das Models Center durch alle Schritte. Microsoft beschreibt alle Schritte.
Im Models Center führen berechtigte Personen mit bestehenden Dokumenten das Training des Modells durch, definieren ob die Spracherkennung aktiv ist, welche Daten jemand extrahieren möchte und veröffentlichen das neue Modell an ausgewählte Ablagen in SharePoint.
Je mehr Beispiele jemand bereitstellt, desto besser soll SharePoint die Daten später erkennen können. Es sollten zumindest fünf Beispiele sein.
Nach dem Training wird das Modell an eine SharePoint Dokumentenablage zugewiesen. Die Ablage kann das neu erstellte Modell nutzen und wird zukünftige Änderungen am Modell übernehmen.
Beachte, für die Zuweisung muss die Site Collection für Prebuilt Models freigeschalten sein, siehe Abschnitt 3) Prebuilt Models freischalten. Andernfalls informiert SharePoint die Site Collection sei nicht berechtigt ein Modell einzusetzen.
Für meine Tests mit Prebuilt Models erstellte ich mir eine neue Ablage und weise das Modell dieser Ablage zu.
Informationen aus SharePoint Dokumenten extrahieren
Nachdem das Modell der SharePoint Dokumentenablage zugewiesen wurde, ist in der Ablage eine neue Option “Classify and extract” verfügbar. Die Option zeigt welche Modelle zugewiesen sind.
Es ist es möglich in einer Ablage mehrere Modelle einzusetzen.
In der Praxis ist es unübersichtlich und unkontrollierbar. Syntex informiert eine Person hat auf die Modelle in der Ablage keinen Einfluss.
A model is already applied to this library. When you apply more than one, Syntex chooses how to process each file.
Mit dem zugewiesenen Modell gilt:
- Für bestehende Dokumente muss jemand Classify and extract manuell ausführen. Du markierst die gewünschten Dokumente und wählst die Option im Menü.
- Neu hochgeladene Dokumente analysiert SharePoint selbstständig.
Die Analyse kann bis zu 30 Minuten dauern. Während meiner Tests dauert es jeweils weniger als eine Minute.
Das Resultat ist gemischt.
Für Dokumente in einer Sprache
Es funktioniert sehr gut. Das Modell extrahiert praktisch alle konfigurierten Daten.
Für Dokumente in unterschiedlichen Sprachen
Es funktioniert nicht konstant. Das Modell wertet jeweils nur einige Daten aus. Die Sprache der Dokumente kann es immer zuordnen.
Eine Option ist pro Sprache ein Modell zu erstellen und Dokumente pro Sprache in unterschiedlichen Dokumentenablagen zu speichern. So kannst du das Modell jeweils einer anderen Ablage zuordnen.
Für einen Test probierte ich beide Modelle in einer Ablage.
Auch in dem Fall ist das Ergebnis für die unterschiedlichen Sprachen nicht besser.
Kosten von Prebuilt Models in SharePoint
Die Erstellung, Bearbeitung und das Training von Modellen im Content Center wird nicht verrechnet. Für Prebuilt Models notiert Microsoft in den Kosten.
$0.01/transaction
The number of pages processed for PDF or image files. Each of these counts as one transaction. You won’t be charged for model training. You’re charged for processing whether or not there’s a positive classification, or any entities extracted.Processing occurs on document upload and on subsequent updates. Processing is counted for each model applied. For example, if you have two models applied to a library and you upload or update a five-page document in that library, the total pages processed is 10.
Bis Juni 2025 ermöglicht eine Promotion ausgewählte SharePoint Premium Features zu testen. Für Prebuilt Models sind die ersten 100 Seiten pro Monat inkludiert.
Hinweis zu Kosten
Der obligatorische Hinweis zu allen SharePoint Premium Features und Kosten.
Microsoft bietet nach wie vor keine Kostenkontrolle für SharePoint Premium Features. Einmal eingerichtet, nutzen alle SharePoint Premium Features eine gemeinsame Azure Subscription. Es ist nicht möglich ein monatliches Kostenlimit festzulegen. In der Praxis ist SharePoint Premium ein finanzielles Fass ohne Boden. Microsoft weist in den Syntex Lizenzbedingungen darauf hin, dass Organisationen die Azure Subscription von Syntex trennen sollten, um die Kosten zu stoppen.