Wenn man sich aktuell mit Microsoft Teams Rooms beschäftigt, kommt man an Begriffen wie Multi-Stream IntelliFrame, Cloud IntelliFrame, Voice Recognition oder Face Recognition nicht mehr vorbei.
Das Problem: Alles klingt ähnlich. Alles hängt irgendwie zusammen. Und gefühlt braucht man für jede Funktion eine andere Kombination aus Lizenz, Hardware und Raumdesign.
Bevor wir also über „AI im Meetingraum“ sprechen, lasst uns erst einmal sauber trennen:
Welche Technologie macht was?
Was läuft im Gerät, was in der Cloud?
Und was bedeutet das konkret für eure Architektur?
Weiter geht’s mit der strukturierten Einordnung der einzelnen Technologien.
Microsoft Multi-Stream IntelliFrame
Multi-Stream IntelliFrame ist die „echte“ Hardware-Variante.
Technisch passiert Folgendes:
- Die Kamera erzeugt mehrere separate Videostreams (je Person ein eigener Stream).
- Diese Streams werden direkt an Teams übergeben.
- Microsoft setzt daraus das Layout im Meeting zusammen.
Rahmenbedingungen:
- Nur verfügbar auf Microsoft Teams Rooms on Windows (MTRoW)
- Teams Rooms Pro Lizenz erforderlich
- Nur mit speziell zertifizierten Kameras
- Sehr begrenzte Geräteauswahl
- HP Poly hat aktuell keine zertifizierte Multi-Stream Kamera
Im Zusammenspiel mit Face Recognition können erkannte Personen namentlich zugeordnet werden – sofern entsprechende Profile im Tenant existieren.
Wichtig: Multi-Stream ist die technisch sauberste Variante, weil jede Person ein eigenes natives Videobild erhält – kein Cropping.
Microsoft Cloud IntelliFrame
Cloud IntelliFrame ist die Alternative für Kameras ohne Multi-Stream-Funktion und eigene intelligente Framing Features..
Technik:
- Die Kamera sendet einen einzigen Videostream.
- Microsoft 365 analysiert diesen Stream.
- Gesichter werden serverseitig ausgeschnitten und als einzelne Tiles dargestellt.
Voraussetzungen:
- Auf Teams Rooms on Windows und Teams Rooms on Android verfügbar
- Teams Rooms Pro Lizenz
- eine stabile, vollständige Raumansicht
Technischer Unterschied zu Multi-Stream:
- Es gibt nur ein Ursprungsbild.
- Personen weiter von der Kamera entfernt wirken unschärfer.
- Die Qualität ist abhängig vom Ausgangs-Stream.
Cloud IntelliFrame kann ebenfalls mit Face Recognition kombiniert werden – wenn Profile vorhanden sind.
Microsoft Multi-Camera Multi-View
Hier geht es nicht um KI, sondern um mehrere physische Kameras im Raum.
Rahmenbedingungen:
- Nur auf MTRoW
- Teams Rooms Pro Lizenz
- Bis zu 4 Kameras unterstützt (in Abhängigkeit der Compute Hardware)
CPU-abhängige Stream-Anzahl:
| CPU | Anzahl Streams |
|---|---|
| Intel i3 | 1 |
| Intel i5 | 2 |
| Intel i7 (vor 13th Gen) | 3 |
| Intel i7 (13th Gen+) | 4 |
Ein Beispiel für 4 Streams ist ein MTRoW-PC mit aktueller i7-Generation.
Wichtig:
- Multi-Camera Multi-View und Face Recognition sind aktuell nicht gleichzeitig nutzbar.
- Bei aktivierter Multi-Camera-Funktion wird Face Recognition deaktiviert.
- Teams Desktop-Teilnehmer können mehrere Kamera-Streams sehen und zwischen diesen wechseln.
HP Poly DirectorAI – People Framing
Poly Studio X und Poly Studio G arbeiten mit DirectorAI.
Was DirectorAI macht:
- Lokale Verarbeitung direkt auf dem Gerät
- Bis zu 6 Frames werden erzeugt
- Am Ende wird ein einzelner Videostream an Teams übertragen
- Funktioniert unabhängig von der UC-Applikation
Wichtiger Unterschied:
DirectorAI ist kein Multi-Stream im Microsoft-Sinne.
Teams sieht nur einen Stream – nicht mehrere native Streams.
Sprechererkennung – was ist wirklich relevant?
Jetzt kommen wir zum Kern: Wer spricht – und wer steht im Transkript?
Voice Recognition
Voice Recognition ist heute die stabilere und praxistauglichere Funktion.
Unterstützt auf:
- MTRoW
- MTRoA
Voraussetzungen:
- Teams Rooms Pro Lizenz
- Meeting muss geplant sein
- Teilnehmer müssen eingeladen sein
- Jeder Benutzer braucht ein Voice Profile in M365
- Hauptzweck: Transkription und Sprecherzuordnung
Die Erkennung basiert auf hinterlegten Stimmprofilen im Tenant.

Face Recognition
Face Recognition ist aktuell stärker eingeschränkt.
Nur verfügbar auf:
- MTRoW
Voraussetzungen:
- Teams Rooms Pro Lizenz
- Meeting geplant
- Alle Teilnehmer eingeladen
- Face Profile setzt Voice Profile voraus
- Nicht kompatibel mit Multi-Camera Mode
Primärer Nutzen:
Namensanzeige im Raum und im Teams-Roster.
HP Poly All-in-One Geräte – was geht konkret?
Voice Recognition
- Studio X / G (MTRoA) → unterstützt
- Studio V / G (MTRoW) → unterstützt
Face Recognition
- Nur auf MTRoW
- Für optimale Ergebnisse sollte lokales Auto-Framing deaktiviert werden.
- Cloud IntelliFrame aktiviert
- Kein Multi-Camera Betrieb
Architektur-Fazit
Microsoft verfolgt 2 Ansätze:
- Multi-Stream = Hardware-basiert
- Cloud IntelliFrame = Cloud-basiert
Jede Variante hat ihren Platz – aber sie sind nicht frei kombinierbar.
Planung bedeutet daher:
- Lizenz zuerst definieren
- Danach Kamera-Architektur
- Dann Raumdesign
- Und erst ganz am Ende Feature-Aktivierung
Viele Projekte scheitern nicht an der Technik – sondern an falschen Annahmen über die Kombinierbarkeit der Funktionen.


