IntelliFrame, Multistream, Voice Recognition Face Recognition – was steckt wirklich dahinter?

Wenn man sich aktuell mit Microsoft Teams Rooms beschäftigt, kommt man an Begriffen wie Multi-Stream IntelliFrame, Cloud IntelliFrame, Voice Recognition oder Face Recognition nicht mehr vorbei.

Das Problem: Alles klingt ähnlich. Alles hängt irgendwie zusammen. Und gefühlt braucht man für jede Funktion eine andere Kombination aus Lizenz, Hardware und Raumdesign.

Bevor wir also über „AI im Meetingraum“ sprechen, lasst uns erst einmal sauber trennen:
Welche Technologie macht was?
Was läuft im Gerät, was in der Cloud?
Und was bedeutet das konkret für eure Architektur?

Weiter geht’s mit der strukturierten Einordnung der einzelnen Technologien.

Microsoft Multi-Stream IntelliFrame

Multi-Stream IntelliFrame ist die „echte“ Hardware-Variante.

Quelle: https://techcommunity.microsoft.com/blog/microsoftteamsblog/a-deep-dive-into-intelligent-cameras-multi-stream-and-cloud-intelliframe-for-tea/3915387

Technisch passiert Folgendes:

  • Die Kamera erzeugt mehrere separate Videostreams (je Person ein eigener Stream).
  • Diese Streams werden direkt an Teams übergeben.
  • Microsoft setzt daraus das Layout im Meeting zusammen.

Rahmenbedingungen:

  • Nur verfügbar auf Microsoft Teams Rooms on Windows (MTRoW)
  • Teams Rooms Pro Lizenz erforderlich
  • Nur mit speziell zertifizierten Kameras
  • Sehr begrenzte Geräteauswahl
  • HP Poly hat aktuell keine zertifizierte Multi-Stream Kamera

Im Zusammenspiel mit Face Recognition können erkannte Personen namentlich zugeordnet werden – sofern entsprechende Profile im Tenant existieren.

Wichtig: Multi-Stream ist die technisch sauberste Variante, weil jede Person ein eigenes natives Videobild erhält – kein Cropping.

Weitere Infos


Microsoft Cloud IntelliFrame

Quelle: https://techcommunity.microsoft.com/blog/microsoftteamsblog/a-deep-dive-into-intelligent-cameras-multi-stream-and-cloud-intelliframe-for-tea/3915387

Cloud IntelliFrame ist die Alternative für Kameras ohne Multi-Stream-Funktion und eigene intelligente Framing Features..

Technik:

  • Die Kamera sendet einen einzigen Videostream.
  • Microsoft 365 analysiert diesen Stream.
  • Gesichter werden serverseitig ausgeschnitten und als einzelne Tiles dargestellt.

Voraussetzungen:

  • Auf Teams Rooms on Windows und Teams Rooms on Android verfügbar
  • Teams Rooms Pro Lizenz
  • eine stabile, vollständige Raumansicht

Technischer Unterschied zu Multi-Stream:

  • Es gibt nur ein Ursprungsbild.
  • Personen weiter von der Kamera entfernt wirken unschärfer.
  • Die Qualität ist abhängig vom Ausgangs-Stream.

Cloud IntelliFrame kann ebenfalls mit Face Recognition kombiniert werden – wenn Profile vorhanden sind.

Weitere Infos


Microsoft Multi-Camera Multi-View

Hier geht es nicht um KI, sondern um mehrere physische Kameras im Raum.

Rahmenbedingungen:

  • Nur auf MTRoW
  • Teams Rooms Pro Lizenz
  • Bis zu 4 Kameras unterstützt (in Abhängigkeit der Compute Hardware)

CPU-abhängige Stream-Anzahl:

CPUAnzahl Streams
Intel i31
Intel i52
Intel i7 (vor 13th Gen)3
Intel i7 (13th Gen+)4
https://learn.microsoft.com/en-us/microsoftteams/rooms/multicamera-view?utm_source=chatgpt.com

Ein Beispiel für 4 Streams ist ein MTRoW-PC mit aktueller i7-Generation.

Wichtig:

  • Multi-Camera Multi-View und Face Recognition sind aktuell nicht gleichzeitig nutzbar.
  • Bei aktivierter Multi-Camera-Funktion wird Face Recognition deaktiviert.
  • Teams Desktop-Teilnehmer können mehrere Kamera-Streams sehen und zwischen diesen wechseln.

Weitere Infos


HP Poly DirectorAI – People Framing

Poly Studio X und Poly Studio G arbeiten mit DirectorAI.

Was DirectorAI macht:

  • Lokale Verarbeitung direkt auf dem Gerät
  • Bis zu 6 Frames werden erzeugt
  • Am Ende wird ein einzelner Videostream an Teams übertragen
  • Funktioniert unabhängig von der UC-Applikation

Wichtiger Unterschied:

DirectorAI ist kein Multi-Stream im Microsoft-Sinne.
Teams sieht nur einen Stream – nicht mehrere native Streams.


Sprechererkennung – was ist wirklich relevant?

Jetzt kommen wir zum Kern: Wer spricht – und wer steht im Transkript?

Voice Recognition
Voice Recognition ist heute die stabilere und praxistauglichere Funktion.

Unterstützt auf:

  • MTRoW
  • MTRoA

Voraussetzungen:

  • Teams Rooms Pro Lizenz
  • Meeting muss geplant sein
  • Teilnehmer müssen eingeladen sein
  • Jeder Benutzer braucht ein Voice Profile in M365
  • Hauptzweck: Transkription und Sprecherzuordnung

Die Erkennung basiert auf hinterlegten Stimmprofilen im Tenant.

Quelle: https://learn.microsoft.com/en-us/microsoftteams/rooms/voice-recognition

Face Recognition
Face Recognition ist aktuell stärker eingeschränkt.

Nur verfügbar auf:

  • MTRoW

Voraussetzungen:

  • Teams Rooms Pro Lizenz
  • Meeting geplant
  • Alle Teilnehmer eingeladen
  • Face Profile setzt Voice Profile voraus
  • Nicht kompatibel mit Multi-Camera Mode

Primärer Nutzen:
Namensanzeige im Raum und im Teams-Roster.


HP Poly All-in-One Geräte – was geht konkret?

Voice Recognition

  • Studio X / G (MTRoA) → unterstützt
  • Studio V / G (MTRoW) → unterstützt

Face Recognition

  • Nur auf MTRoW
  • Für optimale Ergebnisse sollte lokales Auto-Framing deaktiviert werden.
  • Cloud IntelliFrame aktiviert
  • Kein Multi-Camera Betrieb


Architektur-Fazit

Microsoft verfolgt 2 Ansätze:

  • Multi-Stream = Hardware-basiert
  • Cloud IntelliFrame = Cloud-basiert

Jede Variante hat ihren Platz – aber sie sind nicht frei kombinierbar.

Planung bedeutet daher:

  • Lizenz zuerst definieren
  • Danach Kamera-Architektur
  • Dann Raumdesign
  • Und erst ganz am Ende Feature-Aktivierung

Viele Projekte scheitern nicht an der Technik – sondern an falschen Annahmen über die Kombinierbarkeit der Funktionen.


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

The maximum upload file size: 128 MB. You can upload: image. Links to YouTube, Facebook, Twitter and other services inserted in the comment text will be automatically embedded. Drop file here