Voll bepackt

Die Anzahl an verfügbaren Frequenzen ist beschränkt. Jeder Telephonierer bekommt davon sowenig wie möglich. Damit man trotzdem Sprache übertragen kann, muß sie klein verpackt werden - und zwar so schnell wie möglich.

Bei GSM werden die analogen Signale des Gespräches digitalisiert und in Daten umgewandelt. Die Menge an Daten hängt von zwei Parametern ab: Bandbreite und Samplingrate. Die Bandbreite ist der Tonhöhenumfang, der beim menschlichen Gehör von 16 Hz bis 20 kHz reicht. Die Samplingrate gibt an, wie oft pro Sekunde eine Probe genommen wird. Dabei können aber ganz schön viele Daten zusammenkommen: Die Entwickler von Sprachcodierung unterscheiden drei Stufen der zu komprimierenden Signale: Telephonsignale mit einer Bandbreite von 0,3 - 3,4 kHz und einer Samplingrate von 8 kHz führen zu einer Datenrate von 64 kbit/s; Breitbandsprache (auch als Radioqualität bezeichnet) hat eine Bandbreite von 0,05 - 7 kHz und eine Samplingrate von 16 kHz, was zu einer Datenrate von 224 kbit/s führt; und schließlich allgemeine Audiosignale (auch als CD-Qualität bezeichnet) haben eine Bandbreite von 0 - 20 kHz (also den gesamten hörbaren Tonumfang) und eine Samplingrate zwischen 32 und 48 kHz. GSM stellt aber für jeden vollen Sprachkanal nur 22,8 kbit/s zur Verfügung. Das heißt, eine Kompression wird benötigt.

In Wirklichkeit sind es sogar noch weniger, da man, um gegen Ausfälle gesichert zu sein, Kontrollbits mitsendet, so daß das Handy, auch wenn ein Teil der Übertragung verloren geht, das gesamte Gespräch wiedergeben kann. Netto stehen in einem FR-Kanal 13 kbit/s zur Verfügung, und in einem HR-Kanal 7 kbit/s, in die man mit einem geeigneten Codec (wie die Sprachkomprimierungsprogramme genannt werden) die 64 kbit/s Sprachdaten hineinquetschen muß.

Der volle Kanal

Das ursprüngliche Konzept von GSM sah ein Gespräch pro vollem Sprachkanal vor. Das dabei verwendete Komprimierungsverfahren nennt sich RPE-LTP (Regular Pulse Excited LPC with Long Term Predictor) und wurde von der KBS-Forschungsgruppe der TU Berlin unter der Leitung von Jutta Degner entwickelt.

Die Basis ist ein LPC (Linear Prediction Codec = Codec mit linearer Vorhersage). Dieser Codec nimmt an, daß die Sprache durch einen Vierpolfilter hinreichend modelliert werden kann, dem eine Impulsquelle für die Vokale und eine Geräuschquelle für die Konsonanten zugeschaltet werden. Um aber von Impulsen und Geräuschen zu Sprache zu kommen, müssen die Filterkoeffizienten entsprechend abgestimmt werden. Dazu werden die mit dem Filter vorhergesagte Sprache und die tatsächliche Sprache (also das, was man in das Telephon hineinspricht) miteinander verglichen und aus dem Unterschied (über die Minimierung des mittleren quadratischen Fehlers) die Koeffizienten berechnet. An das andere Handy würde dann nicht die tatsächliche Sprache gesendet, sondern nur die Filterkoeffizienten, so daß am anderen Ende der Filter entsprechend eingestellt wird und wieder Sprache ausgibt. Leider sind die Filterkoeffizienten immer noch mehr als 13 kbit/s. Daher muß noch ein zweiter Filter her, der "Long Term Predictor" (= Langzeitvorhersager), der auf Grund der menschlichen Sprachmuster Vorhersagen trifft. Denn der menschliche Kehlkopf kann sich nicht beliebig schnell verändern, weswegen nach einem bestimmten Wellenmuster nur einige wenige andere Wellenmuster folgen können - beziehungsweise nach einem bestimmten Muster von Filterkoeffizienten nur einige wenige andere Muster von Filterkoeffizienten. Und wenn man dann nur den Unterschied zwischen den vorhergesagten Koeffizienten und den tatsächlichen Koeffizienten überträgt, so spart man wieder einiges an Daten ein.

Der letzte Teil von RPE-LTP ist das "Regular Pulse Excited" (regelmäßige Pulsanregung). Die Muster von Filterkoeffizienten beziehungsweise Unterschiede von Mustern, die übertragen werden, sind nämlich immer noch zu viele. Daher überträgt man nur den Index für eine Tabelle beziehungsweise ein "Codebuch", in dem diese Muster stehen. Es sind aber zu viele Muster, als daß der Chip im Handy diese Tabelle in Echtzeit durchsuchen könnte - wie es ja für ein Telephongespräch nötig ist - außer diese Tabelle hat ein bestimmtes Ordnungsmuster. Und RPE ist ein solches Ordnungsmuster, das es erlaubt, die Transformation von Sprache in komprimierte Daten in Echtzeit durchzuführen.

Doppelte Gesprächszahl

Mit der Weiterentwicklung der Mathematik wurden auch verbesserte Codecs möglich, die es gestatteten, auf einem GSM-Kanal zwei Gespräche zu übertragen. Von den Möglichkeiten, die sich zur Realisierung von Half-Rate-Kanälen boten, wählte die ETSI das Verfahren VSELP, das nur 5,6 kbit/s an Daten erfordert. Die benötigte Rechenleistung ist aber viermal so groß als bei RPE-LTP (auch bei GSM wird offenbar die Software genauso schnell größer, wie die Hardware schneller wird).

Der primäre Unterschied von VSELP und RPE-LTP ist die Indizierung des Codebuches, die hier mit VSE (Vector Sum Excited = Vektorsummenanregung) arbeitet. Durch das Arbeiten mit Vektoren beziehungsweise Vektorsummen statt regelmäßigen Pulsen werden gleichsam mehrere Indizes zugleich durcharbeitet, was die benötigte Rechenleistung erhöht, aber die zur Übertragung notwendigen Daten reduziert. Leider verliert bei dieser Methode die Sprachqualität ein wenig, wodurch sich HR nicht wirklich durchgesetzt hat.

"Kristallklare Handygespräche"

Eines der Probleme von Sprachübertragung via Funk sind immer Verluste durch Reflexionen an Gebäuden, Funklöcher und ähnliches. Gegen einige dieser Dinge hilft nur ein besseres Netz, aber anderen - bei denen nur einige Bits fehlen - kann man mit einem besseren Sprachcodec vorbeugen. Die Grundidee hinter EFR war es, die verbesserten Codecs zu nutzen, aber den ganzen Kanal zu verwenden. Das Resultat ist eine Sprachqualität, die FR überlegen ist, aber auch fünfmal soviel Rechenleistung benötigt.

Das Verfahren, das die ETSI für EFR angenommen hat, ist ACELP (Algebraic Code-Excited Linear Prediction), ein Verfahren, das mit 12,2 kbit/s auskommt, was etwas weniger ist als die 13 kbit/s von RPE-LTP, wodurch mehr Bits für die Korrektur von Sendeausfällen übrigbleiben. Das führt dazu, daß nicht nur die Sprachqualität besser ist als bei FR, sondern auch die Gesprächsabbrüche weniger werden.

ACELP ist eine Entwicklung der kanadischen Sherbrooke University, die gemeinsam mit der Firma Siprolab eine eigene Tochterfirma namens Siprolab Telecom gegründet hat, die die alleinigen Auswertungrechte an diesem Codec besitzt und die Lizenzen an die Handyhersteller vergibt. Außer für GSM EFR ist ACELP aber auch für TETRA FR und amerikanisches TDMA im Einsatz, und eine Variante namens CS-ACELP ist der neue Allzweckstandard G.729 der ITU, der für Festnetztelephonie, Videokonferenzen, Kanalmultiplex und anderes zum Einsatz kommen soll.

Zur technischen Seite sei angemerkt, daß die Basis dieses Codecs natürlich wieder eine lineare Vorhersage (Linear Prediction) der Sprache ist. Eine der Verbesserungen ist, daß neben der Vorhersage aufgrund der endlichen Variabilität des Kehlkopfes auch die Fehlerkorrektureigenschaften des Ohres mit berücksichtigt werden. Bestimmte Fehler im Kurzzeitspektrum des Filters werden zugelassen, da das Ohr eine Toleranz von bis zu 10 ms hat, während im Langzeitspektrum (Veränderungen in Zeitabschnitten größer als 10 ms) voll korrigiert wird. Dadurch kann ein guter Teil redundanter Daten eingespart werden, ohne daß man an Gesprächsqualität verlieren würde. Da man aber insgesamt fast gleich viele Daten verwendet wie FR, wird die Gesprächsqualität sogar besser. Ein weiterer Unterschied ist wiederum eine andere Indizierung der Filterkoeffizienten im Codebuch, diesmal über ein algebraisches Verfahren, das es erlaubt, in dem - wegen der besseren Sprachqualität notgedrungen größeren - Codebuch einen eindeutigen Index zu finden, der in Summe sogar etwas weniger Platz benötigt als der bei FR verwendete Index.

Klarer als Kristallklar

Die Entwicklung bleibt nicht stehen, und auch EFR ist nicht der Weisheit letzter Schluß. Die nächste Stufe der Entwicklung soll AMR sein, das mit einer reduzierten Bitrate in einen halben Kanal paßt, Platz für mehr Korrekturbits läßt, wodurch die Fehlerrate reduziert wird; aber trotzdem die selbe Sprachqualität wie EFR besitzt.

Die heißesten Kandidaten dafür sind derzeit allesamt Derivate von ACELP, die sich großteils nur durch die Verfahren zur Indizierung der Koeffiziententabelle unterscheiden, da an dem grundlegenden Verfahren nicht mehr viel geändert werden kann.

Die Universität Aachen hat gemeinsam mit Siemens VR-CELP (Variable Rate CELP) entwickelt, der mit 6,1 kbit/s für halbe und 13,3 kbit/s für ganze Kanäle ausgelegt ist, und eine dynamische Teilung der Bruttobitrate auf Quellcodierung und Kanalcodierung verwendet. Das Wort "dynamisch" bezieht sich dabei auf eine Anpassung je nachdem, wie die momentane Qualität des Übertragungskanals ist und welche Kanäle überhaupt zur Verfügung stehen. Denn während bei EFR alle Gespräche in FR-Kanälen stattfinden, muß ein für AMR geeignetes Verfahren auch für HR-Kanäle tauglich sein, da den Betreibern wieder einmal die Frequenzen in den Ballungszentren ausgehen. In Praxis heißt das, daß man einen ganzen Kanal zur Verfügung gestellt bekommt, wenn gerade wenige Leute telephonieren, aber nur einen halben, wenn mehr Verkehr ist, wobei diese Zuordnung mitten im Gespräch geändert werden kann. Um auch in halben Kanälen gute Sprachqualität zu bieten, hat man sich für VR-CELP außerdem eine neue Fehlerkorrektur basierend auf den Hochrechnungsalgorithmen ausgedacht, die auch bei Wahlprognosen verwendet werden.

Von der japanischen Firma NEC kommt MP-CELP (Multi Pulse based CELP), der mit einer Bitrate von 6,4 kbit/s etwas sperriger als VR-CELP ist, aber in HR-Kanälen die Qualität von FR und in FR-Kanälen die Qualität von EFR haben soll. Auch dieser Codec kann im Bedarfsfall automatisch zwischen HR- und FR-Kanal umschalten, verwendet aber keine Anpassung der Bruttobitrate, sondern der Zahl der Ausleseimpulse für das Codebuch. Die niedrige Bitrate wird durch eine Vektorquantisierung des Codebuches erreicht, die wie schon bei VSELP die Zahl der Parameter reduziert.

Insgesamt sind es elf Kandidaten, die sich aber nicht nur um AMR bewerben, sondern eigentlich schon um das Nachfolgesystem von GSM, nämlich UMTS. Und wer hier die Nase vorn hat, der kann an den Lizenzgebühren für die tatsächliche Umsetzung gut verdienen. Die Konferenzen, bei denen die verschiedenen Vorschläge begutachtet werden, sind derzeit noch im Laufen.

Nach dem Codec

Nachdem die Sprache nun digitalisiert und mit Hilfe des Codec komprimiert wurde, ist das Signal aber noch lange nicht bereit, ausgesendet zu werden. Wie wir gesehen haben, sind die Bitraten, die die Codecs ausgeben, kleiner als die Bitrate des Kanals. Der noch freie Platz wird nun für die sogenannte "Kanalcodierung" verwendet, mit der Übertragungsfehler korrigiert werden sollen. Das und die Verschlüsselung kommt in der nächsten Folge in Mobile Times 28 (>>).

Michael Köttl

Verwendete Abkürzungen

ACELP	Algebraic Code-Excited Linear Prediction
AMR	Adaptive MultiRate
EFR	Extended Full Rate
FR	Full Rate
HR	Half Rate
ETSI	European Telecommunications Standards Institute
ITU	International Telecommunications Union
KBS	Kommunikations- und BetriebsSysteme
LPC	Linear Prediction Codec
RPE-LTP	Regular Pulse Excited LPC with Long Term Predictor
TETRA	Trans-European Trunked Radio bzw. TErrestrial Trunked RAdio
UMTS	Universal Mobile Telephone System
VSELP	Vetor Sum Excited Linear Prediction