09.07.2019
Die EU-Richtlinie 2102 über den barrierefreien Zugang zu den Websites und mobilen Anwendungen öffentlicher Stellen wird durch eine Überwachungsmethodik begleitet. Was bedeutet in diesem Kontext die "Vereinfachte Überwachung"?
Hinweis 20. August 2019:
Ausgehend von diesem Artikel gibt es nun auch eine erweiterte englischsprachige Version: What could "simplified monitoring" of the implementation of the Web Accessibility Directive mean?
Die Überwachungsmethodik für die Web-Richtlinie 2102, die im Oktober 2018 als Durchführungsbeschluss (EU) 2018/1524 veröffentlicht wurde, bleibt eher allgemein. Es ist also noch unklar, wie die Überwachung im einzelnen aussehen wird. Die folgenden Überlegungen sollen einen Input für die Diskussion liefern.
Die Überwachungsmethodik wird zukünftig regelmäßig vom Bund und von den Ländern für eine Stichprobe von öffentlichen Websites und mobilen Apps durchgeführt. Sie hat zwei Teile: die „Vereinfachte Überwachungsmethode“ und die „Eingehende Überwachungsmethode“, die nur auf einen kleinen Teil der Stichprobe angewandt wird.
Bei der Zusammenstellung der Stichprobe für die Überwachung sollen verschiedene Kriterien berücksichtigt werden, z.B.
Die Größe der Stichprobe errechnet sich nach der Einwohnerzahl des EU-Mitglieds. Für Deutschland beträgt sie in den ersten zwei Jahren 1.715 Webangebote, ab dem dritten Jahr steigt die Anzahl auf 2.535 Webangebote. Diese verteilen sich auf den Bund und die Länder. 88 mobile Apps werden geprüft. All diese Angebote unterliegen der vereinfachten Überwachung. Nur eine Auswahl von 5% aus dieser Gesamtstichprobe (also 86 Webangebote in Jahr 1 und 2, 127 in den Folgejahren) werden eingehend geprüft.
Der erste Überwachungszeitraum für Webangebote läuft über zwei Jahre, von 1.1.2020 bis 22.12.2021. Die Überwachung für mobile Apps startet erst am 23. Juni 2021 und endet gleichfalls am 22.12.2021. Ab dann läuft die Überwachung jährlich.
Gemäß Anhang I des Durchführungsbeschluss (EU) 2018/1524 werden in der vereinfachten Überwachung neben der Startseite eine Anzahl von Seiten geprüft, die in einem angemessenen Verhältnis zur geschätzten Größe und zur Komplexität der Website stehen sollen. Es soll dann in dem „unter Verwendung automatisierter Tests größtmöglichen Maße“ geprüft werden, wie die folgenden Bedürfnisse der Nutzer bezüglich des barrierefreien Zugangs erfüllt werden:
Der vereinfachte Test hat also zwei Ziele:
Nicht alle Erfolgskriterien können und sollen also geprüft werden, sonst wäre es keine vereinfachte Überwachung. Der Aufwand soll möglichst gering, das Ergebnis aber aussagekräftig sein. Die Frage stellt sich, was das „größtmögliche Maß der Verwendung automatisierter Tests“ bedeutet, und inwieweit so eine automatische Prüfung den Zielen der vereinfachten Überwachung gerecht wird.
Die bisherigen Erfahrungen mit automatischen Überprüfungen haben gezeigt, dass Anbieter dazu neigen, ihre Angebote selektiv zu optimieren, wenn bekannt ist, welche Anforderungen geprüft werden (bzw. vom jeweiligen Tool automatisiert erfasst werden) und welche nicht. Das heißt, dass Aspekte, die sich bis heute nicht oder nur sehr unvollkommen automatisch prüfen lassen, ggf. unkorrigiert bleiben, da sie von der Überprüfung ja nicht erfasst werden. Der Durchführungsbeschluss (EU) 2018/1524 geht darauf nur unvollkommen ein, in dem er in Punkt 1.3.3 verlangt:
„Nach jeder Frist für die Vorlage eines Berichts gemäß Artikel 8 Absatz 4 der Richtlinie (EU) 2016/2102 überprüfen die Mitgliedstaaten die Testvorschriften für das vereinfachte Überwachungsverfahren.“
Eine Überprüfung ist nicht notwendiger Weise eine Veränderung, ein Wechsel der einbezogenen Erfolgskriterien und Testmethoden. Solch ein Wechsel entspricht aber dem Geist der Richtlinie. Denn zu befürchten ist, dass sonst in der vereinfachten Überwachung der Einfachheit halber immer nur jene Aspekte von Webinhalten geprüft werden, die sich automatisch prüfen lassen, auch wenn diese Prüfung bezogen auf das tatsächliche Ergebnis (ist das Erfolgskriterium erfüllt oder nicht?) notwendigerweise unvollständig ist.
Warum reicht eine formale Prüfung mittels automatisierter Tests nicht aus, wenn diese doch sicher Fälle von Nicht-Konformität identifizieren können? Die knappe Antwort ist: Weil sie andere, nicht-formale Fälle von Nichtkonformität nicht erkennen können und damit jene Angebote bevorzugen, die zwar formal korrekt, inhaltlich aber dennoch möglicherweise fehlerhaft umgesetzt sind.
Zur Erklärung: Bei einer Überprüfung eines Erfolgskriteriums wie 1.1.1 Nicht-Text können automatisierte Verfahren häufig nur Teilaspekte einer Anforderung überprüfen. So kann ein automatisierter Test ergeben, dass bei einem Bild ein alt-Attribut fehlt, das den Alternativtext liefern könnte. Das ist ein klares „FAIL“. In anderen Fällen jedoch, in denen ein alt-Attribut vorhanden ist, muss von Menschen geprüft werden, ob der Alternativtext sinnvoll ist, also etwa das Linkziel einer verlinkten Teasergrafik angibt oder eine Informationsgrafik sinnvoll beschreibt. Hier kann die automatische Prüfung allein die Nichtkonformität nicht feststellen.
Der Unterschied zwischen formalen und inhaltlichen Anforderungen zieht sich durch viele der WCAG-Erfolgskriterien. Formale Eigenschaften von Buttons, Textfeldern, Links oder HTML-Seitentiteln (Ist das Element benannt? Sind ARIA-Attribute hier valide? Nutzen sie erlaubte Werte?), lassen sich zwar automatisch überprüfen, aber es lässt sich nicht automatisiert feststellen, ob solche Elemente sinnvoll benannt und ihre Werte korrekt gesetzt sind. Eine valide Prüfung der meisten Erfolgskriterien wie 1.1.1 Nicht-Text-Inhalt, 1.2.2 Untertitel (aufgezeichnet), 2.4.2 Seite mit Titel versehen, 3.3.2 Beschriftungen (Labels) oder Anweisungen oder 4.1.2 Name, Rolle, Wert ist deshalb nicht ohne zusätzliche menschliche Prüfung machbar. Formale Fehler können zwar gefunden und Fälle von Nicht-Konformität aufgezeigt werden, aber auch sinnlose, irreführende oder obskure Beschriftungen, Überschriften, Seitentitel, Video-Untertitel usw. müssten eine Bewertung als nicht-konform nach sich ziehen, damit der Prüfansatz insgesamt valide ist. Diese Aspekte werden jedoch von automatisierten Tests ohne menschlichen Zusatztest gar nicht oder nur sehr unvollkommen erfasst.
Eine Methodik, die ausschließlich auf automatisierte Tests setzt und sich bei der Überprüfung der neun Bereiche damit zufrieden gibt, dass sich ja schließlich über Teilprüfungen in fast allen neun Bereichen Fälle von Nicht-Konformität feststellen lassen, verfehlt damit das ausdrücklich genannte Ziel der vereinfachten Überwachung, nämlich festzustellen, wie die genannten neun Bedürfnisse der Nutzer bezüglich des barrierefreien Zugangs erfüllt werden. Zu bedenken ist auch, dass es abhängig vom genutzten Tool häufig zu Falschergebnissen kommt: Ein Fehler wird angezeigt, bei näherer Überprüfung zeigt sich aber, dass kein Fehler vorliegt. Auch hier ist ein zusätzlicher Blick eines Menschen auf die Ergebnisse wichtig, um solche sogenannten „False Positives“ auszuscheiden.
Der einzige Grund, nur auf automatische Überprüfung zu setzen, wäre das Kostenargument: Eine rein automatische Prüfung von Teilaspekten ist unaufwändiger als ein Test, der für jede der neun Bereiche mindestens ein Erfolgskriterium vollständig prüft – aber er kann nicht valide feststellen, ob die neun Gruppen betroffen sind. Ein zweiter Grund zeichnet sich dann ab, wenn man den Nutzen der Überprüfung darauf reduziert, die formale Nicht-Konformität eines Angebotes festzustellen: Erfahrungsgemäß ist praktisch jedes Angebot an irgendeiner Stelle nicht-konform.
Ein Ziel der vereinfachten Überwachung ist die Generierung von Ergebnissen über alle EU-Mitgliedsstaaten hinweg. Dies spricht dafür, in einem Vergleichszeitraum jeweils die gleichen Erfolgskriterien zu überprüfen. Unklar ist, ob sich so eine Auswahl europaweit koordinieren ließe – uns sind bisher keine Anstrengungen in dieser Richtung bekannt. Wenn verschiedene Mitgliedsstaaten hier ohnehin eigene Wege beschreiten, wird die europaweite Vergleichbarkeit der jeweils geprüften Untergruppe von Erfolgskriterien der vereinfachten Überwachung sehr eingeschränkt sein. Besser sieht es aus mit den Ergebnissen der eingehenden Überwachung, da hier ja alle WCAG-Kriterien miteinbezogen werden müssen.
Wenn davon auszugehen ist, dass eine europaweite Vergleichbarkeit unrealistisch ist, besteht dennoch die Möglichkeit, auf Bundes- und Länderebene eine einheitliche Auswahl von Erfolgskriterien zu treffen, die alle neun funktionalen Einschränkungen berühren. Dies wird Aufgabe der neuen Überwachungsstelle des Bundes und der Länder sein.
Der Nachteil der Vereinheitlichung: Da kaum zu vermeiden ist, dass die Auswahl bekannt wird, könnten Anbieter selektiv optimieren, also sich vorrangig um die Barrieren kümmern, die geprüft werden. Andere Barrieren bleiben ggf. bestehen.
Das Ziel der Ausrichtung auf die Feststellung „Nicht-Konformität“ legt nahe, dass die Prüfung einer Seite gemäß eines bestimmten Prüfschritts nicht vollständig sein muss. Wenn der erste klare Mangel auf einer Seite gefunden ist, wird er dokumentiert und der Prüfschritt auf dieser Seite wird abgebrochen. Der Anspruch, vollständige Rückmeldungen zu den tatsächlichen Mängeln / Barrieren für Menschen mit Behinderung zu geben, ist ja mit dem vereinfachten Verfahren ohnehin nicht umsetzbar. Dennoch sind die begrenzten Ergebnisse valide in der Hinsicht, dass die Erfüllung des jeweiligen Erfolgskriteriums auf einer bestimmten Seite, an einer bestimmten Stelle, vollständig ist.
Es ist davon auszugehen, dass gefundene Mängel oft auch das Vorhandensein weiterer Mängel nahelegen. Für den Betreiber des Angebots wäre das Prüfergebnis zumindest ein erster Abriss von Barrieren über alle neun funktionellen Beeinträchtigungen hinweg.
Eine vereinfachte Überwachungsmethode kann auch Menschen mit Behinderung Gelegenheit bieten, in ihrer Nutzungsart jene Aspekte von funktionalen Einschränkungen zu testen, die für sie erfahrbar und überprüfbar sind. Andere Teammitglieder können Tests gegebenenfalls ergänzen.
Verschiedene Vorgehensweisen sind denkbar, wenn es um die Durchführung einer Prüfung im Rahmen der vereinfachten Überwachung geht. Was die neun funktionalen Einschränkungen angeht, müsste minimal ein Prüfschritt, der für die jeweilige Einschränkung relevant ist, einbezogen werden. Oft kommen mehrere in Betracht, die gleichermaßen wichtig sind. In vielen Fällen sind Mängel schnell zu erkennen. Hier sind folgende verschiedene Prüfansätze denkbar: