Twitter in der Sidebar = Suchmaschinenproblem

16 02 2009

Scheiße. Ich binde in der Sidebar u.a. meine letzten identi.ca Dents ein, was an sich ne schöne Sache ist. Ich tue das nicht beim Nutzer mit einem JavaScript, sondern hole die bei Bedarf alle zehn Minuten aktualisiert mit PHP ab und binde sie direkt in meine Seite ein. Soweit so gut, alle wären zufrieden, wenn nicht… ja wenn ich nicht plötzlich in unpassenden Google-Treffern ertrinken würde. Was ist hier passiert?

Google indiziert gelegentlich mein Blog und nimmt alle vorgefundenen Inhalte (ausgenommen die in der robots.txt ausgeschlossenen Kategorien- und Tagseiten) in seinen Index auf. Leider passiert das auch mit den Inhalten in der Sidebar und besonders lästig, passiert das mit meinen dort nur temporär zu findenden identi.ca Dents. Dumm ist jetzt, dass jemand bei Google etwas sucht, was dort zu finden ist und Google zeigt auf einen zufälligen Artikel in meinem Blog, wo der gesuchte Content aber sehr wahrscheinlich durch die aktuellen Dents ersetzt wurde, also nicht mehr da ist. Das will niemand, wie kann man das also lösen?

Der naheliegendste Ansatz ist simpel: Ich binde die Inhalte nicht mehr via PHP Serverseitig ein, sondern liefere ein Script, auf dass sich der Browser des Besuchers die Dents selber hole und einbaue. Google sieht keine Dents mehr, alles ist geritzt. Allerdings mag ich solche JavaScript-Lösungen gar nicht, erzeugen sie doch einen nicht geringen und überflüssigen Overhead bei identi.ca und bei meinen Besuchern.

Die nächste Idee liegt ebenfalls nahe: Das ist eigentlich nur indirekt mein Problem, viel mehr ist es eine Unzulänglichkeit von Google, relevanten Inhalt auf meinem Blog zu finden. Wie kann man Google (immer stellvertretend für alle Suchmaschinen) also dabei helfen? Zwei Wege fallen mir da ein, die aber beide bisher noch nicht (ist das so?) unterstützt werden:

  1. HTML5 bietet die praktische semantische Auszeichnung <aside>, mit der man nicht inhaltsrelevante Dinge wie die Sidebar auszeichnet. Allerdings klingt die Spezifikation eher so, dass dort Inhalte einer Randspalte hinein gehören, wie man sie etwa in Büchern findet, also durchaus relevanter Content. Semantisch hat man also nur vielleicht seine Hausaufgaben gemacht. Schaden tut es auch nicht, also werde ich das demnächst benutzen.
  2. Das Mkroformat "Robot Exclusion Profile" könnte die Lösung sein. Hierbei werden Tags analog zu den ROBOTS Meta-Angaben mit entsprechenden Klassen versehen, die Hinweise auf die Verarbeitung durch Suchmaschinen liefern. Das scheint mir der richtige Weg zu sein, allerdings unterstützt meines bisherigen Wissens auf Basis einer zehnminütigen Recherche nach noch keine Suchmaschine dieses Mikroformat (seit 2005 im Entwurfsstatus). Zu allem Unglück hat Yahoo eine abweichende Variante implementiert: class="robots-nocontent". Na vielen Dank, zwei voneinander abweichende Methoden… Und Google? Ich konnte keine Infos dazu finden und dank der zwei möglichen Methoden weiß ich jetzt nicht, welche ich vorgreifend für die Zukunft schon mal einsetzen soll. Yahoo ist bei mir ein eher seltener Referrer und ehrlich gesagt ist mir auch egal, was Yahoo so an Alleingängen macht. So hehr das Ziel von Yahoo auch ist, sind sie (zumindest in Deutschland) nicht in der Marktposition, eine neue Technik zu etablieren. Google muss das unterstützen, dann wird es praktisch relevant. Von Live Search brauche ich gar nicht zu reden, auch wenn ich von dort deutlich mehr (zumeist unpassende) Suchtreffer bekomme als von Yahoo.

Also Fazit: Außer meine Dents/Tweets per JavaScript einzubinden oder sie ganz aus meiner globalen Sidebar wegzulassen, ist mir aktuell keine praktisch relevante Möglichkeit bekannt, hierfür Google Hinweise für sinnvolle Suchtreffer zu geben und ich werde wohl weiterhin Scharen von enttäuschten Besuchern von Google bekommen.

Oder hat jemand eine gute Anregung parat?


blockquote, aber richtig

08 09 2008

Ich zitiere häufig aus verschiedenen Quellen und nutze dafür das vorgesehene <blockquote>-Tag. Um eine logische Verbindung zur Quelle herzustellen, hat dieses Tag ein optionales cite-Attribut, in dem man die URL direkt oder auch eine Quellenangabe im Klartext angeben kann. Eine feine Sache, leider ignorieren die meisten Browser (oder alle?) dieses Attribut. Eigentlich leuchtet das ja auch ein, denn wie sollte ein Browser diese Metainformation auch visualisieren? Um die Quelle also für den Nutzer sichtbar angeben zu können, muss man nun die Quellenangabe immer noch ein zweites Mal (etwa in einem Absatz) machen. Ich habe kein Problem damit und mache das schon lange so, aber aus der Microformats-Ecke kommt eine recht elegante Lösung für das Problem: cite-rel

<p>Folgendes Zitat stammt von
  <cite id="quellangabeXY" class="relationship">
    <a href="URL">QUELLE</a>
  </cite>
</p>
<blockquote cite="#quellangabeXY">
  <p>ZITAT</p>
</blockquote>

An sich eine recht elegante Lösung, allerdings sehe ich ein großes Problem dabei: Die Eindeutigkeit der ID muss gewahrt bleiben, was dann zum Problem wird, wenn mehrere Artikel im Volltext auf einer Übersichtsseite erscheinen können. In meinem Blog ist das so und daher muss ich schon bei eingebundenen Videos sehr auf Eindeutigkeit achten (ich löse das über ein Datumsstempel in der ID). Das strengt mein Hirn mehr an, als mal eben die Quelle zwei mal zu nennen, was auch nicht mehr Tipparbeit ist. Gut oder je nach Situation auch mal weniger gut daran ist aber, dass eine mehrfache Zitierung so mit nur einer gemeinsamen Quellenangabe versehen werden kann bzw. muss, wenn man nicht komisch kommen will.

Es spricht also im Fazit nichts dagegen, grundsätzlich beide Varianten zu nutzen und nach Einzelfall die angemessenere Lösung zu wählen. Hauptsache man versieht seine Zitate überhaupt mit einer semantischen Quellauszeichnung, aber da sehe ich wegen der Faulheit der weitaus meisten Autoren keine großen Chancen auf weite Verbreitung. Umso besser fühlt man sich immerhin, wenn man es trotzdem macht.

Wieso? Sieht man doch eh nicht! Wenn ich diese Begründung für das Weglassen der Quellauszeichnung höre, schwillt mir schon der Hals. Und jede Metaangabe ist überflüssig und Webdesign ist sowieso nur eine visuelle Problemstellung, ganz genau. Wer als Webprofi so denkt oder handelt, hat seinen Beruf verfehlt. Echt mal. Schlimm, wie oft ich Leuten begegne, die so drauf sind.