Freitag, 13. August 2010
Ich schreibe wie...
Themen: Computer, Sprachen, Englisch
Gerade über eine Mailingliste hereingekommen: der Hinweis auf das Online-Schreibstil-Analysetool I Write Like („Ich schreibe wie...“).

Da kann man ein Stück selbstgeschriebenen Text von einem statistischen Algorithmus analysieren und mit den Schreibstilen berühmter Schriftsteller vergleichen lassen. Am Ende kommt dann beispielsweise heraus, daß man wie J.K. Rowling schreibt. Oder wie Stephen King.

Oder, wie in meinem Fall: Cory Doctorow. Gut, das war jetzt nicht unbedingt ein großer Schock. Aber bei einigen Leuten auf der Mailingliste, die dem Tool ebenfalls selbstgeschriebene Texte fütterten, kamen solche Sachen heraus wie beispielsweise diese:
  • Ein Auszug aus einer Geschichte, in der sich einige Figuren unter anderem über Mark Twain und seine Werke unterhielten, wurde als „wie Mark Twain“ bewertet. Nach der Entfernung gewisser Eigennamen aus dem Text („Huckleberry Finn“, „Tom Sawyer“) bewertete der Algorithmus denselben Text als „wie Leo Tolstoi“.
  • Eine Fantasy-Geschichte, die zuerst als „wie J.K. Rowling“ bewertet wurde, mutierte zu „wie Harry Harrison“, nachdem das Wort „Zauberer“ im ganzen Text durch das Synonym „Thaumaturg“ ersetzt worden war.
  • Einige Leute haben Nonsense-Texte (u. a. mit dem Zufallsgenerator erzeugte Strings) oder Texte, die für den Algorithmus als Nonsense-Texte erscheinen mußten (also Texte, die in einer möglichst exotischen Fremdsprache geschrieben waren), getestet und bekamen als Ergebnis fast jedesmal „wie James Joyce“. Naja, das sollte eigentlich auch niemanden überraschen, denn dieser Schriftsteller ist ja berüchtigt für seinen kryptischen Stil und die Verwendung selbsterfundener Wörter...
Undsoweiter.

Weitere Tests förderten Folgendes zutage: Wenn man Raumfahrt erwähnt, kommt Asimov raus; wenn man das alte Rom erwähnt, kommt Shakespeare raus; wenn dem Algorithmus sonst nichts mehr einfällt, kommt James Joyce raus. (Mailinglisten mit vielen aktiven Abonnenten, die fast alle einen starken Spieltrieb haben, sind wirklich etwas Schönes!)

Anscheinend handelt es sich um einen ganz banalen Bayes-Klassifikator, der sich vor allem auf das Vorhandensein (oder Nicht-Vorhandensein) bestimmter Schlüsselwörter stützt und nicht so sehr auf tatsächlich stilistische Dinge wie die Länge und Komplexität von Sätzen oder die Verwendung von Metaphern oder von Stilebenen („hochtrabende“ Ausdrucksweise, Slang, Fachjargon, Dialekt, Grammatikfehler usw.). Das heißt, die Texte werden nicht wirklich den Schreibstilen bestimmter berühmter Schriftsteller zugeordnet, sondern eher deren bevorzugten Genres.

Einer der Diskussionsteilnehmer war darüber sehr erleichtert. Er war, gelinde gesagt, nicht so furchtbar begeistert davon gewesen, daß sein Stil als „wie Dan Brown“ analysiert worden war; aber jetzt (so schreibt er) weiß er, daß das wohl daran lag, daß er im selben Absatz sowohl Schußwaffen als auch eine Übernachtung in einem Hotel erwähnt hatte, und wenn die Zuordnung zu diesem oder jenem Schriftsteller über Schlüsselwörter erfolgt, ist es ja durchaus verständlich, daß sein Schußwaffen-im-Hotel-Text mit Dan Brown verglichen wird. ;-)

Da fragt man sich jetzt natürlich, was bei dem Zauberer-Text herausgekommen wäre, wenn das Schlüsselwort „Zauberer“ nicht durch „Thaumaturg“, sondern z. B. durch „Lokomotive“ oder „Fladenbrot“ oder „Beulenpest“ ersetzt worden wäre. <grübel>

Daß meine englischsprachigen Texte (die aktuelle Version meines Lebenslaufs sowie die Hauptseite und die FAQ-Seite meiner englischsprachigen Homepage) „stilistisch“ Cory Doctorow zugeordnet werden, liegt dann also wohl daran, daß ich solche Sachen wie Programmiersprachen und Linux und das Internet erwähne... ;-)

Als ich probeweise einen deutschsprachigen Text eingab (einen meiner längeren Blogeinträge), wurde das vom Algorithmus übrigens als „wie H.P. Lovecraft“ erkannt. Muß ich mir jetzt Sorgen machen...?

Ich würde sagen: ja, aber vermutlich eher um den Algorithmus als um mich. Oder wie drückte es jemand in der Diskussion in der Mailingliste aus: „Das Fehlen von Meldungen der Art ‚Dieser Text ist anscheinend nicht auf englisch geschrieben.‘ oder ‚Dieser Text kann keinem der Schriftsteller in der Datenbank mit hinreichender Sicherheit zugeordnet werden.‘ ist ein deutlicher Hinweis auf die Wertlosigkeit des Analyseprogramms.“ Ich bin geneigt, dem zuzustimmen.

. . .

Natürlich gab ich mich nicht damit zufrieden, daß ein längerer englischsprachiger Text von mir (diese FAQ-Seite) insgesamt als „wie Cory Doctorow“ analysiert wurde. Schließlich schreibe ich da über einige sehr verschiedene Themen, und wenn die Analyse nicht aufgrund meines Stils erfolgt, sondern aufgrund von Schlüsselwörtern, dann können diese Abschnitte doch nicht alle...?

Also gab ich die einzelnen Fragen und die dazugehörigen Antworten noch einmal einzeln ein. Ergebnis: nein, die können tatsächlich nicht alle.
  • Der erste Punkt (Wer bin ich?) wird H.P. Lovecraft zugeordnet. Nanu?
  • Der zweite Punkt (Warum kann ich so gut Deutsch? – ja, das werde ich tatsächlich immer wieder gefragt) wird Kurt Vonnegut zugeordnet. Ich fühle mich geschmeichelt. Beziehungsweise: Ich würde mich geschmeichelt fühlen, wenn ich noch glauben würde, daß diese Zuordnung tatsächlich aufgrund meines Schreibstils geschah und nicht aufgrund irgendwelcher von mir zufällig verwendeter Schlüsselwörter. :-)
  • Der dritte Punkt (Warum kann ich so gut Englisch?) wird wieder Lovecraft zugeordnet. Ich fange wieder an, mir Sorgen zu machen. Also versteht das jetzt bitte nicht falsch, ich mag Lovecraft, aber in meinen Texten kommen doch nur eher selten gruselige außerirdische Monster vor...?
  • Der vierte Punkt (Wie wird mein Name ausgesprochen? – genaugenommen keine Frequently Asked Question, ich werde oft falsch ausgesprochen, eben weil die ganzen Nicht-Deutsch-Muttersprachler nie danach fragen) wird James Joyce zugeordnet. Das könnte daran liegen, daß das der Abschnitt mit den ganzen IPA- und C-X-SAMPA-Knoddelzeichen ist. Mit denen kann der Algorithmus wohl nichts anfangen, und wenn er mit etwas nichts anfangen kann, entscheidet er sich ja, wie oben schon vermutet, am ehesten für Joyce.
  • Der fünfte Punkt (Wie hat es mich nach Finnland verschlagen?) wird wieder Vonnegut zugeordnet.
  • Der sechste Punkt (Erklärung der verschiedenen Komponenten meiner E-Mail-Signatur) wird zu meiner großen Überraschung George Orwell zugeordnet. Jetzt grübele ich, woran das liegen mag – an den beiden kleinen ASCII-Grafiken in der Signatur oder doch eher an dem lateinischen Zitat?
  • Der siebte Punkt (Wie viele Sprachen kann ich eigentlich?) wird wieder Lovecraft zugeordnet. Das liegt vielleicht daran, daß in diesem (ziemlich langen) Abschnitt viele, teilweise relativ exotische, Sprachennamen erwähnt werden und sogar ein paar erfundene. In diesem Abschnitt erledige ich nämlich außer dem Thema „Sprachkenntnisse“ gleich auch noch das Thema „Kunstsprachen“. Und meine Sprachen haben natürlich selbsterfundene Namen, die für Außenstehende womöglich so fremdartig klingen wie die Namen gewisser Figuren bei Lovecraft.
  • Der achte Punkt (Erklärung meiner Handarbeits-Hobbys) wird David Foster Wallace zugeordnet, einem Schriftsteller, den ich bis dahin nicht einmal dem Namen nach kannte. Schreibt der etwa viel über Weberei? Oder über Knoten? <grübel>
  • Der neunte Punkt (Kurzbeschreibung meiner Tätowierungen) wird ebenfalls Wallace zugeordnet. <kopfkratz>
  • Der zehnte Punkt (Herkunft und Entstehung meines Seiten-Logos und meines Favicon) wird Dan Brown zugeordnet. Kein Kommentar. >;-)
Aber warum wird das als Ganzes genommen ausgerechnet Cory Doctorow zugeordnet, wenn jeder einzelne der Teilabschnitte jemand anderem zugeordnet wird? Die Lösung steckt anscheinend in den Fußzeilen. Da werden auf engstem Raum nämlich viele technische Details erwähnt (wie erreicht man mich per E-Mail... welchen Editor habe ich benutzt... ein Link zur Any Browser Campaign, für mich als Usability-Fan natürlich ein Muß...) und so viele Computer- und Internet-Schlüsselwörter in so schneller Abfolge lassen für so einen Algorithmus natürlich nur einen Schluß zu. ;-)

Das Witzige ist, daß ich, wenn ich schon mal irgendwelchen englischsprachigen Autoren nacheifere, mich da nie an die von dem Algorithmus vorgeschlagenen Leute halte, sondern eher an Neil Gaiman oder Aaron Sorkin oder (wenn mir poetisch-romantisch zumute ist) Robert Frost...

... Permalink


Montag, 6. Oktober 2008
Any noun can be verbed
Themen: Computer, Sprachen, Englisch
... sagte mal ein weiser Mensch zum Thema englische Grammatik. Als Sprachwissenschaftlerin kenne ich dieses Phänomen natürlich; und da ich mein Geld seit vielen Jahren größtenteils mit meiner Near-Native-Competence im Englischen verdiene (ich schreibe technisches Dokumentationsmaterial und entwickle Fachterminologien, alles auf englisch), begegnen mir fast jeden Tag etliche Beispiele.

Aber so etwas Schönes wie das, was mir gerade im Zusammenhang mit meinen Computerproblemen (siehe vorangehender Eintrag) herausgerutscht ist, habe ich wohl noch nicht in meiner Sammlung:

„My laptop keeps crashing. The computer guy said it might be a memory problem, so I memtested all weekend.“ Und auf die Frage der Kollegen nach Details: „No, it’s a Linux box, it didn’t blue-screen-of-death me, it just freezes.“

Erkenntnis des Tages: „blue screen of death“ ist transitiv.

(Kids: don’t try this at home. Und erst recht nicht in einer Klassenarbeit.)

Links in diesem Beitrag:

... Permalink