Elosystem die Zweite.

Okay, da es sich in den Kommentaren zu meinem letzten Blog herausgestellt hat, dass viele Leser Probleme damit haben was das Elosystem kann und nicht kann, will ich im folgenden Blog noch einmal im Detail darlegen wie Rankingsysteme insgesamt und das Elosystem im speziellen funktionieren, sowie auf dessen Probleme eingehen im Bezug auf Spiele mit Glücksfaktor.

Ich bitte darum bevor Kommentare verfasst werden, die eindeutige Fehler enthalten. Lest den Blog aufmerksam. Schreibt lieber einen Kommentar, dass ihr was nicht verstanden habt, als großspurig zu behaupten, dass wäre alles Unsinn. Alles im folgenden Blog kann man auf den Wikiseiten bzw. in Lehrbüchern finden. Nicht ein Gedanke stammt von mir. Ich habe nur die Beispiele auf Magic transformiert. Allerdings erhebe ich keinen Anspruch auf Unfehlbarkeit. Ich möchte jediglich erreichen, dass skeptische Leser versuchen den Text zu verstehen, zu reflektieren und seinen Inhalt zu begreifen.

Fangen wir mal ganz am Anfang an. Wir haben ein Spiel bei dem es einen Wettstreit geben kann. Für ein faires Matchmaking oder für die Verteilung der Preise brauchen wir nun ein System, dass objektiv und fair die Spieler nach ihrem Können sortiert.

Im einfachsten Fall gewinnt der Sieger Punkte und der Verlierer bekommt gar nichts. Das führt aber mittel- bis langfristig dazu, dass die Besseren immer höhere Punktzahlen erreichen. Ein Neueinsteiger hat damit keine faire Chance auf die hohen Plätze. Kurzfristig gilt zwar der Bessere steht oben aber langfristig verkommt so ein System dazu, dass nur die Masse an Spielen zählt. Beispiele für solche verkorksten Ratingsysteme sind Bridge und das PWP System von Magic.

Um diese Problematik zu vermeiden wurden geschlossene Ranking Systeme eingeführt. Bei diesen erhält der Gewinner Punkte und der Verlierer bekommt Punkte abgezogen. Dabei muss gelten, dass die Gesamtpunktzahl im System erhalten bleibt. Das einfachste Beispiel für ein solches Systeme wäre: der Gewinner erhält 1 Punkt und der Verlierer bekommt 1 Punkt abgezogen. Jetzt besteht aber das Problem, dass es ein guter Spieler ja leicht hat gegen schwache Spieler zu gewinnen. Wenn ein starker Spieler nur auf Turniere geht, bei denen er schwache Gegner erwartet, kann er sehr leicht sein Ranking verbessern ohne wirklich zu beweisen, dass er der global Beste ist.

Apard Elo hatte nun die Idee den Punktgewinn auch mit der Siegquote zu verbinden um diesen „Wie schwer war das Match“ Faktor aufzunehmen. Wenn man objektiv sagen kann, das Spieler A ein 9:1 Favorit ist gegenüber B und es gibt maximal 10 Punkte zu gewinnen, dann hat sich Elo gedacht, dass es nur fair ist, wenn Spieler A im Falle eine Sieges nur 1 Punkt bekommt aber Spieler B bekommt 9. Diese faire Verteilung in Abhängigkeit der zu erwartenden Gewinnquote ist die Grundidee des Elosystems.

Wie man auf die zu erwartende Gewinnquote kommt später. Erst einmal müssen wir noch klären was für Vorrausetzung bzw. Annahmen Elo bei der Entwicklung seines Systems gemacht hat.

1. Die Spielstärke ist normalverteilt über die Spielerschaft (link).

Eigentlich braucht es diese scharfe Bedingung nur selten und im Grunde reicht es zu sagen: Die Spielstärke muss unterschiedlich sein. Ein Beispiel, bei dem es nicht funktioniert, wäre wenn alle Spieler die gleiche Spielstärke haben. Dann kann das Elosystem offensichtlich kein Ranking durchführen, sondern zeigt nur den kurzfristigen Erfolg an.

2. Die Transitivität der Gewinnquoten ist gegeben (link).

Das ist eine harte Vorraussetzung für die meisten Rankingsystem. Ist dieses Vorraussetzung verletzt, darf man das Elosystem nicht benutzen! Was bedeutet nun Transitivität in unserem Fall. Es sagt für unsere Betrachtung nichts weiter aus als, dass das Ranking jeder Person vergleichbar ist mit jeder anderen Person und ableitbar aus den Verhältnissen zueinander. Ist also A:B der 3:1 Favorit und B:C der 3:1 Favorit dann ergibt sich automatisch, dass A:C der 9:1 Favorit sein muss! Eine Messung der Spielstärke A:C ist nicht mehr notwendig. Genauso erzwingt das System die Punkteeinordnung wenn in diesem Fall A 2200 Elo hat, dann muss B 2000 und C 1800 Punkte haben. Das die Transitivität gegeben ist, kann man für ein System nie vollständig beweisen. Man kann nur zeigen, dass die Transitivität von Wahrscheinlichkeitsrelationen in manchen Systemen nicht gegeben sind. Für ein Rankingsystem muss dies aber der Fall sein und bisher hat sich in der Praxis gezeigt, dass dem in Wettbewerben unter Menschen auch so ist. Ich betonen noch einmal, besteht ein berechtigter Zweifel an der Transitivität eines Systems darf man das Elosystem nicht einsetzten um ein Ranking zu ermitteln! Es produziert dann auch noch schöne Zahlen aber kein Ranking mehr.

Damit kommen wir zu einem weiteren Punkt. Was macht das Elosystem eigentlich. Ganz vereinfach gesagt, versucht es erstmal alle Spieler nach Spielstärke zu sortieren. Das Ergebnis dieser Sortierung ist dabei eine Normalverteilung. Deswegen braucht man auch die Annahme, die Spielstärke wäre normalverteilt. Denn nur die Abbildung:
Normalverteilung (Spielstärke) -> Elosystem -> Normalverteilung (Ranking)
ist mathematisch gesehen richtig. Dabei ist das System gutmütig und bildet auch andere aber nicht jede (siehe oben) Verteilung der Spielstärke als Normalverteilung ab. Richtig ist also zu sagen man steckt vorne einen Datensatz rein, dann sortiert das Elosystem und hinten kommt eine Normalverteilung raus, die das Ranking sein soll. Das ist erstmal unabhängig davon ob das System richtig rechnet. Wenn es richtig rechnet, erhält jeder Spieler eine Zahl, die innerhalb der Normalverteilung anzeigt wie gut er steht, im Bezug auf den gesamten Rest der Spielerschaft. Seine örtliche Position, und die der meisten Spieler, ist dabei stabil innerhalb der Gaussverteilung und schwankt nur leicht hin und her. Wird das Elosystem instabil erzeugt es immer noch eine Normalverteilung, die örtliche Position jedes einzelnen Spielers schwankt dann aber enorm. Die Anfangs und Endwerte der Gaussverteilung sowie das Sigma ergeben sich dabei zwangsläufig aus der Menge an umverteilten Punkten im gesamten System zwischen den Aktualisierungen. Für Magic bedeutet das, es gibt immer einen sehr kleinen Prozentsatz an 2200ern und eine große Anzahl von Spielern bei 1600. Man kann jetzt aber nicht mehr sagen Spieler A hat diesen Punktwert/Rankingposition aufgrund seiner Spielstärke verdient.
Wichtig zu verstehen ist, jede Momentaufnahme des Elorankings ist immer eine Gaussverteilung, nur die Position der jeweiligen Spieler ist in einem instabilen Elosystem nicht konstant. In solchen Fällen sorgen manche Spieler selbst für die Stabilität, um ihre Position und die damit verbundenen Boni/Prestige zu bewahren. Dies wird meisten durch einen Nichtteilnahme (Rating campen) erreicht oder in dem die Matches/Turniere so ausgewählt werden, dass sich ein möglichst hoher Erwartungswert an Punktgewinn ergibt (drop, nur „große“ Turniere spielen usw.). Dies stabilisiert allerdings nur die Spitze der Normalverteilung, welche aber nur 1-2% der gesamten Spielerschaft darstellt. Für das gesamte System ist dies aber irrelevant.

Nachdem wir geklärt haben was das Elosystem für ein Ranking erzeugt, kommen wir zu den Gewinnquoten bzw. Gewinnwahrscheinlichkeiten. Eine weitere Idee von Elo war, dass sich Können in Spielen mit perfekter Information und Skillfaktor objektiv messen lässt. Ein guter Spieler hat dabei mehr Wissen und Training angehäuft als ein schlechter Spieler. Man kann sich das ganz vereinfach so vorstellen. Man hat eine Box, in diese gehen Karten von 0-100 rein. Je mehr ich lerne und je mehr ich trainiere umso voller wird die Box. Die Grundidee des Rankings ist jetzt, dass jemand mit 75% Füllstand gegenüber jemanden mit 25% auch der 75:25 Favorit ist. Dabei kann der unterlegene immer noch gewinnen. Es ist nicht wie bei einem Vergleich von Autos bei dem das Auto, das 51 km/h fährt, immer das Auto schlägt, welches nur 50 km/h fährt. Man kann sich das vereinfacht so vorstellen. Spieler A hat seine Box voll bis 75, Spieler B aber nur bis 25. Beide sitzen jetzt an einem Tisch und jeder zieht eine Zahl aus der Box, danach werden sie verglichen und der mit der höheren Zahl gewinnt. Nehmen wir das folgende Beispiel: A zieht eine 22 und B eine 25, dann gewinnt Spieler B, obwohl A der insgesamt Bessere ist. Im realen Leben hat A einfach einen gravierenden Spielfehler gemacht, während B alles abgerufen hat und damit auch den Spielfehler seines Gegners in einen Sieg umwandeln konnte. Wichtig ist, dass das Können/Spielstärke der Spieler für den Füllstand ihrer Boxen verantwortlich sind (lernen, trainieren, Talent usw.). Weiterhin ist die gezogene Zahl direkt verantwortlich für den Ausgang des Matches. Das „Spiel“ würfelt nicht aus wie hoch der Füllstand ist, sondern nur welche Karten gezogen werden und es modifiziert auch nicht den Punktewert. Über der Zeit spielen Beide nun auch 75:25 gegeneinander. Was im Elosystem eine Differenz von 200 Punkten ergibt. Diese Differenz bleibt auch stabil, denn das System sieht jetzt okay ich habe 200 Punkte Unterschied ermittelt A gewinnt nur noch 2,5 Punkte pro Gewinn und B bekommt 7,5 (bei k-Wert von 10). Man kann leicht nachrechnen, dass damit das System stabil bleibt. Damit ist aber noch nicht gegeben welchen exakten Punktwert jeder der Beiden hat. Dazu müsste mindestens 1 Spieler noch gegen möglichst viele andere Gegner spielen.
Man kann schon aus dem einfachen Beispiel sehen, dass das Elosystem ein Inselproblem hat. Ist die Durchmischung nicht groß genug, kann auch das Elosystem nicht richtig global sortieren, weil man nicht davon ausgehen kann, dass auf zwei isolierten Inseln die Normalverteilung der Spielstärke gleich ist. Dies ist aber nur ein Randproblem und soll uns auch erstmal nicht weiter beschäftigen.

Kommen wir jetzt zu einem Spiel mit Glücksfaktor. Wir haben wieder unsere beiden Spieler nur diesmal spielen sie Magic. Wieder sind beide vollkommen verantwortlich für den Füllstand ihrer Box. In Magiclingo wäre das: gute Mulligans nehmen, gut draften, das beste Deck spielen, Matchups testen, Decks optimieren um Screw/Flood zu minimieren Boardpositionen richtig einschätzen, gutes psychologisches Verständnis um Reaktionen des Gegners zu lesen usw. Beide Spieler ziehen wieder ihrer Karten, A aus seiner 75% Box und B aus seiner zu 25% vollen Box. A zieht diesmal eine 40 und B eine 20. A hätte jetzt laut Skilltest gewonnen. Jetzt kommt aber der böse Zufallseffekt und sagt warte mal B bekommt 50% mehr und A 50% weniger. Dann hat auf einmal A nur noch 20 Punkte und B 30. Damit hat jetzt B gewonnen, obwohl A den Skilltest geschafft hat. In Magictermen wäre dies A spielt zwar klar besser und hat schon einige Vorteile rausgeholt aber B topdeckt einfach seine Bombe und gewinnt.

Wichtig zu verstehen ist das A hätte gewinnen müssen laut Skilltest, der Glücksfaktor hat es ihm nur vermasselt. Wie man jetzt genau den Skilltest mittels Glücksfaktor verändert ist erstmal egal. Die Hauptsache ist es kommt zu solchen falschen Spielergebnissen.
Der Favorit hat dabei auch nicht mehr Glück nur weil er besser ist. Er kann optimieren aber dies stellt in Magic schon seine höher gefüllte Skillbox dar. Ein schlechter Spieler verpasst Siegchancen weil er eben nicht gut mit Wahrscheinlichkeiten operieren kann. Es gibt in Magic aber immer ein Level an Glück, der sich aller Kontrolle entzieht und nur das ist auch der wahre Zufallseffekt. Wäre es so das Skill Glück vollständig ausgleichen könnte, wäre es möglich, dass ein Superultra Pro immer volle Kontrolle über das Matchuplos, seinen Draw und über den des Gegners hätte. Was alles eindeutig nicht der Fall ist.

Jetzt kann man sagen okay aber im Mittel kürzt sich das Glück doch raus. Denn im Schnitt hat doch jeder gleich viel Glück und es ergibt sich:
Skillwert A *0,5 > Skillwert B *(0,5) was ja gleich
Skillwert A > Skillwert B
und damit wieder der gleiche Gewinncheck (für Sieg von Spieler A) wie bei Schach ist.

Um dies zu klären, müssen wir schauen wie das Elosystem funktioniert. Es mittelt nicht über einen Zeitraum sondern betrachtet nur die aktuelle Elodifferenz der beiden Spieler. Laut Elo ist die Differenz exakt der Stärkeunterschied der beiden Spieler und gibt damit auch die Gewinnquote an. Nehmen wir wieder unsere beiden Spieler mit 200 Punkten Differenz (was das Gleiche ist wie A:B = 75:25 Favorit). Wieder das Beispiel: A zieht ein 40, B eine 20, der Glücksfaktor gerade in diesem Match sei insgesamt 0,5. Das Ergebnis ist jetzt wie oben gezeigt B gewinnt.
Stecken wir das Ergebnis mal ins Elosystem. Dieses sieht: Match um K-Wert 10, Spieler A ist der Favorit mit 75:25. Er hat aber verloren, deswegen ziehe ich ihm 7,5 Punkte ab. Jetzt kommt Spieler A und sagt: „Aber ich hab doch nur wegen Glück verloren, denn den Skillcheck hab ich doch gewonnen.“ Dem Elosystem ist das aber egal, es sagt stur: „Du bist der 75:25 Favorit und ich ziehe dir 7,5 Punkte ab.“ Den unfairen Punkteabzug kann A aber nur ausgleichen in dem Fall, dass er den Skillcheck versemmelt hat, aber Glück hatte und trotzdem gewinnt (die anderen Fälle rechnet das System ja korrekt). A hat jetzt also glücklich gewonnen obwohl er hätte verlieren müssen, das Elosystem gibt ihm jetzt aber nur 2,5 Punkte weil er ja der Favorit ist. Das Glück gleicht sich also nicht aus sondern der besser Gerankte bekommt, durch die falschen Spiele, langsam Punkte abgesaugt (in unserem Beispiel wären das -7,5+2,5=-5 Punkte). Das ganze ist natürlich auch wahr in die andere Richtung. B bekommt mehr Punkte, das System ist ja geschlossen. Deswegen verkneife ich es mir, die Sache aus dem Blickwinkel von B zu betrachten.
Im Folgenden will ich kurz auf ein paar fehlerhafte Gedanken eingehen, die oft gebracht wurden um zu erklären warum das Elosystem angeblich funktioniert.
Der Erste wäre. Gleicht der bessere Spieler den Punktabzug nicht dadurch aus, dass er ja auch mit Glück mehr Spiele gewinnt? Nehmen wir wieder unsere beiden Spieler mit 75:25. Nehmen wir an sie hätten 100 Spiele gespielt, dann hat Spieler A ein Topf mit 75 Spielen in denen er durch den Skillcheck gewonnen hat und 25 in denen er verloren hat. Jetzt kommt das Glück uns sagt in 10 der 75 Spiele hat aber B gewonnen. Macht -7,5*10 = -75 Punkte. Wenn er Glück in den Spielen hat, die schon durch den Skillcheck gewonnnen sind, bringt im das gar nichts, denn er hat ja schon gewonnen. Wenn Spieler A die Punkte zurückholen will, muss er sie also aus dem Topf von B holen. Das hiesse er müsste 75/2,5 = 30 Spiele aus dem Topf von B nehmen können. Es sind aber nur 25 drinne. Ausserdem würde eine solche Annahme auch die Tatsache verletzten, dass im Schnitt alle Spieler gleich viel Glück haben.
Man kann auch nicht sagen, dass der gute Spieler mit gleichzeitig(!) vielen Elopunkten den Punkteverlust -gegen schlechte Spieler- dadurch ausgleichen kann, dass er ja auch gegen Gegner mit mehr Elopunkten spielt und gegen diese mehr Punkte holt als er sollte. Denn das Eloranking ist ja normalverteilt und für einen Spieler oberhalb von 1600 gibt es weniger hochdotierte Gegner als niedrig dotierte. Um ein ganz extremes Beispiel zu bringen LSV findet momentan noch 5 Gegner die höher geranket sind als er aber über mehrere 10000 die schlechter sind.
Man kann auch nicht sagen, dass der gute Spielern mit gleichzeitig(!) vielen Elopunkten, auf Turnieren wo er viel gewinnt, nur noch Gegner mit höheren Elowerten bekommt. Denn das System gibt ihm ja auch Punkte und da in Magic Schweizer System gespielt wird hat der Pro genausoviele Matches gewonnen wie der Gegner. Die Differenz der Elowerte (und nur darauf kommt es im Elosystem an!) bleibt dadurch nahezu erhalten. Nur in extrem konstruierten Fällen kann man eine Differenzreduktion von 400 auf 300-200 Punkten erreichen. Einen großen Einfluss dieser extrem seltenen Fälle habe ich aber durch den bewusst niedrigen K-Wert von 10 vermieden, denn hohe K-Werte machen das Elosystem nur noch instabilier, wie ich gleich diskutieren werde. Außerdem müsste sich die Differenz der Elopunkte zu diesem Gegner während des Turniers eigentlich umkehren, um die im Schnitt zu hohen Punktverluste gegen die im Mittel niedriger als er gerankten Spielern in den ersten Runden zu kompensieren. Dies wird aber auf keinen Fall erreicht.

Die Frage ist jetzt, ist das System in der Lage den zusätzlichen Fehler, den es in Magic macht über eine lange Serie von Spielen gegen unterschiedliche Gegner auszugleichen. Denn der gute Spieler hat ja immer noch den besseren Skillcheck gegenüber schlechteren Gegnern und damit einen entscheidenden Vorteil. Das Ergebnis habe ich in meinem letzten Blog dargelegt. Das System wird instabil und schafft es nicht den Fehler auszugleichen, selbst bei kleinen K-Werten von 10. Und selbst wenn man annimmt, dass der Glücksfaktor niemals so hoch werden kann, dass eine 15 im Skillcheck eine 50 schlägt (nur ein Beispiel für das Verhältnis) aber auf der anderen Seite so klein werden kann, dass er keine Rolle mehr spielt und es nur auf den Skillcheck ankommt.

Ein 2000er kann im alten Elosystem nicht seine Position halten, auch wenn seine Spielstärke sagt, dass er bei 2000 sein müsste. Erst wenn der 2000er seine Punkte hin zu 1600 abgebaut hat, beginnt die Aufholjagd in die andere Richtung. Wann der Umkehrpunkt eintritt, ist dabei rein zufällig und hängt im Wesentlichen von einem oder zwei guten Turnierergebnissen, auf Turnieren mit möglichst hohem k-Wert, ab. Nur 1600er, deren Spielstärke auch 1600 beträgt, sind stabil. Da diese wirklich genausoviele Gegner finden mit höheren also auch niedrigeren Elowerten und sich der Punkteverlust so die Waage hält. Ab 1800 wird es zunehmend chaotisch. Die Amplitude der Oszillationen und die Frequenz ist dabei eine direkte Funktion des k-Wertes. Für hohe Werte kann man extreme Schwankungen in sehr kurzer Zeit beobachten. Diese haben aber keinen festen Mittelwert sondern sind vollkommen instabil.
Die stabilen Werte der Pros kann man, wie oben dargelegt, gut durch Rating campen oder sehr selektives Spielen erklären. Ausserdem hat das Elosystem ein Inselproblem, dass auch für viele Artefakte verantwortlich ist, wie zB. der Lokalpro (Anzahl an unterschiedlichen Gegnern kleiner 100, davon die Meisten viel, viel schlechter als der Lokalpro) mit total überhöhtem aber relativ stabilem Rating (siehe Bottom Feeder Effekt in meinem letzten Blog). Nichts davon führt aber dazu, dass das Elosystem insgesamt stabil wird, sondern beweist eher, dass das Elosystem noch weit mehr Probleme hat.

Das System kann auch nicht gefixt werden. Sondern ein komplett neues System ähnlich(!), nicht gleich dem TrueSkill System müsste eingeführt werden. Es zeigt sich aber schnell, dass alle diese Ansätze unpraktisch sind, da man für Magicverhältnisse viel zu viele Matche braucht, bevor man ein vernünftiges Ranking erzielt.

Ich hoffe, dass ich mit diesem Blog einige Fragen klären konnte. Für weiterführende Diskussionen bin ich zu erreichen über Telefon oder Skype. In den Kommentaren werde ich allerdings nur noch kurz antworten. Weiterhin werde ich auch zukünftig alle Beleidigungen gegen Dritte unkommentiert löschen. Ihr glaubt gar nicht was das für ein Geflame gegen AP war, in den Kommentaren zum letzten Blog. Genauso werde ich erstmal nicht Kommentare veröffentlichen, die eindeutige sachliche Fehler enthalten und nichts zu Diskussion beitragen, sondern persönlich per Email auf diese Kommtare antworten. Einfach aus dem Grunde um die Integrität der Autoren zu wahren. Wir sind eine kleine Community bei der sich viele persönlich kennen (trotz Nicknames), da muss man nicht umbedingt einladen zum lustigen Rufversauen.

Dieser Beitrag wurde unter Math wins again veröffentlicht. Setze ein Lesezeichen auf den Permalink.

37 Responses to Elosystem die Zweite.

  1. BigBOne sagt:

    „Ist also A:B der 3:1 Favorit und B:C der 3:1 Favorit dann ergibt sich automatisch, dass A:C der 9:1 Favorit sein muss!“

    Das ist die Annahme von Elo und eines der Hauptprobleme und die Ursache für die schlechten Quoten eines 2000ers gegen einen 1600er, aber keine Vorrausetzung für Ratingsysteme im Allgemeinen.

    • trischai sagt:

      Maann les den Wikiartikel. Wenn du sagst das geht so nicht dann darf man das Elosystem erst gar nicht benutzten!!! Denn es wird dann instabil. Nimm dir 100 intransitive aber auch unterschiedliche Würfel und versuche die zu Ranken mittels Elosystem. Du wirst sehen das geht nicht!

      • BigBOne sagt:

        Ja den hab ich grad gelesen und wurde bestätigt.
        Es ist nur wichtig ,dass „aus A>B und B>C folgt A>C“ korrekt ist.

        Beispiel: Wir spielen ManaScrewSchach vor dem Match würfeln beide Spieler einen Würfel falls man eine 1 Würfelt hat man das Match verloren, außer der Gegner hat auch eine 1, dann wird normal gespielt.
        Selbst wenn man Schach gelöst hätte gewinnt man also nur 31 von 36 Matches. Die Maximale Gewinnwahrscheinlichkeit liegt also bei 86%, bei Elo geht die Gewinnwahrscheinlichkeit aber gegen 100%. => Elo ist nicht für dieses Spiel geeignet.
        Man müsste also die Gewinnwahnrscheinlichkeit anpassen weil

        “Ist also A:B der 3:1 Favorit und B:C der 3:1 Favorit dann ergibt sich automatisch, dass A:C der 9:1 Favorit sein muss!”

        nicht wahr sein kann.

        Man kann sich also nur sicher sein, dass Elo bei 2 Spielern mit gleichem Rating ein richtiges Ergebnis liefert. Um die Gewinnwahrscheinlichkeit aller anderen Matches herauszubekommen müsste man folgendes tun:
        Man nimmt die Datenbank aller aufgezeichneten Spiele und wertet nur die Partien bei denen beide Spieler das gleiche Rating hatten, mit fester K-Value. Nun hat man ein Größtenteils unverfälschtes Ranking.
        Jetzt pickt man sich alle Spieler raus die genügend gewertete Matches für ein korrektes Rating haben und sieht sich an wie sie (in letzter Zeit) gegeneinander Abgeschnitten haben.
        zB bei Matches mit 100 Punkten Ratingunterschied haben die Favoriten 60% gewonnen, bei 200 Punkten 68% usw
        Aus den Ergebnissen kann man dann die Formel für die Gewinnwahrscheinlichkeiten bei Magic berechnen.

        • trischai sagt:

          Das müsste man dann aber auch immer wieder neu machen, wenn Formate rotieren und vorallem Limited wieder von Constructed trennen. Im Endeffekt läuft das Ganze dann auf TrueSkill hinaus. Der zusätzlich Parameter in diesem System macht ja nichts anderes als die Gewinnquoten dynamisch ans „Meta“ anzupassen.

  2. Tigris sagt:

    Die wichtigste Frage. Wie du denn annimst dass diese Ratings von den guten Spielern zu Stande gekommen sind, beantwortest du aber immer noch nicht.
    Das Problem bei deinem anderen Eintrag ist doch genau dass du Gewinwkeiten annimmst, mit diesen Mann diese Ratings welche die guten Spieler haben eben genau nicht erreichen kann.

    Gegeben ist ja Rating von LSV nach Elosystem

    Du machst eine Annahme über seine Gewinnwkeiten.
    Und eine Annahme über die Verteilung der Spieler.

    Diese Annahme wiederspricht aber seinem Rating (da er mit dieser Wkeit dieses Rating NICHT erhalten haben kann mit einer solchen Verteilung der Spieler)

    Und folgerst später dass das Ratingsystem Mist ist.

    Das geht so einfach nicht, du musst eine Gewinnwkeitsverteilung annehmen, welche dieses Rating erzeugt haben kann und ja mir ist klar dass 2200 er Rating nur ein Auswuchs der Varianz ist aber ein 2050 er Rating wird LSV relativ konstant haben (wenn nicht mehr) und dies muss sich mit der Gewinnwkeitsverteilung ergeben können.

    Ausserdem was du zitierst steht nur im deutschen Wikipedia im englischen habe ich von dieser transitivität nichts gesehen.

    Ausserdem wenn du mit solchen Würfeln ein Elo Rating machen willst dann geht das sehr wohl. Du kannst beliebige so Würfel zufällige Turniere machen lassen (nach Schweizer System am besten). Und ihr Elo (nach MAgic Elo) ausrechnen lassen.
    Die Ratings die sich dann ergeben (also die Werte um die sie schwanken) geben an, wie gut ihre Chancen auf einem solchen Turnier sind.
    Die Würfel mit höheren Ratings haben eine höhere Chance auf einem Turnier gut abzuschneiden als Würfel mit kleinerem Rating.

    Dies ist genau das was das Rating bei Magic aussagt und aussagen soll, mehr brauchen wir doch gar nicht. Es muss nicht aussagen können wer bei einem Match der Favorit ist, sondern wer bei einem Turnier der Favorit ist.

    • trischai sagt:

      Wie das Rating von LSV zustandekommt hab ich doch hinlänglich geklärt. 1-2% in einem Elosystem sind immer oben und haben 2100+, weil das Eloranking normalverteilt ist. Stabil wird es in der Spitze durch Rating campen, selektive Spielwahl, hoher k-Wert bei den Pro Turnieren usw. Ein gutes Abschneiden (Top16 plus) bei einer PT oder GP „saniert“ erstmal 6-7 X:3 Drops.

      Eine Annahme über die Verteilung der Spieler mach ich gar nicht. Schau dir die Verteilung der Elozahlen in Magic an und du wirst eine Gaussverteilung sehen.

      Die Win% der Pros war auch immer nur eine Krücke um einen ungefairen Anhaltspunkt zu haben wie hoch der Glücksfaktor ist, damit ich in den Simulationen keine utopischen Werte verwende.

      Probier das mal mit den Würfeln. Du wirst sehen, dass sich die Position jedes einzelnen Würfels ständig ändert. Die Position gibt dann auch nicht an, dass der Würfel an der Spitze auch wirklich eine Turnierserie mit der Quote, die er hat, gewinnen kann. Es kommt eher auf das Matchupglück an.

      • Tigris sagt:

        Die Positionen der Würfel werden Schwankungen haben aber sie schwanken um eine bestimtme Stelle das ist die Varianz die halt gegeben ist, die besseren Würfel werden aber im Schnitt ein höheres Rating haben als die schlechteren, das ist einfach so kannst du auch gerne versuche (du machst doch gerne irgendwelche Simulationen). Natürlich ist es vom Matchupglück abhängig aber es spielt im Schnitt halt keine Rolle.

        Wenn wir 3 Spieler haben A B C
        A gewinnt gegen B mit 70%
        B gegen Spieler C mit 60 %
        C gegen Spieler A mit 55%

        Wenn du jetzt mit diesen Spielern „Turniere“ durchführst sie also oft zufällig gegeneinander spielen lässt wirst du folgendes erkennen:

        A hat im Schnitt das höchste Rating
        B das 2. höchste
        C das tiefste

        Klar gibt es Varianz, deswegen sollte man sich ja auch nicht unbedingt die Spitzen anschauen aber der durchschnittswert ist wegen dem dennoch Aussagekräftig, wenn man kleine K Values einsezt wird diese Varianz weniger stark ausfallen und die werte werden sich irgendwo einpendeln.

        geschätzt würde ich sagen
        A bei 1700
        B bei 1600
        C bei 1500

        Und was passiert wenn du solche Würfel (gleich viele von allen natürlich) auf einem Turnier spielen lässt? Richtig mit der höchsten Wkeit gewinnt Würfel A, natürlich gewinnt er nicht jedes Turnier aber er gewinnt die meisten Turnierem, er hat die höchste Wkeit ein Turnier zu gewinnen, das sagt das Rating aus, es stimmt hier in diesem Beispiel also.

        Solche Matchups gibt es überall sogar beim Schach auch wenn die dort vielleicht weniger krass auffallen, dennoch kommt niemand auf die Idee das Ratingsystem beim Schach anzuzweifeln.

        Klar gibt es imemr irgendwelche Personen an den Spitzen das sind aber in Magic immer etwa die selben Personen.

        Natürlich Saniert ein GP Top 8 ein paar schlechte Abschneiden aber dann ist die Overall Gewinnwahrscheinlichkeit ja wieder gut.(Und so viele schlechte Abschneiden saniert das ja nicht) Und von Rating campen kannst du bei LSV halt einfach nicht sagen der spielt genug, zwar nur auf hochrangigen Turnieren aber das reicht ja. Beim Schach ist es relativ normal dass man im eignen Ratingumfeld spielt wieso solte das bei Magic nicht auch so sein.

        Und ob es eine Annahme ist mit der Gausverteilung oder eine Tatsache spielt keine Rolle es gibt zusammen mit deiner gewünschten Wahrscheinlichkeitsverteilung für einen LSV einfach einen widerspruch zur Realität, ein LSV hat in der Realität dieses Rating also muss er sehr oft gewonnen haben in der Vergangenheit.

        Wenn er X:3 droppt dann hat er natürlich nicht viele Partien verloren das ist aber auch ok widerspricht dem ganzen ja nicht.

        Und wenn es am oberen Ende stabil ist, dann ist das doch ein Zeichen dafür dass das System funktioniert. Also sehe ich nicht ein wieso du so tust als würde es nicht funktionieren. Dann ist nämlich genau gegeben, dass die guten Spieler weiterhin gut bleiben und eben nicht solche chaosdinge passieren wie in deiner Simulation mit den falschen Gewinnwahrscheinlichkeiten.

        Es gibt nicht genau diese transitivität na und ist ja komplett egal, das Rating gibt die ungefähre Spielstärke der Spieler dennoch wieder und deine Tabellen wiederlegen das nicht.
        Denn mit diesen Gewinnwkeiten die du hast kann man nicht auf dieses Rating kommen auch nicht mit Rating campen und nach x:3 droppen. Und da diese high Rating Spieler auch GPs spielen spielen sie ganz klar NICHT nur auf Events mit nur Pros (also in keinem abgeschlossenen System nachdem sie einmal hoch gekommen sind).

        So als kleiner Anhaltspunkt ob man X:3 oder X:0 steht spielt ja eigentlich keine Rolle da ob man ein Spiel gewinnt nicht von den vorherigen Spielen abhängt das sind ja unabhängige Zufallsvariablen.
        Also die Strategie immer auf einem Turnier nach X:3 zu droppen erhöht die Gewinnwkeit NICHT in keinem der beiden Modelle!

        Um Rating zu campen muss man zuerst das Rating erhalten
        haben und sobald man spielt würde es wieder abflachen.

        Natürlich machen die Pros diese Dinge ABER das geht eben NUR weil sie mehr oder weniger die GewinnWkeit vom Elo system haben und nicht deine angenommene. Mit deiner angenommenen könnten nicht die Pros konstant oben bleiben, solange sie auch GPS spielen, egal was für eine Droppstrategie sie haben. (Das meine ich mit Zeigen wie das geht zeig wie man mit deinen Gewinnwkeiten konstant oben bleiben kann, das geht nämlich nicht!)

        Nochmal um es klar zu machen:

        Pros machen kein Rating camping und spielen NICHT nur auf Turnieren mit nur guten Gegnern. Und egal welchen K Value du den Turnieren zuordnest (solange er grösser 1 ist) man schafft mit deinen Wkeiten es NICHT an der Spitze zu bleiben, auch nicht mit X:3 Dropp Strategien.

        Und wenn man sich alle Pros gemeinsam ansieht ist auch klar, dass nicht alle bei GPs Rating verlieren können und das dann wieder von andern Pros holen auf den Pro Tour, weil so sonst der Schnitt der Pros sinken würde.

        Das heisst du bist immernoch in der Situation in der du eine falsche Annahme machst. Und aus der kann man bekanntlich alles folgern.

        Wenn A gilt

        man B annimmt

        Aus B folgt dass A falsch ist.

        Dann kann man folgern dass man selbst der Papst ist.

        Und genau das tust du im andern Blogg. Falsche Gewinnwkeiten annehmen welche NIE und nimmer zu solchen konstanten hohen Ratings bei Pros führen können.

        Ein korrekter Beweis würde so aussehen:

        Wir wissen die Pros haben diese hohen Ratings.
        Wir wissen, dass die Spielerschaft mehr oder weniger Gaussverteilt ist. (Bei GPs bischen höher)

        Du nimmst an, dass ihre Gewinnwkeiten tiefer sind als durch Elo vorhergesagt und einen durch einen Chaosfaktor entstehen.

        Du zeigst ah mit diesen Gewinnwkeiten kann man nicht auf diese Ratings kommen und die konstant halten.
        (Das zeigen ja genau diese Tabellen, dass Pros mit solchen C Faktor Wkeiten eben das Rating verlieren würden, sobald sie überhaupt an GPs spielen würden.)

        Folgerung: Die Annahme war falsch.

        Ein schöner Widerspruchsbeweis den du da hast der zeigt dass es keinen C Faktor geben kann.

        Danke dass du dir dafür die Arbeit genommen hast, das nächste mal nur noch richtig hinschreiben was du bewiesen hast, dann ist der Beweis auch korrekt.

        • trischai sagt:

          Erstmal um ein Missverständniss zu klären ich hab einen 2000er simuliert dieser hatte im Schnitt eine win% von 73%. Tatsächlich hätte er eine von 75% haben müssen laut Elo. Du siehst die sind nicht weit weg. Der 2000er kann nur nicht mehr win% als 75% im Mittel erreichen. Gegen Scrub geht das sogar hoch bis 99%. Nur nicht mehr immer, sondern von Spiel zu Spiel zufallsabhäng! Wichtig sind jetzt nur die Schwankungen in den Einzelspielen! Da rechnet das System teilweise falsch. Nämlich immer dann wenn der Favorit den Skillcheck gewinnt aber der Zufallseffekt es ihm reinwürgt und(!) er gegen schlechter gerankte spielt. Ich habe bewusst nicht LSV simuliert um die Problematik an der Spitze zu vermeiden.

          Den Spass mit 3 Würfeln kannst du dir auch sparen du brauchst mindestens 100 unterschiedliche (!) und die versuchst du zu ranken. 3 Würfel sind keine Normalverteilung an Spielstärke!

          Les den Blog! Da hab ich alles, was erfüllt sein muss, aufgedrösselt!

        • BigBOne sagt:

          „Wenn wir 3 Spieler haben A B C
          A gewinnt gegen B mit 70%
          B gegen Spieler C mit 60 %
          C gegen Spieler A mit 55%“

          Wenn du davon ausgehst funktioniert ein Ratingsystem wirklich nicht(Weil bei dir A>B, B>C, C>A ist, ähnlich Stein Schere Papier)
          Wenn C immer nur gegen A spielen würde wäre er an der Spitze

          • Tigris sagt:

            Klar funktioniert es hier solange nicht immer nur die selben gegeneinander spielen sondern sie eben zufällig gegeneinander gelost werden und das mehrfach. A wird dann mit nur seeehr geringer Wkeit immer gegen A gelost. Wenn man hier folgendes macht: Man hat 20 Spieler A 20 Spieler B 20 Spieler C dann macht man ein Turnier im Schweizer System mit sagen wir 20 Runden.

            Nachher betrachtet man sich das durchschnittselo Rating aller As und aller Bs und aller Cs. Man wird genau das sehen was ich gesagt habe. A>B>C und A wird die grösste Chance haben ein Random Turnier zu gewinnen, solange die Anzahl As Bs und Cs gleich verteilt sind.

            Also sogar in diesem total konstruierten und nicht transitiven Fall gibt uns das Elo System eine ungefähre Abschätzung von der Spielstärke der Spieler und genau das soll es geben und nichts anderes.

            Dass man aus dem Rating 2er Spieler abschätzen können muss wer davon eher gewinnt ist doch nur Wunschdenken und nicht wichtig.

          • trischai sagt:

            Ein Teil der Cs wird aber irgendwo in der Mitte landen und ein Teil der As ganz oben. Denn eine Teilmenge der Cs wird immer das Glück haben und wird häufiger gegen A gepaired als gegen B. Dies ist kein faires Ranking nach Spielstärke, denn jeder Einzelne muss die gleiche Chance im gesamt Wettbewerb haben. Dieser Effekt wird auch umso größer je mehr unterschiedliche Würfel du benutzt.

          • Tigris sagt:

            Das ist doch immer so, es landen ja auch nie alle Pros auf einem Turnier ganz oben (und es haben nicht immer nur Pros deswegen hohe Ratings sondern auch Semipros usw) sondern nur ein Teil davon, wie auch nicht alle Neulinge auf dem hintersten Platz landen. Ich sehe auch nicht wie das nciht fair ist. Das ist doch das selbe wie mit den Matchups man kann Glück haben oder nicht dennoch gibt es ein Deck welches über das gesammte Feld die besten Gewinnwahrscheinlichkeiten hat.

            Wieso soll das kein faires Ranking sein? Wenn man die Anzahl der Spiele gegen unendlich konvergieren werden mit sehr grosser wahrscheinlichkeit alle As oben sein. Hier ist doch nur die Testgrösse die Frage. Und auch wenn es mehr Würfel gibt wird das nicht unbedingt schlechter, solange diese Würfel eine bestimmte logische Gewinnchance haben (z.B. nach APs Mexikanischem Metagame Beispiel).

          • trischai sagt:

            Selbst wenn du unendlich lange Spielserien machst. Wird sich das nicht stablisieren. Mach dir doch mal einen String aus einer zufälligen Anordnung von ABCs. Du wirst sehen da tauchen immer Cluster auf in denen ein Buchstabe gehäuft auftritt. Doch diese Häufungen haben katastrophale Auswirkungen. Ein Spieler mit hohem Rating würde durch einen unglücklichen Cluster enorm viele Punkte verlieren. Er müsste danach mehr als den 3-10fach langen günstigen Cluster erwischen, allein um die Verluste wettzumachen. Doch das ist super unwahrscheinlich. Wie man sieht, hängt ein stabiles hohes Rating in dem Beispiel mehr vom Matchupglück ab als Können. Und das soll ja ein Ranking ermitteln.

          • original_pete sagt:

            Ganz kurz zum Clusterproblem:
            – sollte durch geringere k-Werte an Bedeutung verlieren
            – verfälschte Ratings sind doch eher temporär
            – ist das Rating durch ein paar schlechte Matchups erstmal im Eimer, fallen die Verluste durch schlechte Matchups geringer aus, die Zugewinne durch gute Matchups dafür höher, umgekehrt genauso
            Dadurch strebt das Rating wieder Richtung „angemessener Wert“, auch wenn der Spieler nur durchschnittliches Matchupglück hat.
            Mag sein, dass er einen 3-10 mal so langen „Gegencluster“ erwischen muss, um die Schwankungen komplett auszugleichen, aber ein guter Näherungswert wird allemal wieder erreicht.

          • trischai sagt:

            Und dann kommt der nächste unglückliche Cluster und alles fängt von vorne an! Oder es kommt kein glücklicher Cluster sondern einfach nur ein Mix bei dem der Spieler lange im 1700er Sumpf rumpendelt bis es endlich aufwärts geht. Eine gute Messung der Spielstärke ist das nicht.

          • original_pete sagt:

            Guter Cluster und dann ganz lange gemischt konvergiert gegen denselben Wert wie schlechter Cluster und dann ganz lange gemischt.
            Da repariert ELO an für sich recht gut – andere Punkte, die du anführst, halte ich für wesentlich wichtiger.

    • Lim_Dul sagt:

      Interessante Frage bei LSV wäre, wie wäre sein Rating wenn er auch Turniere gegen 1600er spielen würde? Dann würde das nämlich mit Sicherheit deutlich fallen – auch unter 2050.

      LSV spielt hat nur Turniere unter seines gleichen – Pro Touren und Grand Prix. Und bei den Grand Prix hat er 3 Byes, was die Wahrscheinlichkeit gegen Random 1600er zu verlieren, reduziert.

      Das ist auch bei ein paar anderen so, die ich mir angeschaut haben. Die mit hohem Rating haben nur gute Turniere gespielt oder seit ihrem letzten Erfolg nicht mehr gespielt. Du findest so gut wie keine mit hohem Rating, die auch häufiger mal FNM und so in letzter Zeit spielen.

      • Tigris sagt:

        Das stimmt natürlich dass sie keine FNMs usw spielen. Es ist auch war, dass sie diese nciht wirklich spielen dürfen. Und es ist auch war dass die Leute die 3:0 stehen nicht die schlechtesten Spieler sind.
        Aber dennoch kann man nicht mit dem Chaosfaktor dann diese hohen Ratings holen und halten.
        Und es ist auch in keinster Weise ein Grund wieso man sagen könnte das Ratingsystem würde nicht funktionieren.

        Es ist sicher eine schwäche des Ratingsystems dass man nicht gegen schlechte Spieler spielen darf, ABER wegen dem ist das ganze System ja nicht falsch und man hat nicht diese dämlichen unnötigen C Faktoren drin.

        Und das Ratingsystem sagt dann insgesamt dennoch aus, wer ein besserer und wer ein schlechterer Spieler ist. (mehr oder weniger man kann halt nie direkt vergleichen).

        Das Elorating ist ein Modell es ist nicht Perfekt aber es funktioniert nich so schlecht.

        Wenn man das System ändern würde, dass man gegen schlechte Spieler tiefere Gewinnwkeiten hätte könnte man dann davon auch profitieren indem man dann sich sein Rating an schlechten Spielern hoch spielt (Fall Veronica R).

        Das wirklich falsche an disem System mit C Faktor war, dass es bei ALLEN schlechteren Spielern annimmt, dass man gegen diese eine kleinere Gewinnwkeit hat wegen des Glücksfaktors das ist der Fehler, man hat ja diesen Faktor schon drin in der Gewinnwkeit.

        Eine sinnvolle Ahnnahme wäre folgende: man hat nie eine höhere Gewinnwkeit als 90%(+-) dieser nähert man sich an wenn man unendlich Punkte abstand hat zum Gegner.
        Allerdings hat man gegen schon gegen Gegner mit nur 50 Punkten Rating weniger als man selber schon eine Gewinnwkeit von sagen wir 60% anstatt nur 57% wie das Elorating das hervorsagt. (also die Wkeiten gegen bisschen schwachere gegner erhöhen und die gegen viel schlechtere Gegner senken)

        Wenn man so etwas hat kann man damit auch auf solche Ratings kommen und die halten. So eine Ahnnahme wäre sinnvoll kommt ohne C Faktor aus und packt nicht Glück zweimal rein. (Glück ist ja schon bei der Gewinnwkeit drin).

        So in etwa wird es in der Realität auch sein und so nutzt es dann auch eher was 3:0 auf ein Turnier zu starten usw.

        Aber man muss auch sagen dass diese 3 Bye Dinge ein SEEHR guter Fix dieses Ratingmankos ist welches man hat.

        So können die Pros ihre Punkte nämlich gut halten trotz GPs usw.

        Übrigens macht es schon auch Sinn, dass man immer unter ähnlich starken spielt wie beim Schach auch, nicht nur wegen des Ratings sondern auch wegen des Spass.

        Es macht einfach keinen Sinn wenn man die besten gegen die schlechtesten spielen lässt. Und es ist deswegen eigentlich schon ok wenn in diesen Bereichen das Elorating nicht so gut funktioniert. Es kann kein Modell überall gleich gut funktionieren und es ist wichtiger dass es da gut funktioniert wo es auch Sinn ergibt.

        • trischai sagt:

          Genauso wie du es beschreibst funktioniert die Simulation. Ohne scheiss! Guck dir die random C- Verteilung an. Da ist nicht jedes Spiel schlechter sondern nur noch Teilmengen.

          • Tigris sagt:

            AH sorry erst jetzt gesehen. Ja das ist mir bewusst, aber KEIN Spiel ist besser, das ist ja das Problem, wenn bestimmte Spiele schlechter sind müssen auch bestimte besser werden, ansonsten senkst du die overall Gewinnwahrscheinlichkeit und man landet auf einem anderen Rating.

          • trischai sagt:

            Overall ändert sich gar nichts. Integriert man über das komplette Punktespektrum erhält man exakt 100%. In den angepasste Win% für Magic ist es nur so das man gegen bessere häufiger gewinnt als man (laut der Eloformel) sollte und gegen schlechtere verliert man häufiger. Das sollte aber aus den Diagrammen gut ersichtlich sein.

          • original_pete sagt:

            Ich finde nicht, dass man das leicht in den Diagrammen sieht, ohne die Originaldatei zu kennen.
            Dennoch halte ich diese Aussage von trischai inzwischen durchaus für plausibel und meine sogar eine Erklärung dafür gefunden zu haben, die ich allerdings noch verifizieren muss.
            Ähnlich verhält es sich mit den mit Zufallsfaktor eigentlich unmöglich guten Pro-Ratings – Erkärung gefunden, aber noch nicht bewiesen.

          • trischai sagt:

            Also ich hab jetzt von vielen gehört, dass mein erster Blog über das Elosystem nicht gut aufbereitet ist. Die Kritik ist wohl berechtigt. Vermutlich hätte ich erst den zweiten Blog posten sollen. Ich bin einfach davon ausgegangen, dass die meisten Leser all das schon kennen was im zweiten Blog steht. Falls ich nochmal ein Blog schreibe in dem es viel über Mathe geht, werde ich langsamer an die Sache rangehen. Ein Thema wäre da z.B. die optimale Landverteilung in einem Deck ausgehend vom Spielplan den das Deck hat.

          • original_pete sagt:

            Ist halt immer ne Gratwanderung.
            Der eine rennt schreiend weg, wenn er ne Formel sieht, der andere will es ganz genau wissen und nicht mit ein paar Tabellen aus ner Black Box abgespeist werden.
            Im Prinzip hast du das ja auch erkannt mit dem Einführungsartikel für die einen und dem Angebot der Orginaldatei (leider etwas groß für nen Posteingang) für die anderen.
            Vor dem gleichen Problem steht jeder, der hier Kommentare formuliert: Wie kompliziert darf es sein? – der Hintergrund der Rezipienten ist ihm schließlich nicht bekannt.

  3. schizzo1985 sagt:

    Du hast schon meine Kommentare zu deinem letzten Artikel gar nicht erst zugelassen. Warum sollte dann jemand deinen Beitrag noch lesen und kommentieren wollen?

    • trischai sagt:

      Also ich habe Kommentare gelöscht, die Beleidigungen gegen AP enthielten.

      Ansonsten hab ich auf jeden unveröffentlichten Kommentar per Email geantwortet. Alle enthielten sie gravierende Fehler, die auch nichts mit der Diskussion zu tun hatten.

  4. schizzo1985 sagt:

    Meine stehen immer noch in der Moderationsschleife (steht zumindest da) und emails hab ich auch net bekommen. evtl lags daran, dass ich versucht hab zu erklären, warum es irrelevant ist von luck und skill zu sprechen, weil das system nur den erfolg misst, unabhängig davon, wie der zu stande kommt.

    • trischai sagt:

      Von dir steht kein Kommentar noch in der Moderationsschleife. Hab gerade extra nochmal nachgesehen. Vorrausgesetzt natürlich, dass du nicht den Nickname geändert hast.

  5. Schizzo1985 sagt:

    Ich habe definitiv welche geschrieben. Ob die aus versehen gelöscht worden sind oder vom system als spam angesehen werden (warum auch immer) kann ich nicht sagen. mittlerweile macht es ja auch keinen sinn mehr diese noch freizuschalten, da 3-4 Beiträge mitten unter 100 eh niemand mehr finden würde. dennoch ist es doof sich die mühe zu machen lange beiträge zu verfassen, wenn man dann tage lang zu sehen muss wie die eigenen beiträge nie erscheinen

  6. original_pete sagt:

    Hallo trischai,
    ich hatte mich ja bereits unter dem ersten Artikel und Zweifel an der Richtigkeit deiner Simulationen angemeldet, auch wenn mein Kommentar nur einen Teilaspekt beleuchtet hat.
    Auch dieser Beitrag beschäftigt sich eher mit Artikel1, aber ich vermute, es ist in deinem Sinne, die Diskussion hierher zu verlagern.
    Ich hab es jetzt mal durchgerechnet und die Zweifel wurden bestätigt. Der von mir aufgezeigte Fehler in deinem Modell mit c-Faktor lässt sich allerdings relativ leicht beheben.
    Im Prinzip brauchst du zwei gesonderte Variablen für „Spielstärke“ und „Rating“. Die Hauptperson in deiner Simulation besitzt ja auch eine Spielstärke von 2000 und startet mit einem Rating von 1600.
    Allerdings hat dieser – von Tigris ebenfalls aufgezeigte – Punkt erstaunlich wenig Anteil daran, dass das Ergebnis ganz anders aussieht als von dir erwartet.
    Der Spieler KANN aus ganz anderen Gründen die 2000 Punkte gar nicht erreichen.
    Wenn du an den mathematischen Hintergründen interessiert bist, sag Bescheid, dann versuche ich, das genauer zu erklären.
    Gruß, Pete

    • trischai sagt:

      Also ich hab auch 2 unterschiedliche Variablen pro Spieler. Eine wahre Spielstärke und den aktuellen Wert des Elos. Die Spielstärke gibt mir dabei an wie gut der Spieler wirklich spielt. Der aktuelle Wert wird benutzt um das neue Elo zu berechnen. Dann gibt es noch einen großen Spielsimulator der abhängig von der Spielstärke und dem Glücksfaktor das Ergebnis „auswürfelt“. Im Prinzip so wie ich es im Blog oben beschrieben habe.

      • original_pete sagt:

        Gilt das mit den 2 Variablen auch für die Gegner? So wie der Spieler mit Stärke 2000 nicht mehr bei Rating 2000 landet, passen in der Simulation mit c<1 auch Rating und Stärke der Gegner nicht mehr zusammen.

        Zum anderen Punkt:
        Der Spieler im "c=0,5 Beispiel" landet deshalb nicht mehr bei ELO 2000, weil er maximal 75% der Spiele gegen das Feld gewinnen kann.
        Eine Gewinnchance von 75% sind in der verwendeten ELO-Version ca. 200 Punkte Vorsprung. Bei einem Felddurchschnitt von 1600 Punkten KANN also selbst bei einer beliebig hohen Spielstärke der ELO-Wert nicht gegen irgendwas über ca.200 konvergieren. Nur temporär oder durch das Inselproblem wird diese Schranke überschritten.
        Das ELO deines Beispielspielers sollte gegen ca. 1751 konvergieren.

        • trischai sagt:

          Jo jeder der Spieler hatte die 2 Variablen wobei dei wahre Spielstärke jedes Spieler konstant bleibt und sich nur das Elo ändert. Und aus genau dem Grund den du beschreibst, habe ich den Glückseinfluss auf das simulierte Matchergebnis nicht konstant gelassen sondern für jedes einzelne Match neu „ausgewürfelt“. Ausserdem konvergiert das System auch bei konstant C gar nicht. Ich hatte auch sowas erwartet wie du beschreibst. Einfach ein konstant falscher Offset aber ein stabiles System. Schau dir nochmal die Fehlerkurve an und vergleiche die mit der Fehlerkurve vom Schachbeispiel, da ist gar Nichts von konvergieren zu erkennen.

  7. Schizzo1985 sagt:

    Nachtrag: Scheinbar bin ich nicht der einzige, dem das passiert ist. Auch von einigen anderen wurden die Beiträge von Akismet als Spam behandelt. Sry war dann nicht deine Schuld, aber trotzdem doof für mich^^

  8. original_pete sagt:

    Dann hatte ich das im Artikel missverstanden. Ich dachte, du hättest auch unter neuen Bedingungen ein Rating von 2000 erwartet.
    Vermutlich lässt es sich in der Form eines Artikels gar nicht hundertprozentig darstellen, was genau du getestet, welche Annahmen du gemacht, welche Ergebnisse du erhalten hast, welche du erwartet hättest und warum das jetzt gut oder schlecht ist.
    Solange ich die Originaldatei nicht kenne, diskutieren wir vermutlich komplett aneinander vorbei.
    Dem Kern deiner Aussage, dass auch das ELO-System nicht unfehlbar ist, stimme ich ohnehin zu. Dennoch hat es mir deutlich besser gefallen als das Machwerk, welches wir nun am Hals haben…

    • trischai sagt:

      Das neue ist genauso verkorkst wie das alte. Keines davon ist fair. Die Frage ist ob Magic überhaupt ein faires Ranking braucht. Poker hat auch ohne Ranking viel Erfolg. Es ist ja gerade dieser „On a lucky day everyone can win“ Aspekt, der viele Turnierspieler in Magic bei der Stange hält. Viele haben nicht das Mindset „Ich trainiere jetzt wie blöde damit ich besser werde und irgendwann die Nummer 1 bin“, sondern eher „beim nächsten Turnier bin ich der glückliche Gewinner“. Wizards versucht jetzt dieser großen Masse gerecht zu werden, ohne den Spielern Steine in den Weg zu legen. Genauso wie es die großen Pokerveranstalter auch machen.

  9. BigBOne sagt:

    Bei Schach funktioniert Elo folgendermaßen:
    Zu Beginn des Spiels ermittelt Spieler_A aus allen möglichen Zügen(~10^120 Elo geht von ->unendlich aus) während des gesamten Spiels die besten x Züge, Spieler_B 3x Züge und Spieler_C 9x Züge. Dann wählt jeder Spieler eine von diesen Zugfolgen zufällig aus.
    (In Wirklichkeit denkt man zwischendurch immer wieder nach wie es weitergehen könnte, ist aber irrelevant da man dies ja theoretisch tun könnte. Je weiter man denkt, desto weniger beste Züge hat man.)
    Daraus ergeben sich die Gewinnwkeiten wie bei Elo: A:B->3:1, B:C->3:1 und A:C->9:1.

    Bei Magic müsste man die Reihenfolge der Bibliotheken beider Spieler nach jedem Mischen sowie die Ergebnisse von Random Discard, Coinflips, etc. schon beim Schreiben der Deckliste kennen, um ähnlich Gewinnwkeiten anzunehmen.

    Man kann also, abgesehen von Wahrschinlichkeitsbestimmungen, immer nur bis zum nächsten Informationserhalt enscheiden und wählt dann wieder zufällig einen der besten ermittelten Züge aus. Dh im Gegensatz zu Schach wird nicht nur einmal ein Weg gewählt, sondern sehr häufig. Im Falle von unedlich vielen würde aus 1/(1+10^(x/r)) bei Schach zu s/(2(x+s)) ; s^2=r (für 0<=x) bei Magic werden.
    x = Rating_Gegner-Rating_Selbst, r = eine beliebige Konstante.

    Ich hoffe die Aufteilung von Zufall in "hidden information" und einen sehr kleinen Teil Zufall ist erkennbar.

    Gewinnwkeiten Vergleich mit Elo bei s=150:

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.