Warum das Elosystem für Magic nicht funktioniert.

Vor kurzem hatte ich eine Diskussion mit Andreas Pischner ob es überhaupt möglich ist mit dem Elo-Ratingsystem, wie es bisher benutzt wurde, den tatsächlichen Skill-Wert von Spielern in Magic zu messen.

Da eine ausführliche Antwort den Rahmen der Kommentarfunkion bei weitem gesprengt hätte, habe ich jetzt diesen Blogeintrag verfassen. Wer Angst vor Mathe oder Diagrammen hat, sollte besser nicht weiter lesen. Für alle, die wissen wollen warum ein Elosystem bei Spielen mit Glückfaktor nicht funktioniert: Herzlich Willkommen.

Ein kurzer Edit bevor noch mehr Fragen in die Richtung kommen. Das Ideengut im folgenden Blog stammt nicht von mir sondern von wissenschaftlichen Veröffentlichungen siehe z.B. hier oder hier. Ich habe die Problematik jediglich für Magic reproduziert.

Ein zweiter Edit: Wer der Meinung ist das Dargelegte im folgenden Blog sei falsch, kann mich auch in Skype unter trischai anrufen. Es hat sich in den Kommentaren gezeigt, dass das Thema für viele zu komplex ist. Was vollkommen verständlich ist da Rankingsysteme nicht Allerweltswissen sind. Daher ist es vielleicht besser ein persönliches Gespräch zu führen, damit ich nicht bei jedem Kommentar, der gegenteiliges zu dem im Blog dargelegten behauptet, die selben Erklärungen abtippen muss. Dazu bin ich langsam zu faul und ich kann besser reden als schreiben. 🙂

Beim Elosystem, wie es von der DCI benutzt wurde, errechnet sich der neue Elowert (ELO_neu) aus dem alten Wert (ELO_alt) und einem Punktewert (k) um den gespielt wird. Der genaue Punktgewinn ergibt sich dabei prozentual durch die Gewinnwahrscheinlichkeit (GeW).

ELO_neu = ELO_alt +k(Erg – GeW/100)

Dabei ist Erg das Ergebnis der Partie (1 gewonnen, 0,5 unentschieden und 0 verloren). Die Gewinnwahrscheinlichkeit ergibt sich aus folgender Funktion:

GeW  = 100/(1+10^((ELO_gegn-ELO_eig)/400))

Grob kann man sagen wenn der Elounterschied 200 Punkte beträgt, hat man eine Gewinnwahrscheinlichkeit von 75%. Bei 400 Punkten sind es dann mehr als 90%. Wichtig ist, dass es wirklich eine Wahrscheinlichkeit ist. Ein Spieler in Schach gewinnt nicht automatisch nur weil er der besser gewertete Spieler ist, sondern nur wenn er tatsächlich besser ist. Das Elosystem ranked ihn dann nach jeder Party neu und versucht so sukzessive den wahren Elowert des Spielers zu ermitteln. Ist dieser Wert erreicht, verliert der Spieler keine Punkte mehr und sein Rating bleibt stabil.

Am besten zeige ich einfach mal ein Beispiel. Für die Berechnung habe ich die Ratingentwicklung eines Spielers in Schach gegen 10000 Gegner simuliert. Die Gegner hatten dabei eine Normalverteilung ihres Ratings mit einem Mittelwert von 1600 und einem Sigma von 150. Dabei hatte der Spieler ein wahres Rating von 2000, dass seine wirkliche GeW bestimmt und ein Startrating von 1600, dass die GeW des Elo Systems bestimmt. Da es nun eine starke Diskrepanz zwischen wahrer GeW und ELO GeW gibt ist die Frage: Schafft es das Elosystem diesen Fehler zu korrigieren?

Wie man an dem Diagram schön sieht, konvergiert das Rating sehr gut zum wahren Rating des Spielers und bleibt danach relativ stabil . Man kann auch schön erkennen, dass das System sich wie eine Regelsteuerung verhält und immer wieder versucht sich zu korrigieren, was zu leichten Schwingungen führt. Auch wenn man einen Lerneffekt berücksichtig konvergiert das Rating sehr gut hin zum tatsächlichen Wert.

Wie weiß man aber, dass diese Ergebnisse nicht Zufälle sind oder durch andere Effekte bestimmt werden. Dafür muss man die Entwicklung des Berechnungsfehlers zwischen angenommener GeW durch den Ratingunterschied und der tatsächlichen GeW anschauen. Mal als Beispiel: man hat gegeben durch seinen wahren Skillwert eigentlich ein GeW von 90%. Durch das noch zu niedriges Rating sagt aber das Elosystem, basiertend auf den aktuellen Rating, eine GeW von 60% vorraus. Der Fehler beträgt also 30% Punkte. Das Elosystem versucht jetzt diesen Fehler zu verkleinern und wenn es konvergiert geht der Fehler gegen 0%. Für das erste Diagram ergibt sich folgender Fehlerverlauf.

Im Diagramm kann man sehr gut sehen wie das Elosystem sich selbst korrigiert. Am Anfang ist der Fehler sehr groß, wird dann schnell abgebaut und sobald der wahre Wert erreicht ist, oszilliert der Fehler um die 0% Marke. Wie gut diese Steuerwirkung bzw. wie klein die Varianz ist, sei erstmal irrelevant. Wichtig ist man kann eindeutig eine Regelung erkennen.

Kommen wir jetzt zu Spielen mit Glücksfaktor wie Magic. Es ist klar, dass es in Magic einen Skillanteil und einen Glücksanteil gibt. Wie hoch der Glücksfaktor in Magic ist, kann man nicht genau sagen aber man kennt von Pro-Spielern die Gewinnwahrscheinlichkeit recht sicher. Sehr gute Spieler erreichen 60% gegen die Welt und absolute Spitzenspieler 70%. Das ist niedriger als die ELO Wertung vorhersagt. Ein 2000 ELO Spieler gewinnt einfach nicht mit über 90% gegen einen 1600 ELO Spieler. Sondern er hat eine niedrigere Gewinnwahrscheinlichkeit (so um die 75%) und er verliert auch nicht mit 90%+ gegen einen 2400 Spieler sondern wird wohl mehr als 30% holen. Dies kann man recht gut simulieren mit einem Chaosfaktor, der die Gewinnwahrscheinlichkeit modifiziert und so dem Glücksanteil Rechung trägt:

GeW_mod = (GeW_Elo -50%)*c-Faktor+50%

Im einfachsten Fall ist der Chaosfaktor konstant. Wobei ein c Wert von 0 ein reines Glückspiel darstellt und 1 ein Spiel wie Schach. Nimmt man einen c-Faktor von 0,5 an ergibt sich für einen 2000 ELO Spieler einen Gewinnwahrscheinlichkeit gegen die Welt von 69%. Also ziehmlich nah an dem Resultat, dass man von einem guten Spieler erwartet.

Wie man an dem Diagramm gut erkennen kann folgt die modifizierte GeW, der vom Elosystem und produziert für einen 2000 Spieler Gewinnwahrscheinlichkeiten, die in einfacher Näherung glaubhaft sind. Er gewinnt jetzt zu 75% gegen schlechte Spieler hat aber auch immer mehr als 25% gegen wesentlich bessere Spieler. Vermutlich sind die GeW sogar überbewertet aber ich wollte sicher gehen. Außerdem sollte man bedenken, dass dies ein sehr einfaches Modell ist, zu einem besseren komme ich später. Die Frage ist jetzt, kann sich das ELO System immer noch selbst korrigieren? Also wieder den gleichen Spieler gegen die gleiche Normalverteilung an Gegnern antreten lassen.

Öhm tjoar äääh was ist denn da los? Also das korrekte Rating trifft das System schon mal nicht. Schauen wir mal nach wie es mit dem Fehler steht.

Kann da noch jemand eine Regelung erkennen. Also ich kann’s nicht. Und das ganze ist auch sehr gut erklärbar. Durch den c-Faktor kommt eine weitere Variable in das System. Das Elorating kann aber nur mit einer unbekannten Variablen funktionieren. Danach wird es instabil und genau dies sieht man am Verhalten des Fehlers. Das „Rating“ ist in Wahrheit nur eine Hausnummer und ist ein statistisches Artefakt. Genau hier ist ELO Rating tot und begraben für Magic! Es konvergiert noch nichtmal für dieses einfache System, bei dem man nur die GeW an Magic Verhältnisse angepasst hat. Mehr ist gar nicht passiert! Erst ab c-Werten von 0,9 und mehr konvergiert es wieder, aber dass würde bedeuten, dass es kaum Zufallseffekte in Magic gibt, die den Ausgang eines Matches beeinflussen. Was eindeutig nicht der Fall ist.

Im Folgenden werde ich nur noch „kurz“ auf ein paar Verbesserungen der Simulation eingehen und diskutieren wie man das hohe Rating von Pros in Magic erklären kann.

Eine Frage wäre, ist ein konstanter c-Faktor überhaupt korrekt? Der Einfluss des Glücks ist ja recht relativ. Es gibt Spiele, die werden alleine durch Skill entschieden und andere, die eigentlich reine Münzwürfe sind und bei denen man als Spieler so gar nix machen kann. Daher hab ich den c-Faktor als nächstes zufällig angenommen. Wobei als untere Schranke 0,2 galt und als obere Schranke 1. Als Erinnerung 1 bedeutet keinerlei Glück im Spiel und 0 das Spiel ist ein Münzwurf. Die Gewinnquote gegenüber der Welt für einen 2000 ELO Spieler ergibt sich dann zu 73%. Die gesamte Verteilung sieht folgendermaßen aus.

Wie man sieht, ist die Verteilung auch eher konservativ. Der Spieler hat einfach immer eine bessere Gewinnwahrscheinlichkeit als 50% gegen schlechtere Spieler. Obwohl dies im wahren Leben nicht so ist. Ein Spiel Screw, das nächste Flood und schon ist es vorbei. So etwas passiert in Magic einfach. Doch solche krassen Fälle von Glück berücksichtige ich gar nicht.

Die Rating Entwicklung sieht dann so aus:

Und der Fehler so:

Da ist keine Konvergenz zum wahren Rating oder eine Steuerwirkung zu erkennen. Obwohl der Spieler immer noch mehr gewinnt als verliert und in der modifizierten GeW-Verteilung sogar die tatsächliche ELO GeW-Verteilung enthalten ist.

Die Frage ist jetzt warum gibt es in Magic eigentlich Pros. Es ist doch scheinbar so, dass bessere Spieler ein hohes Rating haben. Nun da kommen wir zum so genannten Bottom Feeder Effekt. Es gibt in Skill basierten Spielen immer einen Prozentsatz von Spielern, die das Spiel gar nicht spielen können aber noch ein zu hohes Rating haben. Gegen diese Spieler gewinnt ein besserer Spieler quasi immer. Meisten hören diese schlechten Spieler auch schnell wieder auf, was zu einer Ratinginflation der aktiven Spieler führt. Nimmt man nun an, dass der gute Spieler gegen alle Gegner gewinnt, welche ein ELO-Rating von 400 Punkte weniger haben, ergibt sich folgende GeW Verteilung:

und diese Ratingentwicklung,

aber mit diesem Fehler!!!

Das Rating sieht jetzt so aus als ob es gegen den richtigen Wert konvergiert. In Wahrheit ist es aber nur ein weiteres Statistikartefakt, dass sich durch das geschenkte Rating der Bottom Feeder ergibt. Der Fehler konvergiert überhaupt nicht und zeigt auch keinerlei Steuerwirkung – selbst nach 10000 Partien passiert da nix. Es zeigt aber ganz klar, dass der Bottom Feeder Effekt zum Teil erklären kann wie es zu hohen Ratings in Magic kommt. Man braucht einfach nur ein guten Spieler und einen großen Vorrat an überbewerteten Spielern oder konstant schlechten Spielern gegen die der Pro jetzt leicht gewinnen kann.

Der zweite Effekt, der kurzfristig zu einem hohen Rating führen kann, ist der k-Wert also der Punktewert um den gespielt wird. Generell kann man sagen, dass hohe k-Werte dazu führen, dass schneller das wahre Rating erreicht wird aber die Oszillationen sind stärker. Ein kleiner k-Wert bedeutet das genaue Gegenteil. Normalerweise wird deswegen ein hoher k-Wert für Anfänger eingesetzt und ein kleiner für Profis! Bisher hab ich ausschließlich einen kleinen k-Wert von 10 angenommen. Erhöht man diesen auf 40, wie er für Grand Prix in Magic eingesetzt wurde, sieht die Ratingentwicklung für unseren 2000 Spieler so aus:

Auch damit lässt sich ein temporäres, hohes Rating erklären. Hinzu kommen noch Effekte wie Rating campen und selektives Auswählen wann man spielt. Beispiele dafür wären Aktionen wie 1:0 drop mit einem schlechten Limited Deck, wohingegen man mit einem 0:2 Bombendeck noch weiterspielt. Weiterhin sollte man auch beachten, dass die bekannten Pro Spieler nur einen winzigen Bruchteil der gesamten Spielerschaft ausmachen. Selbst wenn sie -durch welche Effekte auch immer- ihr richtiges Rating haben, der größte Teil der Spieler hat ein falsches Rating, und dass ist extremst unfair, da somit viele Spieler keine Chance auf Rating Invites und GP-Buys haben.

Ich hoffe ich konnte schlüssig darlegen warum das ELO Rating in Magic nicht funktioniert und auch nicht gefixed werden kann. Man bräuchte ein TrueSkill System, dass jedem Rating noch einen Unsicherheitswert zuweisst, dieser basiert im Wesentlichen darauf wieviel die Spieler schon gespielt haben. Das würde theoretisch funktionieren. In der Praxis wären Turnierspieler gezwungen ständig zu spielen, da die Unsicherheit wieder steigt, sobald man nicht spielt. Darüber hinaus ist das System auch nicht geschlossen was regelmäßige Resets erzwingt. Beides führt dazu, dass die Spieler genötigt sind viel zu spielen oder ihr Rating ist nichts wert. Aber genau dieser Spielzwang bzw. Grinding ist ja der große Kritikpunkt am Planeswalker Points System.

Wer selbst ein bisschen mit dem Rating spielen will oder meine Berechnungen überprüfen will, dem kann ich die Excell Datei schicken. Sie ist allerdings 26 MB groß. Vielleicht kann Ormus sie ja hosten, dann hätten alle leichten Zugriffe auf die Datei.

Dieser Beitrag wurde unter Math wins again veröffentlicht. Setze ein Lesezeichen auf den Permalink.

115 Responses to Warum das Elosystem für Magic nicht funktioniert.

  1. Du hast es doch tatsächlich geschafft, das Nichtfunktionieren des Systems in Deine Berechnung als VORAUSSETZUNG einfließen zu lassen, und diese Voraussetzung dann bei Durchführung Deiner Simulation auch wiederzufinden!

    Es gibt keinen „Chaos-Faktor“, trischai. Es gibt eine Gewinnwahrscheinlichkeit. Wichtiges Wort hierbei. WAHRSCHEINLICHKEIT. HIER ist die Zufälligkeit bereits enthalten. Gäbe es keinen Zufall, Gäbe es keine Gewinnwahrscheinlichkeit, sondern einen vorbestimmten Ausgang des Spiels. Nach Deiner (völlig absurden!) Annahme, dass Schach keinen Zufallsfaktor besitzt, würde der bessere Spieler IMMER den schlechteren schlagen. Das ist nicht der Fall. Deswegeben gibt es eine GewinnWAHRSCHEINLICHKEIT, in welcher der Zufallsfaktor bereits enthalten ist. (Und deswegen würde, wenn Elo nicht für Magic funktionieren würde, es auch nicht für Schach funktionieren.)

    Das Elo-System beruht darauf, das tatsächliche Abschneiden eines Spielers im Vergleich zu anderen Spielern darzustellen. Deswegen arbeitet es mit tatsächlichen Gewinnwahrscheinlichkeiten.

    Deine Simulation beruht auf der Annahme, dass die vom Elo-System ermittelte Gewinnwahrscheinlichkeit (auf Grund des „Chaos-Faktors“) NIEMALS gleich der tatsächlichen Wahrscheinlichkeit ist! Dementsprechend erzeugt auch Deine Simulation das Ergebis, dass die vom Elo-System ermittelte Wahrscheinlichkeit sich niemals der von Dir postulierten „tatsächlichen“ Wahrscheinlichkeit annähert.

    Du gibst als Input GeW_mod ungleich GeW_Elo ein, und erhältst als Ergebnis GeW_mod ungleich GeW_Elo.

    Ach nee!

    Wenn Du wirklich in diesem Bereich arbeitest, solltest Du diesen Artikel vielleicht besser aus dem Netz nehmen, bevor Dein Arbeitgeber ihn sieht….

  2. trischai sagt:

    Les mein Blog nochmal! Es steht klar drinne das es eine Wahrscheinlichkeit ist und ein Spieler der 80% hat nur mit 80% gewinnt. Ich kann dir auch das File geben, da kannst du eindeutig sehen, dass auch in der Schachberechnung eine Zufallszahl benutzt wird um den Ausgang zu bestimmen. In Magic ist aber tatsächlich, die erwartet GeW durch das Rating anders als die tatsächlich mögliche!. Ein Elounterschied von 600 bedeutet nicht 99% Gewinnwahrscheinlichkeit in Magic. In Schach würde der Favorit jetzt wirklich in 99% gewinnen. In Magic ist das limitiert durch den Glücksfaktor des Spiels.

    • Ich hab den Eintrag sehr deutlich gelesen. Wie ich bereits in unserer Dikussion auf ZEROMAGIC vermutet habe, liegt Dein Fehler nicht in der Mathematik, sondern in falschen Grundannahmen:

      1: Schach besitze keinen Zufallsfaktor.
      2: Die Natur der Gewinnwahrscheinlichkeiten von Schach und Magic sei daher prinzipiell unterschiedlich.
      3: Es gebe daher, anders als bei Schach, eine „wirkliche“ Gewinnwahrscheinlichkeit in Magic, welche ungleich der „tatsächlichen“ sei.

      Alle diese drei Annahmen sind FALSCH.

      Richtig ist: Das Elo-System funktioniert bei Schach genau so wie bei Magic.
      Sowie: Das Elo-System funktioniert, bei Schach genauo wie bei Magic.

      • trischai sagt:

        Uh man

        Erstmal Schach besitz einen Zufallsfaktor, das ist die Gewinnwahrscheinlichkeit (Wahrscheinlichkeit = Zufall). Diese ist aber umso höher je größer die Ratingdifferenz ist.

        Die Gewinnwahrscheinlichkeit von Magic und Schach ist unterschiedlich, wenn man Partien mit ähnlich gerankten Spielern betrachtet. Komm schon das ist gesunder Menschenverstand. Bitte erklär mir wie man in Magic 90% Gewinnwahrscheinlichkeit erreicht gegen eine 1800 Spieler wenn man selbst 2200 Rating hat. Wäre es wahr, dass es in beiden Systemen gleich ist, würden Super Pros eine win% von 90% haben. Das haben sie aber nicht sonder sie ist limitiert auf 60-70%. Das sind klare Beweise, dass die GeW anders sein müssen! Die unmodifizierte GeW benutzt aber das ELO System um sich selbst zu korregieren, denn diese definiert zusammen mit dem K-Wert den Ratinggewinn nach der Partie.

        • Sorry, aber mit Dir zu diskutieren fühlt sich an, wie einem Blinden Farben zu erklären… Du verstehst leider weder die Natur des Zufallsfaktors in Spielen, noch die Funktionsweise des Elo Systems.

          Natürlich ist die Verteilung der Gewinnwahrscheinlichkeiten in Magic und Schach anders, aber ihr Zustandekommen ist trotzdem nicht systematisch unterschiedlich! In dem Moment, wo Du die realen Gewinnwahrscheinlichkeiten, welche das Elo System allein aus dem Ausgang der gespielten Partien approximiert, „modifizierst“, baust Du genau jenen systematischen Fehler in Deine Rechnung ein, den Du später als „Beweis“ stolz präsentierst!

          Tatsächlich hast Du (unwissentlich und unwillentlich) bewiesen, DASS Elo’s selbstkorrigierender Mechanismus ganz hervorragend funktioniert, nämlich bei Deinem Schach-Beispiel! Bei Deinem Magic-Beispiel führst Du nach eigenem Gutdünken UND IN DIREKTEM WIDERSPRUCH ZU DEN GRUNDLAGEN DES ELO SYSTEMS einen Deiner Fantasie entsprungenen „Chaos-Faktor“ ein. Was immer Du damit zu zeigen glaubst – mit der Funktionsweise des Elo-Systems hat es nichts zu tun!

          Schach besitzt einen geringeren Zufallsfaktor als Magic, ja. Dieser Umstand spiegelt sich in den real existierenden Gewinnwahrscheinlichkeiten bereits wieder. Das Elo System verarbeitet diese real existierenden Gewinnwahrscheinlichkeiten, ebenso wie die von Schach, korrekt und mit zufriedenstellenden Ergebnissen. Das ist alles.

        • Michael Müller sagt:

          Danke für das Super-Pro-Kompliment! 🙂
          Meine Lifetime-Limited-GeW ist > 67% (welches sogar noch verzerrt ist, da ich Draws als Losses betrachtet habe, wenn man die rausnimmt, liege ich über 71%)
          Also entweder bin ich der Superallerbeste von allen oder Deine Annahme ist schlicht falsch, würde mich mal interessieren wo die herkommt. Die einzige Diskussion zu dem Thema, die mir dazu einfällt, beschäftigte sich mit dem Thema, warum nicht immer dieselben die Pro Tour gewinnen, und da gab es die Bemerkung, dass selbst die besten Pros AUF DER PRO TOUR keine höhere GeW als 60% erreichen. Dass das Pro Tour Feld nicht normalverteilt ist, sollte eigentlich jedem klar sein. Sollte…

          • trischai sagt:

            Einzelergebnisse sind sehr schwierig zu bewerten. Deswegen hab ich ja auch über 10000 Matches angenommen in meiner Statistik. Meine Lifetime Limited GeW ist über 80%, dass liegt aber daran das ich lange in einem geschlossenen System gespielt habe in dem ich weit besser war als der Großteil der Spieler und es nur sehr wenige gab mit meiner Spielstärke. Mit dem Ergebniss das mein Rating gnadenlos überbewertet ist gegenüber der Normalverteilung an Spielern. Statistisch gesehen ist das ein Artefakt das vorkommt, wird aber bei einer großen Anzahl an Gegnern und Spielen ausgeglichen.

            Pro Tours darf man auch nicht ins Feld führen, denn diese haben wie du sagst nicht die selbe Normalverteilung wie die normale Spielerschaft. GPs sind da besser aber auch nur in grober Näherung. Deswegen habe ich auch nie mit PT argumentiert. Bei Super Pros also Leuten wie Finkel und Budde, die eine enorme Menge an Spielen gespielt haben: von Prereleases, über FNM, sonstige ranked Turniere, Nationals, PTQs GPQs bis hinzu GPs, Pro Tour kann man davon ausgehen, dass sie der Normalverteilung der Spieler begegnet sind. Deswegen hab ich ihre Werte als Richtgröße genommen.

            Man bedenke auch das ich die Werte genommen habe die über einen Super Pro liegen (69 und 73%) aber der Spieler den ich simuliert habe ist nur ein guter Spieler (2000 ELO nicht 2300+). Einfach um eine doppelte Sicherheit einzubauen. Aber selbst mit diesen gutmütigen Annahmen konvergiert das System nicht.

          • Michael Müller sagt:

            Dann nochmal die Frage: Woher hast Du die Daten?

            Btw: Davon auszugehen, dass Spieler die überdurchschnittlich viele Pro Touren in ihrer Match History haben, eine Normalverteilte Gegnerschaft besitzen, ist schlicht absurd.

            Und Du denkst, sie haben im Vergleich zu mir eine enorme Menge an Turnieren gespielt (weshalb mein Ergebnis ein Ausreisser sein müsste)?: Sorry, ich habe mehr Turniere gespielt als Kai und Jon zusammen!

          • trischai sagt:

            Die Daten stammen von Wizards Hall of Fame. Schau dir da die Win% an. Da ist nicht mehr win% als 66% und selbst zwischen GPs und PTs ist kaum ein Unterschied zu erkennen. Und wenn es stimmt das du mehr win% hast als er (oder andere Super Pros) und mehr Spiele gespielt gegen mehr Gegner warum bist du dann nicht besser geranked als Finkel oder andere Top Pros? Wenn das Elosystem in Magic funktioniert müsste es dich auch entsprechen einstufen können gegenüber allen anderen Spielern.

            Eine Normalverteilung als Startwert ist auch nicht erforderlich. Es war eine Annahme von Elo, dass die Spielstärke von Spielern in einem skillbasierten Spiel immer einer Normalverteilung folgt. Das System erzeugt deswegen eine Normalverteilung wenn es versucht Spieler nach ihrem Skill zu sortieren. Deswegen ist es besser bei einer Simulation von einer Normalverteilung der Gegner auszugehen da dann die Berechnung leichter konvergiert. Aber in Magic schafft das Elosystem es nichtmal dann. Klar gibt es exotische Fälle wie z.B. alle Spieler haben ein Skillwert von 1600 +/-10 dann kann das Elosystem auch in Schach nie ein Ranking durchführen.

          • Michael Müller sagt:

            Begreifst Du das wirklich nicht? Die HoF-Daten beziehen sich ausschliesslich auf Pro-Level Events! Glaubst Du allen Ernstes, das Level auf einer Pro-Tour wäre gleichhoch wie bei einem Random-FNM? Nein? Dann ist doch wohl logisch, dass die Pros auf FNMs eine deutlich höhere GeW (eigentlich GeH, aber um die Korinthe ist es mir grad egal) haben als auf der Tour. Deshalb ist deine Behauptung, die Pros hätten nur eine GeW von 60%-70% einfach falsch.
            Und ich bin deshalb nicht besser gerankt, weil die Pros eben eine deutlich höhere GeW haben (gegen das Random-Feld) als von dir vermutet, und genau das zeigt das Elo-Rating.

          • trischai sagt:

            GPs sind Open Events. Da darf jeder hin und da geht jeder hin. Oder denkst du jeder bei einem GP ist ein 2000+ Spieler. Auch PTs sind nicht geschlossen denn irgendwie muss man sich ja qualifizieren und dazu muss man gegen andere Spielen.

            Du darfst auch nicht vergessen ich habe nicht eine Pro Spieler simuliert sondern einen guten Spieler nur mit der win% eines Pros bei einem GP. Und die Win% ist auch nur ein Indikator um zu sehen ob die GeW Verteilung mit der Realität halbwegs übereinstimmt. In keine Berechnung geht die Zahl tatsächlich ein.

            Es geht auch nicht darum zu zeigen, dass die Super Pros es nicht verdient hätten in der Hall of Fame zu sein. Tätsächlich sind die Hall of Fame Kriterien das fairste Ranking das Magic zu bieten hat. Es geht um die Masse an 1600-2000 Spielern diese haben Ratings und damit Rankings die total unfair sind, weil das System gar nicht funktioniert.

          • Michael Müller sagt:

            Das heisst, du glaubst, das Level auf GP, Pro Tour und FNM wäre gleichhoch?
            Versuch bitte nicht der Frage auszuweichen.

  3. Vielleicht helfen Dir ja ein paar Gedankenexperimente:

    1. Nimm Dein Schach-Beispiel, wo Elo ja hervorragend funktioniert. Nun, wann immer sich zwei Schachspieler mit gewissen Gewinnwahrscheinlichkeiten gegenüber sitzen, nimm ihnen das Schachbrett weg und gib ihnen einen Prozentwürfel, um den Sieger auf Basis dieser Gewinnwahrscheinlichkeiten zu ermitteln. NICHTS ÄNDERT SICH.

    2. Nimm Dein Schachbeispiel. Greife aus der Spielerschaft jedoch eine Teilmenge heraus, deren Gewinnwahrscheinlichkeiten eine zu denen zwischen einer Gruppe von Magic-Spielern existierenden identische Verteilung der Gewinnwahrscheinlichkeiten besitzt. Lasse die Schachspieler und die Magic-Spieler spielen. DIE SIMULATION IST DIESELBE.

    Sieh es endlich ein: Eine Gewinnwahrscheinlichkeit ist eine gewinnwahrscheinlichkeit ist eine Gewinnwahrscheinlichkeit. Ob Du das zugehörige Spiel Schach, Magic oder Würfeln nennst, hat KEINE Auswirkung auf das System.

    ES GIBT KEINEN CHAOS-FAKTOR. Deswegen ist nur Deine erste Simulation relevant, die überzeugend zeigt, wie gut das Elo System funktioniert!

    • trischai sagt:

      Ich habe dir in meinem letzten Kommentar ein Beweis geliefert. Widerlege diesen mit harten Fakten. Ein Großmeistern in Schach holt auf einem Open, mit einer Normalverteilung der Spielstärke seiner Gegner, 90% der Spiele. Weiterhin reflektieren die Standings nach dem Turnier auch sehr gut das Ranking vor! dem Turnier. In Magic passiert das nicht. Wie erklärst du dir das? Die Antwort ist es gibt ein zusätzlichen! Glücksfaktor in Magic den es in Schach nicht gibt. Diesen berücksichtigt aber das Elosystem nicht bei seinen Neuberechnungen des Rankings.

      Zu deinem Punkt 1: Genauso funktioniert ja meine Simulation!

      Zu deinem Punkt 2: Natürlich ist es das Selbe wenn ich einen Spieler in Schach und Magic antreten lasse und er hat jeweils 75 %. Der Punkt ist aber das es dafür in Schach ausreicht ein beliebiges Päärchen von Spielern mit 200 Punkten Elounterschied zu nehmen. In Magic ist dies aber nicht wahr! Das Elosystem geht aber bei seiner Selbstkorrektur davon aus das dem so ist.

      Lässt man in Schach einen 1800 Spieler gegen einen 2000 Spieler endlos antreten haben beide am Ende immer noch das gleiche Rating. Lässt man das gleiche Päärchen in Magic antreten und beide spielen Burn.dec oder irgendein anderes Coinflip Matchup wird ihr Rating am Ende 1900 sein, obwohl das wahre Rating 200 auseinander liegt. Das wäre übrigens ein Beispiel mit Chaosfaktor 0 also komplett chaotisch. Natürlich gibt es auch Matchups bei denen beide Spieler das Maximum an Skill abrufen können Chaosfaktor 1. Dann wird das Matchup wieder 75%. Im Mittel hat man aber eine Mischung aus diesen Extremen, die aber zwangsläufig dazu führt, dass die GeW insgesamt niedriger ist für den Favouriten und höher für den schlechteren Spieler, als die vorhergesagte GeW vom Elosystem zu Beginn der Spielreihe.

  4. Zipfelklatscha sagt:

    Harte Diskussion, aber ich bleibe hängen bei 1: Schach besitze keinen Zufallsfaktor, wäre falsch? Wieso besitzt Schach einen Zufallsfaktor. Jeder Zug des Gegners und auch die eigenen sind 100% einsehbar, dein gegenüber KANN nichts machen was zufällig ist.
    Bei Magic dagegen gibt es Varianzen wie den Draw oder die unbekannten Handkarten.
    Oder was öffne ich in Boostern etc. das alles gibt es bei Schach nicht.
    Daher frage ich mich wo ist bei Schach der Zufall?

    • trischai sagt:

      Man muss hier aufpassen. Schach an sich besitzt intrinsisch keinen Zufallsfaktor. Man hat ja komplette Information und es gibt auch keinen ungesteuerten Effekt. Aber das Eloranking hat einen Zufallseffekt. Wenn ein 2000 Spieler gegen einen 1800 Spieler antritt. Sagt es vorraus das der Favourite in 75% der Fälle gewinnt. Weil eben 200 Punkte Unterschied genau diesem Stärkeunterschied entspricht. Aus dem Blickwinkel des Elosystems hat Schach also einen Zufallseffekt.

      Magic hat jetzt noch einen zusätzlichen Zufallseffekt, der den Ausgang einer Partie entscheiden kann.

      • Felix sagt:

        Hier wird vor allem der Begriff „Zufall“ und der Begriff „Wahrscheinlichkeit“ in unterschiedlichen Kontexten verwendet! Macht euch jeder noch mal klar, in welcher Art und Weise ihr hier von „zufällig“ und „Wahrscheinlichkeit“ redet und ihr werdet euer Missverständnis schnell beheben.

  5. lurgold sagt:

    Ich verstehe übrigens auch Andreas‘ Problem, also quasi seine Aussage „Natürlich kann das ELO System nicht so funktionieren, wenn es eine Gewinnwahrscheinlichkeit annimmt und du dann mit einer anderen rechnest!“ — aber so sieht es nun einmal im Moment aus (also das normale ELO im Magic-Umfeld). Interessant fände ich:
    Was passiert mit dem System, wenn man etwas an der Gewinnwahrscheinlichkeit bastelt? Also wenn du quasi einen gewissen Dämpfungsfaktor einbauen würdest, der die Gewinnwahrscheinlichkeiten der beiden Spieler etwas annähert? Wenn du eben den Zufallsfaktor von 0,5, der wohl so ungefähr Magic simuliert, nicht nur in der Simulation, sondern auch in der Formel berücksichtigst.
    Kann sein dass das nix bringt, aber evtl. löst das das Problem, oder? Kannst du das mal ausrechnen? :>

    • trischai sagt:

      Also die Aussage das die GeW anders sind als das von Elo vorausgesagte und das deswegen das System nicht mehr funktioniert, ist die Kernaussage meines Blogs. Das ist der Urgrund warum das ELosystem in Magic nicht funktioniert und man kann niemals in Magic die notwendige GeW erreichen, da es immernoch einen Glücksfaktor gibt in Magic. Das Elosystem ist einfach nicht robust genug um damit umzugehen und immernoch sinnvolle Approximationen das wahren Skillwerts zu liefern und damit ein faires Ranking zu ermöglichen.

      Wenn man jetzt in die Elo Berechnung auch den c-Faktor einbaut, hat man das Problem, dass er ja zufällig ist. Man kennt ihn nicht und muss ihn erst aufwendig aus den Daten extrapolieren und das für jeden einzelnen Spieler. Das würde schlussentlich zu dem TrueRating System führen, dass mit 2 Variablen pro Spieler rechnet einem Rating und einer Unsicherheit (aka c-Faktor).

  6. Gebetsmühle:

    Eine Gewinnwahrscheinlichkeit ist eine Gewinnwahrscheinlichkeit ist eine Gewinnwahrscheinlichkeit ist eine Gewinnwahrscheinlichkeit ist eine Gewinnwahrscheinlichkeit, egal wie sie zustande kommt.

    Es gibt weder in Schach noch in Magic eine andere Möglichkeit, eine Gewinnwahrscheinlichkeit zu ermitteln, als die Leute tatsächlich spielen zu lassen und den Ausgang zu beobachten. Die Geinnwahrscheinlichkeit, die man dadurch erhält, ist eine Approximation der tatsächlichen Gewinnwahrscheinlichkeit. Elo setzt diese Approximation in ein Rating um. Dabei ist es komplett wurscht, wie groß sie ist, so lange sie zwischen 0 und 100% liegt.

    Deine Annahme, dass Magic und Schach sich grundlegend unterscheiden ist genau das Ergebnis, das Du haben willst. Sie ist weder logisch noch belegbar noch wahr.

    Der ganze Blödsinn, der hier über „Schach hat keinen (intrinsischen) Zufallsfaktor“ geschrieben wird, belegt, dass offenbar kaum jemand begreift, was eine Gewinnwahrscheinlichkeit bedeutet.

    Ich bin, ehrlich gesagt, wirklich erstaunt, mit welcher Ahnungslosigkeit und Unverfrorenheit trischai hier einfach die Existenz eines „C-Faktors“ postuliert und seine gesamte Argumentation darauf aufbaut! Mit solchen Methoden kann man natürlich einfach ALLES beweisen…

    • trischai sagt:

      Bitte Bitte erklär mir wir ein 1600 rating player gegen einen 2000 Rating player in einem Burn Mirror zu 90% gewinnt. In Schach gewinnt der 2000 er zu 90%!. Nicht 100% nicht 50% sondern 90%. In Burn Mirror kommt 50% raus weil es keine Möglichkeit gibt für den guten Spieler da was herauszuholen. Und weich nicht wieder aus beantworte diese Frage!

      • Wie ich schon unter meinem Blog geschrieben habe, sind gewinnwahrscheinlichkeiten nicht transitiv. Nicht in Magic, und nicht in Schach.

        Wenn Schachspieler A eine Gewinnwahrscheinlichkeit von 75% gegen B hat und B eine von 75% gegen C, dann folgt daraus nun einmal NICHT, dass A eine Gewinnwahrscheinlichkeit von 90% gegen C hat. Und wenn A gegen B eine Geinnwahrscheinlichkeit von 75% hat, un gegen C von 90%, dann folgt daraus nicht, dass B gegen C 90% hat.

        Das ist in Magic nicht anders. Ein Spieler kann ein 2000er Rating bekommen, indem er eine große Anzahl Spiele gegen andere 2000er mit 50& wp macht, oder indem er gegen 1800er mit 75% wp spielt, oder indem er gegen 1600er mit 90% wp spielt. Ein auf eine dieser Arten erspieltes Rating bedeutet nun einmal nicht, dass man es in Spielen gegen jede Untergruppe der Gesamtspielerschaft bestätigen kann. Nicht in Magic, und nicht in Schach.

        Elo Ratings sind eine Approximation der Gewinnwahrscheinlichkeit gegen die Gesamtspielerschaft. Bei selektiven Partien gegen eine Untergruppe von Spielern mit bestimmten Ratings wird die Approximation gegen diese Gruppe genauer und gegen die vernachlässigte Gruppe ungenauer. Dieses Phänomen wird verstärkt, wenn bei diesen selektiven Partien der k-Wert erhöht wird, wie es bei Magic der Fall ist. Das ist im Schach ebenso wie bei Magic und ist der Grund, warum beim Schach höher geratete Spieler einen niedrigeren k-Wert verpasst bekommen.

        Das Phänomen der Rating-Inflation im Elo System ist sowohl im Schach als auch bei Magic bekannt und beschrieben (hast Du Dir eigentlich wenigstens mal die Wikipedia-Seite angesehen?) Ein Unterschied ist, dass Schach diesem Effekt gegensteuert, während Magic diesen Effekt bewusst verstärkt hat (um eine größere Ratingbreite zu erzeugen, weil Magic ansonsten eine schmalere als Schach besäße, eben weil es hier keine 90+%igen wps gibt). Es hat NICHTS damit zu tun, dass Gewinnwahrscheinlichkeiten bei Magic anders als bei Schach zustande kämen!

        Du gehst mit geradezu religiösem Eifer davon aus, dass Gewinnwahrscheinlichkeiten im „Glücksspiel“ Magic anders funktionieren MÜSSEN als beim „Nichtglücksspiel“ Schach. Deswegen bringst Du diese falsche Annahme als Voraussetzung in Dein Modell ein – und kriegst sie natürlich auch weider heraus!

        • trischai sagt:

          Was hat denn das mit meiner Frage zu tun. Du hast nicht 3 Spieler sonder einfach nur 2. Und der eine hat sein wahres Rating von 1600 und der andere eins von 2000. Wie das bisher bestimmt wurde ist erstmal egal wichtig ist das ist ihr Skillniveau gegeneinander. Das Elorating sagt jetzt okay laut meiner Formel die ich benutze gewinnt der 2000er mit 90% gegen den 1600. Dann benutzt es diesen Wert um die Punktzahl zu ermitteln, die von den Spielern nach der Partie addiert oder subtrahiert wird.

          Es ist doch wirklich ganz einfach. K-Wert von 10, Elodifferenz von 400 macht 90%, ergibt für den Favoriten einen möglichen! Punktgewinn von 1 Punkt wenn er gewinnt und 9 wenn er verliert. Nach 100 Spielen hat der 2000er in Schach 90 gewonnen und 10 verloren. Macht 90*1 = 90 Punkte gewonnen aber auch 10*9 = 90 Punkte verloren. Im Endeffekt passiert nix weil die Elodifferenz ihren Skillunterschied gegeneinander repräsentiert.

          In unserem Magic Beispiel sieht das Elosystem auch 2 Spieler und beide haben ein wahres Rating von 1600 und 2000. D.h der 2000er ist für dieses Beispiel wirklich der bessere Spieler. Wieviel besser ist egal er sei einfach nur klar besser.

          So wieder k Wert von 10, wieder ist die Elodifferenz 400, wieder sagt das Elosystem oh der bessere gewinnt zu 90%. Aber beide spielen jetzt 100 Spiele im Burn Mirror, bei dem es nur darauf ankommt wer besser zieht. Also ist die wirkliche GeW 50%. Beide spielen nun 50:50 Spiele. Aber der Pro bekommt immernoch nur 1 Punkt pro Sieg aber wenn der Underdog gewinnt bekommt er immernoch 9 abgezogen. Da der Pro aber nicht mehr die 90 Spiele holt sondern nur 50 verliert er sukzessive Punkte. Nicht mehr 9 sondern eine langsam fallende Punktezahl hin zu 5. Da ja nach jedem Match angepasst wird. Dies geht so lange weiter bis beide Spieler 1800 erreichen. Erst jetzt sieht das Elosystem 2 gleichstarke Spieler und gibt ihnen ein GeW von 50% – was dem Matchup entspricht. Beide gewinnen jetzt 5 Punkte und verlieren 5 Punkte. So wie es von Anfang an hätte sein sollen. Weil nunmal in Magic nicht nur der Elounterschied die GeW definiert sondern auch andere Effekt wie halt Matchups. In diesem einfachen Beispiel sind jetzt beide Spieler gleich geranket obwohl ein Spieler besser ist! Das ist unfair gegenüber dem guten Spieler und bevorteilt den schlechten und es ist kein Ranking mehr.

          Dies ist nur ein einfaches Beispiel zum nachvollziehen was passiert wenn die tatsächliche GeW von der GeW abweicht, die das Elosystem aus der Ratingdifferenz ermittelt. Bei meinen Berechnung hab ich aber noch nichtmal so extreme Beispiele berücksichtigt. Sondern gute Spieler hatten immer eine positive GeW gegenüber dem schlechten Spieler. In meiner Simulation hätte auch der gute Spieler im Burn Mirror immer 60:40 gespielt beim konstant c-Faktor Simulation sogar 70:30. Er muss aber 90:10 erreichen damit das System stabil bleibt.

      • TobiH sagt:

        Zum Beispiel indem er weiß, welche Hände er mulliganen muss, welche der gelegentlich auch im Burndeck enthaltenen Kreaturen er abschießen muss, indem er seine Manaausnutzung optimiert, besser sideboardet und indem er seinen Gegner mit seinem höheren Status und besseren Mental Game einschüchtert. Und wieso zum Teufel spielen beide überhaupt exakt dasselbe Deck? Dass 2000er einen Hang dazu haben, bessere Decks zu spielen als 1600er – ja, auch das erhält im Elo-Rating Einzug!

        Ach, und weißt du, was passiert, wenn der 2000er tatsächlich verliert? Sein Rating sinkt und das seines Gegners steigt, und zwar jeweils um mehr Punkte als beim gegenteiligen Ergebnis. Da sind wir dann bei der Selbstkorrektur des Ratings, die dazu führt, dass die durch die Ratingdifferenz ausgedrückte Gewinnwahrscheinlichkeit sich der tatsächlichen beliebig annähert. Allerdings drückt eine Ratingdifferenz von 400 Punkten eben genau NICHT aus, dass der 2000er ein BESTIMMTES Match gegen einen 1600er zu 90% gewinnt, sondern dass er allgemein Matches gegen 1600er zu 90% zu gewinnen pflegt. Dass er mal vielleicht auch Burn-Mirror spielt und da dann auch mal verliert, ist in den 10% ENTHALTEN!

        • trischai sagt:

          Les die Antwort die ich AP zuletzt gegeben hab. Da hab ich es vorgerechnet. Und das mit dem Burn deck ist ein Beispiel um ein anschauliches Bild zu zeigen, dass Magic anders ist als Schach was die Elo_GeW in Bezug auf Skill_GeW bedeutet. In der Simulation hatte der bessere Spieler immernoch eine bessere GeW als der schlechte Spieler. IMMER! Ab 400 Elo war es IMMER 60:40 oder besser. Im einfachsten Fall sogar 70:30. Les den Blog! Guck dir die Diagramme an! Trotzdem konvergiert das Rating nicht.

  7. Seufz… keine Korrekturfunktion, und eigentlich schaue ich gerade Bundesliga…

    Es muss natürlich heißen:

    Wenn Schachspieler A eine Gewinnwahrscheinlichkeit von 75% gegen B hat und B eine von 75% gegen C, dann folgt daraus nun einmal NICHT, dass A eine Gewinnwahrscheinlichkeit von 90% gegen C hat. Und wenn A gegen B eine Geinnwahrscheinlichkeit von 75% hat, un gegen C von 90%, dann folgt daraus nicht, dass B gegen C 75% hat.

    • trischai sagt:

      Direkter Quote von der Wiki:

      Transitivität ist jedoch eine notwendige Voraussetzung für ein sinnvolles Rating-System. Um diese Eigenschaft zu sichern, sind zusätzliche spezielle Annahmen zu treffen über die Wahrscheinlichkeits-Verteilungen der Spielstärken, die als Zufallsvariable zu interpretieren sind. Zu diesem Zweck setzte Arpad Elo bei der Entwicklung seines Rating-Systems als zusätzliche Hypothese eine quantitative Aussage bezüglich des Verhältnisses der Spielstärken von A und C voraus.
      Lässt man einmal die Möglichkeit von Remis außer acht, so besagt die Grundidee des Elo-Systems, dass, wenn etwa Spieler A gegenüber Spieler B ein 3:1-Favorit (d. h. A gewinnt 75 % der Partien gegen B) ist und B gegenüber C ein 2:1-Favorit, so fordert bzw. folgt aus Elos Modell, dass A gegenüber C ein 6:1-Favorit ist. Ohne diese Voraussetzung bräuchte A nicht einmal der Favorit zu sein.

      Allgemein: Ist A ein x:1-Favorit gegenüber B und B ein y:1-Favorit gegenüber C, so ist gemäß Elos Modell A ein xy:1-Favorit gegenüber C.

      Transitivität ist eine Grundvorraussetzung für Ranking Systeme. Es ist wahr das es möglich ist, das dem nicht so ist aber bisher wurde das in Schach oder anderen Skillbasierten Spielen nicht wiederlegt.

  8. Oh, und ich sehe gerade, dass DU noch einen Denkfehler hast. Die Deckwahl (bzw. die Kartenauswahl im Limited9 fließt selbstvrständlich in die Gewinnwahrscheinlichkeit ein!

    Übrigens gibt es ein ähnliches Phänomen durchaus auch bei Schach, wo manche Spieler sich in manchen Eröffnungen oder Varianten besser zurechtfinden als in anderen. Es ist also durchaus möglich, dass ein Schachspieler sich bei einem Turnier in einem ihm mehr oder weniger zuträglichen „Metagame“ wiedrfindet. Das ist aber völlig wurscht, weil die Approximation der Gewinnwahrscheinlichkeit per Definition immer über alle möglichen Fälle geht.

    • trischai sagt:

      Deswegen hab ich ja immer den guten Spieler eine Edge gegeben. Im Fall mit zufälligem c-Faktor is es sogar möglich das er die gleiche Edge hat wie in Schach.

      Den Fall den du beschreibst in Schach tritt auf bei Spielern im Berreich von 1600-1800 Elo. In dem Berreich haben die Spieler nicht genug Wissen bzw Eröffnung gelernt. Was ja Skill ist. Ein 2000 Elo Spieler hat aber ein großes Eröffnungswissen dass das Limitierte wissen enthält. Deswegen ist er ja besser. Also nicht nur aus dem Grund aber es ist eine Grundstein. Es ist natürlich möglich das der unterlegene Spieler mit 1600 immer noch zu 90% gegen den 2000er gewinnt. Es wird in Schach nie davon ausgegangen das jemand 100% hat.

      Aber du weisst doch am besten das man in Magic Matchups von 90:10 nicht erreichen kann. Selbst 75:25 ist utopisch in competetiv Bereich. Gute bis dominante Decks errreichen 60:40. Siehe die Results bei den Worlds. Ein guter Spieler gegen einen schlechten bringt nochmal 10% so dass man vielleicht bei 70:30 rauskommt. Oder würdest du irgendwas anderes als realistisch ansehen wenn ein Pro 2400 rating gegen ein guten Spieler 2000 Rating antritt?

      • Michael Müller sagt:

        Gute Spieler gewinnen gegen schlechte Spieler weit über 70% ihrer Matches!

        • trischai sagt:

          70% okay aber nicht 90%!

          Und auch nicht wenn ein 2000er gegen einen 1600 spielt und auch nicht wenn ein 2400 gegen einen 2000er spielt. Im very low Bereich unter 1600 ist das vielleicht möglich aber da kommen wir in Bereiche in denen auch das Elosystem in Schach sein Sinnhaftigkeit verliert. In meinem Blog habe ich dem auch Rechnung getragen mit dem Bottom Feeder Effekt.

          Und nochmal in meinem Berechnung hat der gute Spieler auch Spiele in denen er bis zu 90% Edge hat gegen jemanden der 400 Elo weniger hat. Er hat es nur nicht immer! Sondern im Mittel eine von 75%! Das steht wirklich alles im Blog. Sogar mit Diagrammen aus denen man das nur noch ablesen muss.

          • Michael Müller sagt:

            Dass Deine Schlüsse falsch sind, weil es diesen unsinnigen c-Faktor nicht gibt, versuchen Dir inzwischen 3 verschiedene Personen klarzumachen (und dass Andi und ich derselben Meinung sollte wirklich sämtliche Warnsignale in einem wecken), deshalb ist es unsinnig sich immer wieder auf sie zu berufen, um ihre Rechtmäßigkeit zu begründen.
            Und ja, jemand der regelmässig auf 2000 Niveau spielt, gewinnt ca. 90% seiner Matches gegen Spieler auf 1600 Niveau.

          • trischai sagt:

            Und warum sieht man das nie? Ein 2200+ Spieler hätte, laut deiner Aussage, eine 88% win% auf einem GP auf dem die Spieler eine Normalverteilung um 1800 haben. Bei einem 2400 Spieler würde sogar eine Normalverteilung der Gegner mit einem Mittelwert von 2000 reichen. Doch sowas wird von Pros in Magic nie erreicht, sie haben sowhl auf GPs und PTs eine win% von 60%. Es gibt riesen Anstrengung andere Ratingsysteme zu entwickeln, die mit einem zusätzlichen Zufallsfaktor zurechtkommen (siehe TrueSkill). Ich bin nicht der jenige der als einziger die Erkenntnis hatte, dass ist ein ganzes Forschungsfeld dass sich damit beschäftigt. Geh in eine Unibibliothek und such nach Papern über Rankings in Spielen mit zusätzlichen Glücksfaktor und du findest alles was ich sage bestätigt.

          • Michael Müller sagt:

            Weil zum einen die Frage ist, wer dieses Level konstant spielen kann. Für 2400 schliesse ich das erstmal aus, aber selbst bei 2200 gibt es wohl nur sehr wenige (wenn überhaupt). Zum anderen ist die Frage, wie hoch denn das durchschnittliche GP-Level ist? Immerhin bewegst Du Dich schonmal von dem 1600er-Irrsinn weg, aber ob 1800 ausreichend ist? Für Day2 kann ich mir das nicht vorstellen und für Day1? (wohlgemerkt wir reden hier von den Spielern, die nach X Runden max. X-3 Niederlagen haben) Hast Du da Belege für, dass das nicht höher ist?

          • trischai sagt:

            Schau mal LSV hat gerade ein Rating von knapp 2200. Er müsste auf einem GP gegen eine Normalverteilung mit einen Mittelwert von 2100 spielen um 60% win% zu erreichen, laut deiner Annahme. Es gibt aber weltweit nur 100 Spieler, die überhaupt dafür in Frage kommen. Das reicht niemals für einen GP mit 1500 Spielern. Es reicht noch nichtmal für Day2 auf einem solchen Event.

          • Michael Müller sagt:

            Dass ein Rating von 2200 nicht dasselbe ist wie ein Niveau von 2200 ist doch hoffentlich klar, oder? Wenn nicht, schau nochmal in Dein Schachbeispiel. Zeig mir bitte einen Graphen der längere Zeit um 2200 schwankt, dann hast Du einen Spieler, der ein 2200 Niveau haben könnte (er muss in der Zeit natürlich regelmässig spielen). Wenn während dieser Zeits eine GP-GeW deutlich unter Erwartungswert liegen, dann hast Du einen ersten Anhaltspunkt.

          • trischai sagt:

            Also den Kommentar versteh ich nicht ganz. Meinst du jetzt Schach 2200er oder Magic 2200. Also in Schach erreichen alle Profis exakt ihre GeW. Cornelson (Weltmeister in Schach) hat bisher auf einem Schachserver 1500 Matches gespielt der Fehler dabei zwischen vorhergesagtem GeW durch das Elosystem und tatsächlichem GeW ist kleiner 1%. Also gilt Rating = Skilniveau. Genau das Selbe kann man für jeden Profi in deterministischen Spielen zeigen.

            LSV dagegen erreicht nach hunderten GP spielen aber nur eine GeW von 60% obwohl das System sagt er müsste bis 80% haben. Und auch das nur wenn bei jedem GP immer die Top 1000 der Ranglist mitspielen. Spielen mehr niedrig gerankte Spieler mit steigt die GeW gegen 90%. Das sind 30-40% Fehler für einen der top gerankten.

          • Michael Müller sagt:

            Nein, Du behauptest, LSV hätte in 2200er Niveau, nur weil sein Rating gerade diesen Bereich berührt. Da Rating aber nie auf dem Niveau liegen, sondern um das Niveau schwanken (dass siehst Du im Schachdiagramm), ist überhaupt nicht belegt, dass er dieses Niveau hat (und die Varianz ist bei Magic höher als bei Schach aufgrund des höheren k-values, aber das ist eigentlich trivial) .
            Und deshalb kann man keine Schlussfolgerung über mögliche Fehler ziehen. Man braucht übrigens auch immer noch eine vernünftige Schätzung für das durchschnittliche GP-Niveau. Für zwei Unbekannte einfach einen willkürlichen Wert annehmen und damit einen Fehler begründen ist offensichtliches NoGo!

          • trischai sagt:

            Also ums mal deutlich zu sagen. Mit LSV GP win% müsste er ein Rating haben von 1900. Wenn man davon ausgeht dass die top 1000 Spielen auf jedem GP. Bessere Annahmen gibs nicht! Ab da wirds nur schlechter für LSV. Würde man das jetzt für die gesamte Spielerschaft machen. Würden die Ratings auf 1800-1400 zusammenbrechen. Bei denen Spieler wie du mit hohen lokalen win% 1800 rating erreichen aber LSV als Spieler der viel spielt, würde um die 1700 pendeln. Das wäre auch kein ranking weil dann kurzzeitige Effekt noch mehr zuschlagen und man überhaupt keine Pro klasse etablieren kann.

  9. TobiH sagt:

    Das Witzigste an der Diskussion ist ja Folgendes: Wenn Schach im Gegensatz zu Magic keine zufälligen Faktoren aufwiese, dann wäre Elo für Magic immer noch einsetzbar, für Schach aber komplett unbrauchbar.

    (Wie lange dauert es hier eigentlich, bis Kommentare aus der Moderationsschleife kommen?)

  10. derflippi sagt:

    Pischner, du nervst mit allem was du so im Internet verzapfst.

  11. Ausufernd hier…

    Dein Denkfehler und Deine Vorurteile manifestieren sich schon wieder in diesem unseligen Begriff vom „wahren Rating“, und erneut in der Gleichsetzung von „Skillunterschied“ und „wahrem Rating“.

    Das Elo System (zum ZEHNTAUSENDSTEN MAL!) approximiert TATSÄCHLICHE Gewinnwahrscheinlichkeiten, nicht „wahre“ oder wie immer Du sie nennen willst. Wenn Spieler A gegen B mit einem Kontrolldeck 90% hat (unwahrscheinlich, aber gut) und mit einem Burndeck 50% (dafür etwas pessimistisch), dann ist seine TATSÄCHLICHE Gewinnwahrscheinlichkeit nicht 90%, und nicht 50%, und nicht 50% +- (Chaos-Faktor)^i oder was auch immer, sondern abhängig davon, wie oft er das Burn-Deck spielt, und wie oft das Kontrolldeck. In die effektive tatsächliche Gewinnwahrscheinlichkeit gehen ALLE Umstände ein, krieg das endlich in Deinen Schädel!

    Letztlich ist es so herum, dass in Wirklichkeit Elo demonstriert, dass Magic – trotz aller Unwägbarkeiten – ein skillbasiertes Spiel ist, eben weil (sowohl in der Realität, als auch in realistischen Simulationen) Ratings für einzelne Spieler sich um gewisse Niveaus herum einpendeln. Von der Wahl des k-Werts hängt es ab, wie groß diese Schwankungen im Vergleich zu den Ratingunterschieden sind (und k-Werte bei Magic sind zu groß gewählt gewesen).

    Ich muss MM hier widersprechen: Eine generelle Gewinnwahrscheinlichkeit von 90% gegen den als durchschnittlich definierten 16000er Spieler dürfte es nicht geben, da Zugpech und Pech beim Kartenöffnen im Limited eine größere Rolle spielen. Deswegen habe ich Dir in meiner Antwort zu erklären versucht, dass in Magic (und auch in Schach) sehr hohe Ratings (und in Magic ist ein Rating schneller „sehr hoch“, aus vorher genannten Gründen) nicht aus Spielen gegen durchschnittliche Spieler entstehen.

    Unter der Annahme, dass alle Magic-Spieler tatsächlich sehr oft spielen, und zwar immer gegen einen repräsentativen Querschnitt aller Spieler unter einem repräsentativen Querschnitt aller Bedingungen (Constructed, Limited, Deckwahl etc…), und dass auch kein Spieler das System verlässt, würden nahezu alle Ratings sich in einem Bereich von ca. 1400 bis 1800 wiederfinden, was die TATSÄCHLICHEN Gewinnwahrscheinlichkeiten widerspiegelt. In der Praxis spielen natürlich gerade die besseren Spieler immer wieder gegeneinander und erzuegen so für einen kleinen, aber relevanten Anteil der Spielerschaft höhere Ratings.

    Und da wir gerade bei Annahmen sind: Die Transitivität ist eine GRUNDANNAHME des Elo Systems, keine GRUNDVORAUSSETZUNG! Solche Annahmen muss man bei der Schätzung einer Gewinnwahrscheinlichkeit eben machen. Eine andere solche Annahme ist, dass die Gewinnwahrscheinlichkeit eines Spielers in kurzen Abständen kontsant bleibt. Dies sind VEREINFACHENDE Annahmen, ohne die das System nicht funktioniert, und die sich in der Realität weder bei Magic noch bei Schach wiederfinden! Dass sie nicht zu stark vereinfachen, kann man in der Praxis jedoch – sowohl bei Magic als auch bei Schach – gut beobachten.

    Um auf den Ausgangspunkt dieser Diskussion zurückzukommen: Du hattest eine absurde Behauptung aufgestellt (nämlich, dass die Magic-Ratings auch nach einer sehr großen Anzahl Spiele für über 50% der Spieler um mehr als 300 Punkte „falsch“ seien). Diese absurde Behauptung konntest Du nur mit einer Simulation belegen, bei der Du willkürlich einen „Chaos-Faktor“ eingeführt hast. Deswegen ist es eigentlich DEINE Pflicht zu belegen, dass dieser Chaos-Faktor tatsächlich existiert!

    Die Aussage Deines Artikels ist: „Ein um einen „Chaos-Faktor“ erweitertes Elo System funktioniert nicht.“ Volle Zustimmung!

    Aber höre endlich damit auf, die prinzipielle Unterschiedlichket von Magicpartien und Schachpartien damit beweisen zu wollen, dass Du sie als Voraussetzung einbringst!

    • trischai sagt:

      Das Problem ist, dass das Elosystem aber von 90% ausgeht sobald der Elounterschied 400 Punkte ist oder 75 bei 200 Punkten. Das ist das Problem. Dem System ist es egal was die Spieler zocken oder ob einer gerade flooded oder der Gegner topdecked.

      Und ich habe klar bewiesen das es einen c-Faktor geben muss. Denn die win% der Pros lässt sich nicht anders erklären. Würde das Elosystem funktionieren, müssten sie eine weit höhere win% haben. Dabei ist es egal wie hoch das Rating absolut ist, es kommt alleine auf die Differenz des Ratings zum Gegner an.

      Ich hab dir auch eine Email geschrieben mit meiner Telefonnummer damit du mich anrufen bzw du mir deine schicken kannst. In einem persönlichen Gespräch ist die Diskussion vielleicht effektiver zu klären.

      • Wie ich Dir gerade mailte:
        „Danke für die Nummer, aber da ja offensichtlich noch einige Leute mehr mitlesen, wäre es schon sinnvoll, schriftlich weiterzumachen. Ich komme aber darauf zurück, wenn ich völlig verzweifle…“

        So Schrittchen für Schrittchen kommen wir ja vielleicht doch voran. Also, neuester Versuch:

        Das Elo-System ist daran kalibriert, dass es die tatsächliche wp zweier Spieler, die sehr oft gegeneinander spielen, mit einem Ratingunterschied ausdrückt. Je nach Formel kann die Kalibrierung unterschiedlich ausfallen. Im Fall der im Schach benutzen Formel steht eine Ratingdifferenz von 200 Punkten für Gewinnwahrscheinlichkeiten von 75/25. Jeder anderen Ratingdifferenz sind entsprechende wps zugeordnet; sie ergeben sich zwingend aus der Formel.

        Dieses Elo für zwei Spieler funktioniert IMMER, sofern die wps der beiden Spieler gegeneinander nicht 100/0 sind und sich nicht im Verlauf weniger Partien zu stark ändern.

        Wenn jetzt jedoch weitere Spieler hinzukommen, trifft Elo eine Annahme, nämlich die der Transitivität der von ihm ermittelten Ratingdifferenzen. DIESE ANNAHME BESITZT KEINERLEI BASIS IN DER REALITÄT. Sie stellt eine Vereinfachung dar, welche es erlaubt, mit einer sich daraus ergebenden zusätzlichen Ungenauigkeit Gewinnwahrscheinlichkeiten von Spielern gegenüber der Gesamtspielerschaft zu approximieren.

        Nimm ein System mit 3 Spielern: A, B & C, die untereinander folgende TATSÄCHLICHEN Gewinnwahrscheinlichkeiten besitzen: A/B 75/25, B/C 75/25, A/C 80/20. Lass diese Spieler jeweils reihum eine sehr große Anzahl Partien spielen. Du wirst feststellen, dass das Rating von A sich gegenüber dem Rating von C auf einer Differenz von ca. 325 einpendelt. Warum? Weil sich aus den Partien A/B & B/C eine Ratingdifferenz A/C von 400 ergibt (auf Grund der angenommenen Transitivität), aus den Partien A/C jedoch eine von 250.

        Elo approximiert immer die Gewinnwahrscheinlichkeit eines Spielers gegen das GESAMTE Feld, weil es alle gespielten Partien berücksichtigt. (Dabei kommt es zu Verzerrungen, wenn Spieler nicht gegen einen repräsentativen Querschnitt des Geaamtfeldes antreten, weil der einzige Input für Elo nun einmal die gespielten Partien sind. Diese Verzerrungen führen zu Ratinginflation bzw. -deflation.) Diese wps gegen das gesamte Feld bedeuten (auf Grund der fehlenden Transitivität in der Realität) nun einmal NICHT, dass man aus ihnen die bestmögliche Schätzung der wps zweier Spieler gegeneinander ableiten kann.

        Das hat alles NICHTS damit zu tun, ob Du Schach oder Magic spielst! (Und Du hast wirklich in keiner Weise die Existenz eines C-Faktors „bewiesen“ – verabscheide Dich endlich von diesem absurden Konzept!) Auch bei Schach kannst Du durch willkürliche Herausnahme einzelner Spieler aus dem System die Ratings anderer Spieler merklich beeinflussen.

        Das Elosystem funktioniert bei Schach und bei Magic auf die gleiche Weise, mit Ungenauigkeiten, die sich aus folgenden Faktoren ergeben:

        1. Vereinfachte Grundannahmen (konstante wps, Transitivität)
        2. Selektive Paarungen mancher Spieler, welche nicht repräsentativ für den Gesamtquerschnitt der Spielerschaft sind
        3. auf Varianz beruhende Ungenauigkeiten bei vergleichsweise geringem Input
        4. Oszillation um den idealen Näherungswert auf Grund zufälliger einzelner Ergebnisse, welche durch ungeeignete k-Faktoren üüberbetont werden kann.

        Das sind die Schwächen des Elo Systems. Sie haben nichts mit Schach oder Magic zu tun, und alle Effekte, die Du beobachten kannst, lassen sich daraus erklären. Nichtsdestotrotz hat Elo bewiesen, dass diese Ungenauigkeiten sich (bei Magic und bei Schach) in vertretbarem Rahmen halten und durch geeignete Definition der Parameter zusätzlich abgemildert werden können.

        • trischai sagt:

          Also Transitivität ist in Schach gegeben das funktioniert. Weil da das System die Spieler korrekt sortiert nach ihrem Skillniveau. Nehmen wir dein Beispiel A/B 75:25, dass bedeuted 200 Elo Unterschied also z.B. A = 2000 und B = 1800. Wenn jetzt B vs C auch 75:25 dann muss C = 1600 Elo haben. So und jetzt kommt die Transitivität. Das Elosystem sagt jetzt wenn dass die Elowerte sind dann hat A gegen C 90:10 weil die Elodifferenz ist 400 Punkte. Und diese Transitivität funktioniert in allen Rankings in Spielen wie Go, Schach, Fußball, Baseball usw. Wenn du sagst die Transitivität ist in Magic nicht gegeben -eine Aussage, die man weder vollständig beweisen noch wiederlegen kann- dann darf man aber das Elosystem überhaupt nicht einsetzen. Denn Transistivität ist eine Grundvorraussetzung damit Elorankings funktionieren.

          Übrigens wenn man sagt Transitivität ist nicht gegeben ist das im Grunde nichts anderes als zu sagen es gibt ein c-Faktor, weil dann die GeW aus dem Ranking nicht zwingend die GeW ist die im Spiel auftaucht.

          • Nein, nein, NEIN!

            Natürlich ist Transitivität in Schach nicht gegeben. Was bringt Dich auf die absurde Vermutung? Und dann führst Du auch noch Fußball als Beispiel an!

            Selbst bei Schach, wo man vernünftigerweise annehmen kann, dass zumindest Skilllevel definiert werden können, für welche eine generelle Transitivität gilt (A größer B größer C), gibt es überhaupt keinen Grund anzunehmen, dass das rein mathematische Konstrukt, welches sich aus der Elo-Formel ergibt, in der Realität zutrifft, was reale Gewinnchancen angeht! Alles, was man machen kann, ist sich die Ratings anschauen und sagen: „Jaaaa… das ommt zumindest ungefähr hin.“ das tut man. Bei Schach, aber auch bei Magic. Und außerdem sagt man: „Jaaaa… bei extremen Ratings kommt es nicht mehr so gut hin. Das können wir aber erklären, und wir nennen es Ratinginflation/deflation.“ Das gibt es auch, und zwar in Schach ebenso wie in Magic.

            Was Fußball angeht: Meine Fresse! Wo Bayern gegen Gladbach verliert, und Gladbach gegen Freiburg… da kannst Du Dich aber ganz schön anstrengen um eine Transitivität zu zeigen, die besser funktioniert, als die bei Magic!

            Transitivität funktioniert NIRGENDS, es sei denn, man definiert bewusst Spielregeln, bei denen sie zutrifft. Und dass sie prinzipiell nicht funktioniert, hat nichts mit einem Chaos-Faktor zu tun, sondern mit der grundlegenden Natur von Gewinnwahrscheinlichkeiten. Vielleicht solltest Du dies hier einmal lesen?

            http://magicthegatheringblog.wordpress.com/2009/01/22/trasht-pwned-by-random-mexican/

            Hier hast Du ein absolut wunderbares Beispiel, wo Transitivität ganz ausdrücklich NICHT gegeben ist. (Gehe davon aus, dass Spieler sich frei, aber unabhängig voneinander aussuchen dürfen,w elchen Würfel sie benutzen.) Und jetzt kommt’s…. (Trommelwirbel):

            Elo FUNKTIONIERT SELBST DA. E sgibt nämlich die Gewinnchancen von Spielern über den Querschitt des gesamten Feldes (selektiert über die von ihnen gespielten Partien an).

            Du verwechselst immer noch die von Elo ermittelte GeW gegen das gesamte Feld gegen die Gew In einzelnen Partien. Diese sind aber bestenfalls näherungsweise gleich. Und Elo funktioniert, wie die mexikanischen Würfel zeigen, selbst dann, wenn sie besonders deutlich voneinander abweichen!

          • trischai sagt:

            Nochmal Transistivität muss gegeben sein ansonsten funktionieren Elorankings nicht. Und in Schach und Go gibt es keine Probleme damit, in der Praxis hat sich die Transistivität bestätigt. Meister, Großmeister, gute und langjährige Vereinsspieler erreichen exakt ihre GeW gegen wen auch immer sie spielen. Magic Profis tun das nicht.

            Dein Beispiel versteh ich auch nicht wenn jeder frei bzw zufällig wählt vor jedem Match haben doch alle am ende das gleiche Rating. Da ist doch keinerlei Können dabei.

            Und bei den Fußballbeispiel es wird niiiieeeemals davon ausgegangen das jemand 0% oder 100%. Bayern wird gegen Freiburg verlieren aber es wird viel viel öfter gegen sie gewinnen. Oder behauptest du wenn du jedesmal auf Sieg von Freiburg gegen Bayern wettest und dabei eine Quote von 1:1 akzeptierst dass du +/-0 machst, wenn man mal annimmt, dass du auch nur die Hälfte deines Einsatzes verlierst wenn sie unendschieden spielen. Nein du wirst gnadenlos in die Miesen gehen. Du würdest erst eine Quote akzeptieren die nahe der GeW aus dem Ranking entspricht.

    • Michael Müller sagt:

      Andreas, Du irrst Dich, die GeWs sind real. Im Standard habe ich dieses Jahr in Dülmen 83%, in Iserlohn 73%. Und ich bin weder die Elite, noch sind Dülmen/Iserlohn der Bodensatz der Magicspieler. Es zeigt sich aber, dass die vorherrschende Meinung, dass das Niveau in Iserlohn höher ist als in Dülmen, sich in den GeWs widerspiegelt. Du überschätzt den Effekt, den Screw/Pech in der GeW gegen schwächere Spieler haben. Das liegt daran, dass Du Dir normalerweise Gegner in Deiner Leistungsklasse suchst, in meinem Fall müsste ich eigentlich mit Mike PTQs grinden, anstelle regelmässig Dülmen/Iserlohn anzufahren. Und stärkere Gegner setzen Deine schlechten Draws in Niederlagen um, und aus den besseren Pools bauen sie bessere Decks. Gegen die schlechten ist der Mulligan auf 4 noch nicht der Autoloss und der 1600er Limited Spieler beharrt auf dem Prerelease darauf, dass Galvanic Juggernaut eine schlechte Karte ist.

      • Ja, Moooment:
        Einmal sind 83% und 73% noch lange, LANGE nicht 90%. 83% entsprechen bei Magic einer Ratingdifferenz von ca. 270 Punkten, 90% von knapp 400 Punkten. Das ist ein RIESENUNTERSCHIED! Das ein Weltklassespieler diese Spanne noch überbrücken kann, halte ich schon für sehr unwahrscheinlich.

        Zum anderen hast Du nur ein einziges Format gespielt, Standard. Inwieweit andere Constructed-Formate ähnliche GEWs erlauben, kann ich jetzt nicht abschätzen, aber auf jeden Fall Limited veerringert die GEWs des besseren Spielers deutlich (insbesondere Sealed).

        Auf 90% overall GEW zu kommen, ist eine herkuläische (buddische?) Aufgabe. Das soll mir mal IRGENDEIN SPieler über eine statistsich relevante Zahl Matches zeigen!

      • Ach ja, noch etwas: das System weist neulingen aus mathematischen Gründen zunächst den Durchschnittswert zu, den Umstand ignorieren, dass Neulinge fast immer deutlich unterdruchschnittliche Spieler sind, bis sie zu lernen beginnen. Bei Turnieren, auf denen man häufig gegen Anfänger spielt, müsste man dementsprechend eigentlich sogar eine noch höhere GEW haben als gegen diese noch ungefestigten Elo Ratings, weil die 1600er, gegen die man spielt, tatsächlich vom System noch grob falsch eingestuft werden (was sich zwar relativ rasch gibt, aber trotzdem bedeutet, dass man zu viele Punkte für Siege gegen sie erhält und eigentlich eine noch höhere GEW haben müsste, die man in der Praxis jedoch niemals erreicht).

  12. lurgold sagt:

    Ich sehe das immernoch nicht; wie soll es überhaupt funktionieren, dass das ELO Rating funktioniert, wenn es quasi für Schach die Gewinnwahrscheinlichkeit einigermaßen genau approximiert, und da so Sachen wie eben Gleichverteilungen, Gewinnwahrscheinlichkeiten etc. einfließen, und Magic einfach…andere Gewinnwahrscheinlichkeiten hat als Schach. Für mich stimmen einfach die Parameter nicht. Ein 2000er-Rating gewinnt doch nicht mit 75% gegen einen 1800er Rating. Klar ist es nicht so einfach, als das man es einfach so auf ein Extrembeispiel (aka Burn ohne Kreaturen) reduzieren könnte, aber genauso wenig andersrum, und im Schnitt sollte die Gewinnwahrscheinlichkeit einfach tiefer liegen, um imho mindestens 5, eher 10+%.
    Das das ELO System nicht mehr funktioniert, wenn das Spiel eine andere Gewinnwahrscheinlichkeit annimmt als die wahre, hast du ja gezeigt.
    Du meintest ja, das man quasi für jeden Spieler eine gewisse „Unsicherheit“ bestimmen müsste, damit das ganze einigermaßen funktioniert…
    Das klingt schon richtig, aber für mich klingt es trotzdem irgendwie vernünftig den Zufallswert einfach zu schneiden und in die Formel der Gewinnwahrscheinlichkeit zu stecken. Der Grund dahinter für mich wäre eben, dass eben dieser Zufallsfaktor nicht wirklich Spielerabhängig ist, sondern intrinsisch im Spiel ist und dann eben von so Sachen wie Matchup, Metagame, Präferenzen, Format etc. beeinflusst wird, also Dinge, die das Rating überhaupt nicht beachtet.
    Das würde einfach die Gewinnwahrscheinlichkeiten aufgrund von Flood und Screw, was so ziemlich immer passieren kann, einfließen lassen, und restliche Zufallselemente halt einfach schneidet; klar ist dann der Wert irgendwie künstlich aber ich halte es jetzt auch nicht verkehrt ein System so einzuführen dass es quasi nachträglich das Spiel einigermaßen reflektiert, und das kann man ja schon erreichen mit dem richtigen Wert. Während ich die sinnvolligkeit einer Unsicherheit in Abhängigkeit des Spielers per se erstmal für gar nicht so sinnvoll halte.

    Außerdem verstehe ich übrigens nicht, was hier die ganze Zeit über Schach mit Zufallselementen gefaselt wird. Schach braucht doch keine Zufallselemente um zu erklären, dass der etwas bessere Spieler nicht mit 100% gegen den etwas schlechteren verliert. Schach hat offensichtlich keine intrinsischen Zufallselemente, und die Zufälle die quasi auf menschlicher Ebene passieren (Dinge übersehen, keine Erfahrung mit einer bestimmten Strategie/Situation, Konzentrationsverlust etc.) lassen sich eben 1:1 auch auf Magic übertragen, nur das es in Magic noch eben viel, viel mehr zusätzlich gibt…es klingt absurd dann dieselben Parameter benutzen zu wollen.

    • lurgold, lies doch einfach die Sachen, die bereits geschrieben wurden, und versuche sie zu verstehen. Ob ein Zufallsfaktor „intrinsisch“ ist, ist komplett wurscht. wenn ich bei Schach die Wahl zwischen zwei Zügen habe, von denen einer mir das SPiel gewinnt un der andere verliert, und ich weiß nicht, welcher welcher ist, und ich mich dann mit „aus dem Bauchherus“ mit einer C hance von 60/40 für den Siegerzug entscheide, dann ist das genau so, als wenn ich ein Würfelspiel mit 60%iger Gewinnchance spiele oder bei Magic zwischen zwei komplett aneinander vorbei spielenden Decks ein 60% Matchup habe. Zufall ist Zufall, egal, wo er herstammt. Auch wenn ich mit 50% Chance ein 70/30 Matchup und mit 50% Chance ein 50/50 Matchup habe, läuft es auf eine 60%ige Chance hinaus. Es ist völlig egal, wie viele Zufallsfaktoren in der Gewinnwahrscheinlichkeit stecken, und wie sie zustandekommen.

      • trischai sagt:

        Wenn ich mich in Schach aus dem Bauch heraus entscheiden muss, ist das ein Mangel an Skill. Mit genügend Können kann ich den Entscheidungbaum immer tiefer und immer breiter abscannen nach dem besten Zug. Wie gut ich das kann gegenüber meinem Gegner repräsentiert dabei sehr gut das Eloranking, weil es in Schach wirklich Skillniveaus sind. Je näher dabei die Skillniveaus umso mehr sagt das Elosystem vorraus, dass das Match zu 50% ausgeht. Das sagt nicht das die Spieler nicht wissen wie das Spiel läuft oder nicht volle Kontrolle über ihre Möglichkeiten hätten, sondern nur dass das System keine gute Vorhersage treffen kann über den Ausgang des Matches.

        • Okay, da liegt das grundlegende Problem: Du verstehst die Natur zufälliger Entscheidungen in Spielen nicht.

          Ich zitiere mal Richard Garfield (der nicht nur Spieleerfinder, sondern auch Doktor der Mathematik ist, mit den Fachgebieten computergestützter Mathematik und Kombinatorik(!)):

          „In chess both players are exploring a game tree that neither fully knows, making moves they believe lead to favorable branches. Even if one player can see further than the other along the game tree, there is a chance for the other player. The only way chess can have no luck is if it is fully understood, like tic-tac-toe, a sterile and dead game.“

          Volle Kontrolle über die Zugmöglichkeiten schließt den Zufall eben NICHT aus.

          • trischai sagt:

            Das ist doch offensichtlicher Unsinn. Es liegt in Schach und Go alles offen wenn ich 20 Züge vorrausrechnen kann bin ich besser als jemand der nur 10 Züge vorrausberechnen kann. Es gibt natürlich auch viele gleichwertige Züge sonst gäbe es ja nur einen Pfad. Aus diesen gleichwertigen Zügen kann ich auswählen. Ein Beispiel wären die Eröffnungen. Dennoch sobald ein Spieler einen Fehler bei der Berechnung macht, hat der Gegner einen Vorteil. Das ist aber auch ein Fehler und Magel an Skill und nicht weil das Spiel mir nicht alle Möglichkeiten gegeben hätte. Es gibt in Schach keine Wolke, die vernebelt wie was funktioniert oder ob es überhaupt funktiert. Es ist komplett deterministisch. Der Skill der Spieler ist dabei nur die Fähigkeit diesen gewaltigen Entscheidungsbaum zu bewältigen. Wie gut sie dass können ist aber Skill und wird nicht ausgewürfelt vor jeder Partie. Garfield bezieht sich vermutlich auf Casual Spieler die maximal 2-3 Züge vorrausrechnen können. Da mag es so Aussehen als ob Schach auch hoffen und beten wäre.

            Und die aussage volle Kontrolle schliesst den Zufall nicht aus wie soll denn das gehen. Dann würde unsere komplette Physik nicht funktionieren. Wenn der Zug ein Fehler ist, ist er ein Fehler. Wenn ich den Fehler erst erkennen konnte wenn ich 20 Züge vorrausberechen kann, dann ist das Mangel an Skill und nicht Glück. Der Fehler wird immer ein Fehler sein. Die Frage ist nur kann mein Gegner ihn ausnutzen, dass kann er wenn er besser ist und diese Rechentiefe erreicht, dass kann er vielleicht wenn er gleichwertig ist. Deswegen ist da ja auch die Elo_GeW 50% in diesen Matchups.

          • Jetzt schaltest Du komplett auf Durchzug, oder? Wie weit genau man vorausrechnen kann, ist doch völlig wurscht, so lange man nicht bis zum Ende rechnen kann!

            Du brauchst irgendwie einen mentalen Tritt, um von diesem Gedanken abzukommen,d ass eine Entscheidung, deren Ausgang man nicht vorhersagen kann, eben zufällig ist, egal, wie sie zustande kommt. Da hilft Diskutieren tatsächlich nicht mehr; das ist eine Frage der Einsicht.

            Ich weiß jetzt tatsächlich nicht mehr weiter. Weißt Du was: Schreibe doch einmal jemanden an, dessen Urteil Du vertraust. Zum Beispiel jemanden von einer Schachorganisation, der sich mit Elo Ratings befasst, oder auch jemanden, der bei der DCI dafür zuständig war, oder vielleicht die Verfasser der Wikipedia-Einträge, oder auch Richard Garfield persönlich.

            (Vielleicht solltest Du Deinen „Chaos-Faktor“ aber besser verschweigen und einfach nur nach Dingen fragen wie dem Zufallsfaktor bei Schach, der Annahme der Transitivität, oder ob Elo-Ratings bei Magic tatsächlich prinzipiell divergieren.)

          • trischai sagt:

            Es kommt doch nicht darauf an das man bis zum Ende rechnen kann sondern nur weniger Fehler macht als der Gegner und die Fehler des Gegner ausnutzen kann. Dazu ist es niemals erforderlich von Anfang an bis zum Ende zu rechnen. Und selbst wenn man sagt ok nicht richtig rechnen ist Glück dann hat Magic das auch. Nur hat Magic auch noch Glück was ich ziehe. Das hat Schach nicht! Das ist der unterschied. Magic ist nicht deterministisch. Eine Entscheidung kann falsch oder richtig sein je nachdem was ich oder der Gegner ziehe. Man kann auf Outs hinspielen und immer die 51% Chance nutzen anstelle der 49%. Das ist der Skillteil. Die Wahrscheinlichkeiten sind mir aber in dem Moment vom Spiel vorgegeben. Ich kann daran nicht ändern. Und man kann auch nicht sagen der Zug ist in der Situation immer richtig. Während man das in Schach immer kann!

            Aber das ist auch müssig denn es reicht ja für die Diskussion das Schach in der Praxis beim Mio von Spieler eindeutig bewiesen hat dass es oberhalb von 1600 Rating die Spieler exakt nach Skillniveau sortieren kann. Bitte schau dir die Ergebnisse von Schachservern an. Die Transistivität des Elosystem bei deterministischen Spielen wurde damit bestätigt.

            Auch ein Zitat von Wiki weil du ja immer sowas brauchst:

            Ein Spiel mit vollständiger Information bezeichnet in der Spieltheorie ein Spiel, bei dem keine verdeckten Elemente wie unquantifizierbare Zufälle, unbekannte Karten des Gegners, gleichzeitige Züge beider Seiten o. ä. existieren.
            Solche Spiele sind etwa solche, die keine Glücksfaktoren besitzen, etwa Schach, Dame, Mühle, Go und Mancala als Zweipersonenspiele, aber auch Einpersonenspiele wie Solitär und SameGame.

            Was auch zeigt das Schach deterministisch ist, ist die tatsache das man alle Endspiele mit bis zu 7 Steinen komplett durchgerechnet hat. Die Computerrechenleistung reicht nur noch nicht aus für mehr. Theoretisch sind aber die Möglichkeiten endlich und man könnte das Spiel komplett durchrechnen. Damit ist es deterministisch.

          • Du kannst Deine Kommentare nachträglich erweitern; ich nicht, also muss ich noch einen schreiben.

            Unsere Physikalischen Gesetze würde also nicht funktionieren, wenn wir sie nicht vollständig verstünden (was wir übrigens auch nicht tun)? Faszinierend!

            Ich frage mich übrigens wirklich, woher Du die neurophysiologische Kompetenz nimmst, um zu erklären, dass Entscheidungsprozesse in unseren gehirnen weniger zufällig ablaufen als zum Beispiel das Mischen von Karten…

            Du versteigst Dich hier in eine merkwürdige Idee, dass Determinismus (den es in der Physik übrigens nicht einmal gibt – Stichworte Quantenphysik, Chaostheorie – aber ist ja auch egal) und Zufall einander ausschließen!

          • trischai sagt:

            Du willst mir also erklären, dass das Gravitationsgesetz großer Körper Zufallselemente hat und sich morgen die Erde schneller dreht weil wegen der Quatenzufallseffekten alle Atome der Erde beschliessen in eine Richtung zu Schwingen. Übrigens hat man da ein Gesetz gefunden das exakt sagt ab welcher Anzahl von Atomen Quateneffekte keinen Einfluss mehr hab auf die makroskopische Welt bzw welche Bedingungen man erfüllen muss um sie in die makroskopische Welt zu holen. Keines Davon hat einen sinnvollen Einfluss auf die physikalischen Gesetzmässigkeiten die wir im Alltag beobachten.

            Und jetzt mal ehrlich willst du mich trollen? Entscheidungsprozesse sind doch nicht zufällig. Wenn ich Mathe verstanden habe kann ich folgende Gleichung lösen x-2 = 0. Es gibt für x genau eine Lösung. Die finde ich nicht zufällig. Genauso ist jeder Mensch zu logischen Verknüpfungen fähig, die auch nicht zufällig sind. Genauso wähle ich die bessere Entscheidung wenn ich die Wahl habe. Da ist doch nix zufällig.

          • Langsam wird das vielleicht doch eher ein Telefongespräch…

            Wen Du etwas nicht weißt, musst Du raten. Wenn Du nicht weißt, welche Karte Du als nächstes ziehst, rätst Du. Wenn Du nicht weißt, welcher Zug besser ist, weil Du den Baum nicht bis zum Ende durchdenken kannst, rätst Du.

            Nimm einen Billardtisch, auf dem sich zahlreiche Kugeln befinden. Ein Spieler stößt die weiße Kugel an, und sie rast auf Kollisionskurs mit anderen Kugeln los… und jetzt halten wir das Bild an.

            Keine Bange, die physikalischen Gesetze gelten alle. Also, bitte schön, sage mir, wie, nachdem alle Kugeln ausgerollt sind, der Tisch aussieht!

            …wie, das kannst Du nicht? Obwohl es doch deterministisch ist? Na sowas!

            Erfahrene Billardpsieler können es übrigens gewiss besser als Du. Wenn jedoch genügend Kollisionen im Spiel sind, können auch sie nur noch raten. Determinismus bringt einem eben nur etwas, wenn man alle Vorgänge vollständig überschaut.

            Du kannst gerne für Dich entscheiden, dass das Billiardbeispiel ein deterministisches ist, wo der Unsicherheitsfaktor dadurch zustande kommt, dass… ich habe eigentlich nicht so richtig verstanen, womitgenau Du diese Unbestimmtheit erklärst, wenn nicht dadruch, dass man schlicht rät. Und eine Partie Magic mag für Dich einen außerirdischen oder wie auch immer völlig anders gearteten Zufallsfaktor haben. Trotzdem verhält sich beides in der Praixs gleich, und auch in der mathematischen Simulation.
            Ich denke, an der Stelle können wir ers tatsächlich beenden – entweder Du siehst es ein oder nicht. Zum Abschluss übergebe ich das Wort an jemand Weiseren als mich:

            „No different. Only different in your mind. You must unlearn what you have learned!“

          • trischai sagt:

            Wiki Quote Butterflyeffekt:

            Als Schmetterlingseffekt (englisch butterfly effect) bezeichnet man den Effekt, dass in komplexen, nichtlinearen dynamischen Systemen eine große Empfindlichkeit auf kleine Abweichungen in den Anfangsbedingungen besteht. Geringfügig veränderte Anfangsbedingungen können im langfristigen Verlauf zu einer völlig anderen Entwicklung führen. Es gibt hierzu eine bildhafte Veranschaulichung dieses Effekts am Beispiel des Wetters, welche namensgebend für den Schmetterlingseffekt ist.

            Wir befinden uns in Schach aber nicht in einem komplexen nichtlinearen System sondern in einem komplexen System mit vollständiger Infomation (Schach). Nur weil es komplex ist, heisst es nicht, dass es nichtlineare/chaotische Effekte aufweisst.

            und nochmal

            In der Spieltheorie ist ein Spiel mit perfekter Information ein Spiel mit vollständiger Information. Bei letzterem gibt es keine verdeckten Elemente wie unquantifizierbare Zufälle, unbekannte Karten des Gegners, gleichzeitige Züge beider Seiten o. Ä.. Zusätzlich wird bei ersterem gefordert, dass es überhaupt keine Zufallselemente gibt und alle Spieler alle Spielzüge kennen, die stattgefunden haben.

            Solche Spiele sind glückselementlose Spiele wie etwa Go, Schach, Dame, Mühle,

            Wiki Quote deterministisches Chaos

            Deterministisches Chaos ist ein irregulär erscheinendes chaotisches Verhalten, welches jedoch den Regeln einer deterministischen Dynamik folgt. Die scheinbare Nicht-Reproduzierbarkeit des Systemverhaltens entsteht durch die Nicht-Reproduzierbarkeit der (exakten) Ausgangsbedingungen, das heißt in chaotischen dynamischen Systemen ist die starke Kausalität nicht erfüllt: Ähnliche Ursachen führen nicht zu ähnlichen Wirkungen.

            Man kann in Schach exakt die Anfangbedingung bestimmen genauso ist Kausalität gegeben.

            Nochmal wiki Quote

            Ein Spiel mit vollständiger Information bezeichnet in der Spieltheorie ein Spiel, bei dem keine verdeckten Elemente wie unquantifizierbare Zufälle, unbekannte Karten des Gegners, gleichzeitige Züge beider Seiten o. ä. existieren. Solche Spiele sind etwa solche, die keine Glücksfaktoren besitzen, etwa Schach, Dame, Mühle, Go

          • Der Unterschied zwischen einem deterministischen und einem nicht deterministischen Spiel ist aber eben nur dann relevant, wenn die Spielteilnehmer auch tatsächlich Möglichkeiten zur Determination haben.

            Dass Schach zwischen zwei weit übermenschlich qualifizierten Gegnern einen vorher bestimmten Ausgang haben kann, macht es deterministisch. In der Praxis ändert es aber genau nichts.

            Was den Butterfly Effect angeht: Der existiert in Magic nicht. Weißt Du, wie man das (unter anderem) feststellen kann? Richtig – mit dem Elo System! Würden Spielergebnisse in Magic nämlich tatsächlich chaotisch divergieren, würde man das an den Ratings der Spieler feststellen können. Kann man aber nicht – es sei denn, man macht es wie Du, und injiziert dieses Chaos bewusst zusätzlich in das System hinein!

            An dieser Stelle mache ich jetzt wirklich Schluss. Ich fasse nur noch einmal zusammen:

            1. Du bist fest davon überzeugt, dass Ergebnisse von Magic-Partien im Gegensatz zu denen von Schachpartien chaotischen Gesetzmäßigkeiten folgen.

            2. Du lässt Dich nicht davon abbringen, diese Grundannahme in Deine Simulation explizit einzubauen.

            3. Du begründest die Richtigkeit Deiner Annahme damit, dass sie sich beweisen lässt, wenn man sie als gegeben voraussetzt.

            Tja. Irgendwann muss man einsehen, dass es nicht mehr weiter geht. Wenn Du meinem Ratschlag nicht folgen willst, Dich an eine Instanz zu wenden, deren Autorität Du vertraust, dann musst Du eben weiter Deinem Glaubenssatz anhängen.

          • trischai sagt:

            Den ersten Satz musst du mir erklären.

            In einem deterministischen Spiel gewinnt der Spieler mit mehr Können öfter und eine Messung des Skillniveaus mit dem Elosystem ist möglich! In einem Spiel mit Glückselement und Skill gewinnt der Spieler mit mehr Können öfter aber eine Messung des Skillniveaus mit dem Elosystem ist nicht mehr möglich.

            Magic ist ein chaotisches System weil man nie den Anfangszustand exakt bestimmen kann, da die Kartenverteilung ja einer hypergeometrischen Verteilung genügt.

            zu 1. Natürlich weil ja chaotische Element schon im Spiel enthalten ist. Schon ohne Effekte von Spielern zu berücksichtigen.

            zu2. Das war auch nicht die herangehensweise. Sondern folgende: Pros haben eine win% auf GPs von 60% (Fakt) aber ein Elo von 2200 (Fakt) wie kann man das erklären, wenn das Elosystem aber sagt er müsste 80%+ haben um seine Selbstregelung zu ermitteln. Theoretisch müsste der 2200 ein Rating von 1900 haben um die win% zu erklären. Also entweder alle! Pros sind zufällig mit 300 Punkten überbewertet oder es stimmt was nicht. Wenn selbst Pros nur 60% schaffen was passiert wenn ich jeden Spieler (basierend auf seinem wahren Skillniveau und dem Skillniveau seiner Gegner) im Mittel! eine GeW-Verteilung (Edge) gebe die sogar über dieser Win% liegt. Die Frage war jetzt schafft es das System noch zu konvergieren. Denn gute Spieler haben ja immernoch eine deutliche Edge gegenüber schlechten. Und es besteht die berechtigte annahme das es das System schaffen könnte die guten Spieler herauszufiltern. Ergebnis es schafft es nicht. Im Bereich von 1800-2000 sind die guten und schlechten spieler (200-300 Punkte Skillunterschied) wild durcheinanderverteilt. Weil das System es trotz positiver Edge es eben nicht schafft die guten von den schlechten Spielern zu trennen.

            zu3. Ich behaupte gar nichts! Ich weisse nur nach das deine Annahme, dass es das Elosystem es schafft in Magic ein sinnvolles Ranking der Spieler nach Skillniveaus durchzuführen schlicht falsch ist. Man kann sagen das der Elowert in Magic ist ein Punktwert ist der meinen kürzlichen Erfolg anzeigt. Aber es reicht nie um zu sagen der Spieler ist besser als der weil der erstere eine Elozahl von 2000 hat und der andere eine von 1900. Sowas ist aber wichtig wenn man Spieler buys, invites nach Ranking/Elozahl gibt.

            Ich habe dir auch mehrfach Links gegeben zu anderen Experten wie das Paper über TrueSkill. Indem alle meine Punkte erörtert und bestätigt werden. Genauso habe ich dir mehrfach vorgerechnet, dass das Elorankings, so wie es momentan besteht nicht möglich ist, anhand der win% der Topspieler. Noch nichteinmal wenn sie nur unter sich spielen! Da musst man gar nix simulieren, das ist pure Mathematik. Weiterhin musste ich dir bisher mehrfach Wikiartikel um die Ohren hauen. Bei denen du verlangst dass ich sie doch gefälligst studieren soll in denen aber jedesmal deine Aussage wiederlegt wurde. Wie Schach besitzt einen Glücksfaktor. Oder Transitivität wäre keine Grunvorraussetzung für Rankings.

            Und du hast die Frechheit mir Unwissenschaftlichkeit vorzuwerfen und dass ich doch besser zu Experten gehen soll, wo es doch aus der Diskussion ersichtlich ist, dass du keinerlei Verständnis hast über deine eigenen Aussagen. Ich meine wie armseelig ist es denn wenn du etwas behauptest und sagst les doch den wiki Artikel und im Artikel steht das exakte Gegenteil und das auch noch mehrfach.

  13. Vegeta sagt:

    Es ist schon schlimm genug, dass Andreas Pischner einen eigenen Blog hat, aber dann auch noch Artikel zu ihm. Mich nervt es und es wäre mir lieber, wenn er nun wirklich endlich mal aufhören würde, aber irgendwas scheint ihn ja zu hindern.

  14. PillePallePo sagt:

    Unabhängig von der eigentlichen Diskussion bin ich ein wenig entsetzt darüber, wie ihr hier miteinander umgeht, besonders Andreas Pischner mit trischai. Ich dachte wir wären besser als die Yu-Gi Kids oder bleibt Forentroll Forentroll?

    Und ich gebe gerne zu, dass ich trischais Grundskepsis an der Aussagekraft des Elo Rankings verstehe. Wenn man schlechte Matchups bekommt kann man sich auf den Kopf stellen wie man will, das Elo Ranking wird einem da nur schwerlich weiterhelfen können und es zu der von euch genannten 90% Gewinnchance bringen.

  15. schnickel sagt:

    wer hat denn jetzt Recht?

  16. DerSchnösel sagt:

    @Pirchner alias Zeromant (Zeroverstand) Danke, dass du dich wieder einmal absolut der Lächerlichkeit preisgegeben hast. Deine grenzenlose Arroganz und deine Hochnäsigkeit springt förmlich aus deinen entwürdigenden Aussagen hervor! Es wäre besser du belegst einen Kurs in Rethorik und in guten Umgang mit den Mitmenschen, bevor du deinen gequirlten, unqualifizierten Mist hier loslässt.

    @trischai Nicht einschüchtern lassen von Mister Zeroverstand. Er geht einfach von Grund aus gerne auf Leute los, denen er sich unterlegen fühlt.

    • trischai sagt:

      Keine Sorge die Mathematik ist auf meiner Seite. Da lebt es sich recht sicher. Ausserdem ist ja offensichtlich das AP so seine Probleme hat mit sachlichen Diskusionen und zwischenmenschlichem Verhalten.

      • Olaf sagt:

        Tut mir leid, trischai, aber was Du hier produzierst, ist tatsächlich Unsinn. Und berufe Dich bitte nicht auf Mathematik, das ist was anderes als ein bisschen Formelnumstellen und Excelbedienung. Es gibt 10 Indizien, die darauf hindeuten, dass ein mathematischer Beweis falsch ist (wir werden nie erfahren, ob Du jetzt danach googlen mußtest). Einer davon ist: „Der Beweis ist nicht in Latex verfaßt.“ Das hätte ich nicht mal verlangt, aber ich habe eine Weile versucht zu verstehen was „c minus Faktor“ meint, bis ich drauf kam, das „c-Faktor“ ein Variablenname ist. Ein grober handwerklicher Fehler – eben genau wie die Nichtbenutzung von Latex in der gehobenen Mathematik.
        Und dann Dein c: was soll das überhaupt? Es soll den erhöhten Zufallsgrad des Spiels modellieren? OK, dazu gleich. Erstmal das einfache: warum muß c dann zufällig sein? Um den Zufall zufällig zu machen? Dann verwende einen besseren Zufallsgenerator.
        Aber uch ein konstantes c tut nicht, was Du willst.
        Im Prinzip ist es doch ganz einfach: die Gewinnwahrscheinlichkeit in Magic und Schach sind einfach unterschiedlich: bei Magic liegt sie bei gleicher Differenz immer näher an 50%. Das ist alles. Und so funktioniert auch ELO.

        • trischai sagt:

          Es geht darum, dass das Elosystem von Gewinwahrscheinlichkeiten ausgeht, die in Magic nicht erreicht werden. Wie du ja selbst sagst die Differenzen sind anders. Das System geht aber bei seiner Berechnung das neuen Ratings von der hohen Wahrscheinlichkeit aus. Das hab ich jetzt auch schon mehrmals vorgerechnet. Wenn aber die Gewinnwahrscheinlichkeiten anderes sind, konvergiert das System nicht mehr, wie ich im Blog gezeigt habe. Der c-Faktor in meiner Berechnung ist dabei nur ein Hilfsmittel um die Magic Gewinnwahrscheinlichkeiten aus der Elodifferenz zu erzeugen. Das der c-Faktor zufällig ist, ist auch nur ein Modell um der Wirklichkeit näher zu kommen. Denn man kann ja nicht davon ausgehen, dass man in jedem Spiel screwed oder der Gegner topdecked. Sondern es ist halt zufällig wie hoch der Glücksanteil in jeder Partie ist.

          Und auch dir möchtig ich nocheinmal ans Herz legen. Das ganze stammt nicht von mir es ist in der Wissenschaft hinlänglich bekannt und es gibt Rankingsysteme wie TrueSkill die extra für Spiele mit Glücksfaktor konzipiert sind, weil das Elosystem für solche Spiele nicht funktioniert und kein vernünftiges Ranking erzeugt. Ich habe das ganze einfach nur reproduziert für Magic.

  17. schnickel sagt:

    mein Problem ist, dass dein TExt so Rechtschreibfehlern wimmelt, dass ich nicht so recht weiß, auf welchem Niveau du deine Matrix anlegst? Was qualifiert dich? Ich bin kein Mathematiker, aber dass auf die Dauer jede Wahrscheinlichkeit gleiche ERgebnisse liefert weiß ich auch. Viel Spielen: auf die DAuer konstante ERgebnisse; kein GLück – da theoretisch für alle gleich. Hab ich das richtig verstanden?

    • trischai sagt:

      Also Rechtschreibung ist nicht meine Stärke. 🙂

      Dein ersten Satz versteh ich auch nicht so ganz. Von welcher Matrix sprichst du?

      In Spielen wie Magic ist es so, dass der bessere mehr gewinnt als ein schlechterer Spieler, wenn beide viele Spiele spielen gegen ungefähr die gleichen Gegner. Das Elosystem, dass von Wizards benutzt wird, kann aber nicht ermitteln wer wie besser ist und damit kein vernünftiges Ranking ermitteln. Das ist alles worum es im Blog geht.

  18. schnickel sagt:

    weil es welche Gundannahme verwendet? Sorry, aber Formeln sind nicht so mein Ding 😀

    • trischai sagt:

      Die Annahme, die das Elosystem macht ist das ein Spieler mit z.B. 400 Punkten Unterschied zu 90% gewinnt. Solche Werte werden nachweislich nicht erreicht in Magic. Das System geht aber weiterhin davon aus, dass dem so ist und berechnet das neue Rating der Spieler nach der Partie falsch.

  19. TobiH sagt:

    Es ist unwahr, „dass das Elosystem von Gewinwahrscheinlichkeiten ausgeht, die in Magic nicht erreicht werden“. Es geht überhaupt von GAR KEINEN Gewinnwahrscheinlichkeiten aus! Es misst TATSÄCHLICHE Siege und Niederlagen und gibt dafür ein Rating aus, was bestimmten Gewinnwahrscheinlichkeiten entspricht. Und natürlich korrigiert dieser Wert sich fortlaufend.

    Nein, die Mathematik gibt trischai nicht Recht. Spieler, die im Schnitt 60% ihrer Matches gewinnen, halten entweder nicht über viele Turniere hinweg ein Rating von 2200 oder sie spielen gegen entsprechend viele Gegner mit einem entsprechend hohen Rating. Dass zu beweisen, ist trivial, weil das System gar nicht dazu in der Lage ist, andere Ergebnisse zu produzieren; dass anzuzweifeln, ist blanker Wahnsinn, weil das System gar nicht dazu in der Lage ist, andere Ergebnisse zu produzieren.

    Und der mehrfach angesprochene Punkt, dass man Pech beim Matchup haben kann und dann halt einfach unlucky verliert, ist besonders dumm. Mit einem besseren Deck anzutreten und bessere Matchups zu haben, ist genau eine der Sachen, die einen Spieler von einem anderen abheben, der 400 Punkte weniger hat. Allerdings eben IM SCHNITT und nicht in jedem Einzelfall.

    • trischai sagt:

      Bitte les wie Elorating funktioniert. Bitte!

      Ich zitiere mal wieder wiki:

      …wäre die erwartete Punktezahl gerade die Wahrscheinlichkeit, dass A gewinnt.

      Du kannst dich gerne überzeugen dass der Satz direkt aus dem Abschnitt stammt indem über die Formel gesprochen wird wie das Elosystem die GeW berechnet.

  20. Lim_Dul sagt:

    ELO war so, wie es in Magic implementiert war, definitiv nicht dazu geeignet eine verlässliche Aussage über die Spielstärke zu treffen.

    Ob man das innerhalb des ELO-Systems hätte korrigieren können, weiß ich nicht. Die Probleme sind aber:

    – Ein Rating Unterschied von X bedeutet eine Gewinnwahrscheinlichkeit von Y%. Problematisch ist, und da hat trischai vollkommen recht, dass die Gewinnwahrscheinlichkeiten in Magic kleiner sind als in Schach. Gewinnwahrscheinlichkeiten von 90% sind in Magic – außer bei Pro gegen blutigen Anfänger – sehr unwahrscheinlich. Das heißt, Rating-Unterscheide größer als Z Punkte sind eigentlich in der Regel nicht korrekt.
    Das hätte man vielleicht mit einer Modifzierung der Formel erreichen können, so dass der Punkteunterschied nicht so schnell eine so hohe Gewinnwahrscheinlichkeit bedeutet.

    – Das K-Value System. Dadurch, dass Magic eine Glückskomponente hat, ist davon auszugehen, dass die Ratings in Magic sowieso stärker als in Schach schwanken. Das K-Value System sorgt dafür, dass extreme Glückssträhnen einen extremen Rating Sprung bedeuten. Das heißt eben, dass wenn jemand weit oben steht, der nicht umbedingt einer der weltbesten Spieler ist, sondern dass er auf dem letzten Grandprix eine gute Serie hatte. Rating-Sprünge von mehreren 100 Punkten sind auf einem Grand Prix leicht möglich. Und keiner kann mir erzählen, dass sich die Spielstärke auf dem Grand Prix so stark geändert hat.

    – Das System der Bye/Invitiations. Dadurch, dass Rating-Campen belohnt wird, spielen Spieler die ein gutes Rating erreicht haben oftmals wenig oder keine Turniere. Das sorgt in Kombination mit dem vorherigen Punkt dazu, dass insbesondere die hohen Ratings von Leuten beibehalten werden, unabhängig ob sie es verdient haben. Dadurch, dass die Leute die Rating-Campen betreiben, dann vermehrt gegen Leute mit analogen Rating spielen, sinkt ihr Rating auch langsamer.

    Die drei Punkte zusammen sorgten meines Erachtens dafür, dass das ELO-System in den höheren Bereichen (also die, wo das Rating etwas wert war) keinerlei Aussagekraft über die Stärke hatte.

    Witzigerweise ist meines Erachtens durch die Planeswalker Punkte die Aussagekraft des ELO-Ratings gestiegen. Die Leute spielen jetzt, ohne sich Gedanken zu machen ob ihr ELO-Rating durch das Match/Turnier negativ beeinflusst wird. Und in dem Augenblick wird das ELO-Rating realistischer.

    • TobiH sagt:

      „Gewinnwahrscheinlichkeiten von 90% sind in Magic – außer bei Pro gegen blutigen Anfänger – sehr unwahrscheinlich.“

      Und genau davon (Pro gegen blutigen Anfänger) ist bei einem Ratingunterschied von 400 Punkten ja auch die Rede. Welch glücklicher Zufall! Wenn man es nicht besser wüsste, müsste man meinen, dass das System so ausgelegt sei, dass es Leute nach den Gewinnwahrscheinlichkeiten bewertet, die diese in der Vergangenheit tatsächlich unter Beweis gestellt haben.

      Dass speziell die Implementation von Elo bei Magic mit seinen abstrus hohen K-Werten (und relativ wenig gespielten Partien) anfällig für völlig unrealistische Schwankungen ist, ist unabhängig davon ein bekanntes Problem. Dass Elo aussagekräftigere Ratings produziert, wenn Leute sehr viel spielen, zeigt sogar, dass das Problem nicht an der grundlegenden Elo-Idee liegt, sondern an seiner konkreten Implementation.

      • trischai sagt:

        Ja aber das bedeutet ein 1800 wäre ein blutiger Anfänger in Bezug auf LSV. Oder das ein 2000er ein schlechter Spieler ist gegenüber LSV. Denn laut Elogewinnwahrscheinlichkeit gibt das System LSV eine Siegchance von 75%. Warum sieht man das dann nie. Warum erreicht kein 2200 jemals diese win% im Mittel auf GPs. Dies muss aber gegeben sein sonst rechnet das Elosystem schon im Mittel mit falschen Werten.

        Btw. Ich hab dir auch eine Email geschrieben mit meiner Telefonnummer zwecks persönlichem Gespräch.

        • Tigris sagt:

          Weil das Rating enorm schwankt und die wenigsten Spieler immer diese 2200 er Ratings haben. Ausserdem kann man ja beim Elosystem wie ich im letzten Kommentar schon gesagt habe diese Gewinnwahrscheinlichkeiten Tweaken (vor allem für Limited) wenn die zu hoch sind, was vielleicht der Fall ist man verwendet dann einfach eine bisschen andere Formel für die Berechnung von den GEW die etwas flacher ist.
          Ausserdem wie soll denn bitte so ein LSV usw. solche hohen Ratings erreicht haben wenn nicht dadurch dass er enorm oft gewinnt im Verhältnis, dass er verliert?
          Ausserdem denk daran, dass sich auf dem GP vor allem über die Runden die Eloratings auch enorm ändern und zwar vor allem stärker für solche mit nicht so hohem Rating. Wenn jemand an den zweiten Tag kommt kann er 100-200 Ratingpunkte gewonnen haben dadurch. (Was auch wieder wegen diesen lächerlich hohen k Values der Fall ist). Und so hat dann LSV je weiter er im Turnier kommt, desto kleinere Gewinnwahrscheinlichkeiten. Ausserdem ist das Rating ja gerade so dass es sich halt anpasst wenn er an einem GP nicht diese Gewinnchancen hatte, hat er nachher ein tieferes Rating ganz einfach. Es ist ja immer nur eine Approximation von der eigenen Stärke und Wahrscheinlichkeiten und dazu hat sie auch noch enorme Schwankungen wegen den zu hohen K Values.
          Und diese Approximation wird halt theoretisch immer besser. Ausserdem wird auch im Schach wenn ein Profi mal 3 Tage durch gemacht hat und Kopfschmerzen hat nicht mehr seine Gewinnwahrscheinlichkeiten haben an einem Turnier wegen dem ist das System dennoch geeignet. Es gibt halt nur die durchschnittlichen Gewinnwkeiten an.

          Anstatt hier zu versuchen mit merkwürdigen Annahmen das System zu wiederlegen (was halt eh nicht stimmt) könntest du lieber versuchen, herauszufinden wie man das System für Magic anpassen müsste.

          Was für Veränderungen an den GEW funktionen müsste man machen (für Draft Sealed Constructed).
          Was für K Values wären ideal.

          Wäre ein anderes Startvalue besser geeignet für Anfänger?

          Und wie MM schon gesagt hat die Gewinnwahrscheinlichkeiten stimmen schon wenn man viel spielt.

          Ich habe ein 1900 Rating und spiele fast nur Limited halt auch an FNMs usw. Und ich habe dort halt eine Gewinnwahrscheinlichkeit von etwa 70% (ansonsten könnte ich ja mein Rating gar nicht halten).

          Ah und beim Schach könnte Theoretisch acuh ein Super spieler kein Elo Rating haben lange dann starten mit einem und dann direkt gegen einen guten Spieler 5 Spiele nacheinander gewinnen oder 10 das wäre nach seinem Startrating auch beinahe unmöglich.

          Und was passiert danach? Richtig sein Rating passt sich dann nach und nach seiner Spielstärke an, weil es halt immer nur eine approximation ist, die nach und nach besser wird. (Wie bei LSV auf einem GP)

          • trischai sagt:

            Ob du es glaubst oder nicht aber wir sind einer Meinung. Du denkst zwar wir reden von was anderem aber im Grunde sagst du genau das aus was ich im Blog gezeigt habe.

            Das alte Elosystem funktioniert nicht es müsste die Gewinnwahrscheinlichkeiten tweaken abhängig von den Umständen. Aber dann wäre es ein System wie Glicko oder TrueSkill und nicht mehr das alte Elosystem.

        • TobiH sagt:

          „Warum erreicht kein 2200 jemals diese win% im Mittel auf GPs.“

          Erstens, weil es im Grunde keine 2200er GIBT! Ein Rating von 2200 ist schlicht das Ergebnis der bereits angesprochenen extremen Schwankungen, gegebenenfalls in Verbindung mit Rating-Campen. Ich glaube nicht, dass irgendjemand jemals auch nur über zehn Grand Prix hinweg konstant ein Rating über 2000 behalten hat (oder ein Ratingmittel von 2100 erreichen würde). Du kannst nicht einerseits die mittlere Win-Percentage eines Spielers betrachten, andererseits aber eine Momentaufnahme seines Ratings.

          Zweitens, weil man speziell am zweiten Tag eines Grand Prix nur noch selten auf Spieler trifft, die nicht selbst auch ein verdammt hohes Rating haben!

          Und wie gesagt, die Schwankungen sind fürchterlich und führen dazu, dass zu jedem beliebigen Zeitpunkt alle möglichen Spieler idiotisch über- und unterbewertet sind. Das zeigt jedoch lediglich, dass die Elo-Idee mangelhaft umgesetzt wurde, nicht, dass sie grundsätzlich nichts taugt.

          • trischai sagt:

            Das benutzte Elosystem von Wizards benutzt aber nur Momentaufnahmen. Es rechnet nur von einem Match zum nächsten. Das ist ganz wichtig zu verstehen. Ein gutes Ratingsystem ermittelt über die Zeit den korrekten Platz des Spielers im Bezug auf alle Anderen. Das System von Magic macht dabei aber zu viele Fehler bei seiner Berechnung von einem Schritt zum nächsten eben weil es von zu hohen GeW ausgeht. Diese werden auch über der Zeit nicht besser sondern führen zu einem ewigen Über und Untersteuern. Mit dem Ergebnis das es Spieler nicht korrekt einsortiert.

            Ich kann dir nur nochmal empfehlen ruf mich an. Das Thema ist komplex ich versteh das. Deswegen wäre ein Gespräch zweckdienlicher da kann ich direkter auf deine Fragen und Argumente eingehen. Auch an jeden anderen der das mit mir persönlich diskutieren will. Sucht mich auf Skype unter trischai und wir können das persönlich besprechen.

          • Tigris sagt:

            DAs alte Elo System Funktioniert da sind wir nicht der selben Meinung. Ausserdem bin ich auch der Meinung, dass deine Art das zu zeigen Mangelhaft ist. Diese Spieler mit diesem Rating gewinnen so oft sind so gut. Das einzige (ausser dem viel zu hohen K Value) schlecht ist, dass eine zu hohe Gewinnwahrscheinlichkeit gegen viel schlechtere Spieler angenommen wird (und das dazu führt dass man halt deswegen versucht gar nicht gegen die zu spielen weswegen das Rating dann doch wieder stimmt.) und dass es halt Constructed Limited usw. alles in einen Topf wirft. Man hat bei Go und Schach auch nicht ein gemeinsames total Rating das ist ja schwachsinning.

            Das Rating hat bis jetzt gar nicht so schlecht funktioniert, weil sich die Spieler angepasst haben und eben nicht an FNMs gespielt haben wo viel schlechtere Spieler sind usw.

            Prinzipiell die einfachste Anpassung wäre einfach niedrigere K Value und mindest anzahl planeswalkerpoints in der letzten Season damit das Rating gilt. Man darf aber nicht so einen linearen C-Faktor einbauen, bzw man kann es aber man darf nicht das jetztige Rating mit so einem Rating vergleichen. Man hat ganz verschiedene Grundannahmen und vereinfachungen beide entsprechen nciht 100% der Realität und beide sind komplett Unterschiedlich.
            Ich sage nur man könnte so eine NICHT LINEARE Abflachung einführen wenn man möchte dass man nicht FNMs vermeiden muss als guter Spieler (vor allem im Limited).
            Dann sollte man halt die Limited/T2/Legecy usw Ratings beachten und nciht unbedingt das total und man muss die K Values verringern.

            Aber in jedem Fall passen sich die Spieler an und das Rating funktioniert mehr oder weniger aber halt nicht bei allem 100%ig. Und man wird je nach Annahmen andere Ratingverteilungen bekommen aber ich denke in jedem System wird (schwankungen mal abgesehen) die selbe Spielerschaft höher sein. Und in jedem System wird die tatsächliche Gewinnwahrscheinlichkeit in bestimten Fällen NICHT der vom System ensprechen. Das wäre in deinem Model genau das selbe.
            Was man aber nicht machen darf, ist anzunehmen dein Model modeliert die Realität eins zu eins und das andere Model sei deswegen falsch, weil es nicht dem eigenen entspricht.

            Was ja bei jedem Modell der Fall ist (das Elo basierend ist), dass die Gewinnwahrscheinlichkeit die man jetzt hat genau die Vergangenheit modeliert. Und dass man annimmt in der Zukunft wird das ähnlich sein. LSV hat so ein hohes Rating weil er so oft gewonnen hat, anders geht das ja nicht (man kriegt keine Punkte geschenkt ausser den Startwert). Dass man davon nicht schliessen kann, dass er jetzt auf einem GP eine 70+%ige Gewinnwahrscheinlichkeit hat ist ja egal. Das Rating soll nur die Spielstärke angeben und das tut es jetzt auch (+- Schwankungen) wie gut es für Vorraussagen ist auf Turniere bezogen ist doch komplett egal, wir wollen es ja nicht zum Wetten verwenden.

          • trischai sagt:

            Auch zu dir ruf mich an unter Skype unter trischai oder ruf mich an unter der Telefonnummer die ich dir geschickt habe. Ich bin zu faul das jedesmal von Anfang an und mit Beispielen abzutippen. Meine Zeit ist begrenzt, dass musst du einfach verstehen. Ich hab in den Kommentaren schon eine Text produziert der reicht für 20 Blogs.

    • Tigris sagt:

      Diese Punkte mögen stimmen haben aber nichts mit der Berechnung hier zu tun. Es liegt nicht an einem ominösen C-Faktor sondern daran dass die K-Values enorm hoch waren und so die erwarteten Gewinnwahrscheinlichkeiten auch etwas hoch gestiegen sind so teilweise. Und dass halt vielleicht die Gewinnwahrscheinlichkeiten eine Obergrenze haben oder abflachen.(Hier könnte man einfach eine Funktion wählen, welche halt fuer 200 punkte Unterschied 60% hat bei 400 nur 75% so in diese Richtung weil genau diese viel zu hohe Gewinnchance bei 400 Punkten oder so dazu führt dass man sich nicht erlauben darf FNMs mit spassten zu spielen bei nem hohen Rating.) Und wie du gerade sagst wegen den Planeswalker Points, die währen eine gute ergänzung gewesen. Man hätte es so lösen können, dass man Pro Season eine gewisse Anzahl Planeswalkerpoints hohlen muss, damit das Rating aktiv wird. Die Planeswalkerpoints hätten dann aber in direktem Verhältnis zum K Value eines Turnieres stehen müssen. Das währe eine sinnvoller Einsatz von diesen gewesen. Genau das selbe bei den FNM Championschip. Man hätte ein FNM Rating uns muss eine gewisse Anzahl an Planeswalkerpunkten haben in einer Season, damit man das Rating gilt und die Top X kommen dann halt an diese Meisterschaft. Ausserdem muss man natürlich die Teilnamepunkte abschaffen.

      • trischai sagt:

        Aber genau die Abflachung die du beschreibst ist mein c-Faktor. Wirklich der macht nichts anders als die GeW abzuflachen. Aber das Elosystem von Wizards rechnet ohne diese Faktor. Er ist aber vorhanden. Deswegen geht es nicht! Mehr hab ich nie behauptet und aussagen wollen.

        • Tigris sagt:

          Sicher geht das System, es hat seine Mängel (hohen K Value) aber es funktioniert eigentlich ganz gut. Die Ratings geben die Spielstärke an da kannst du mal bei FNMs schauen wer was für ein Rating hat und wie gut die speielen, das trifft sehr gut zu. Und wenn jemand besser wird, steigt auch sein Rating, wenn er schlechter wird aus irgendwelchen Gründen sinkt es. Es hat halt nur enorme Schwankungen und deswegen würde es vielleicht für Einladungen mehr Sinn machen ein durchschnittliches (der eltzten Monate) anzusehen.

          • trischai sagt:

            Genau so ein Rating wäre fair aber die hohen K-Werte sind nicht das größte Problem. Wie ich im Blog gezeigt habe geht es auch nicht für kleine K Werte wie 10.

            Und glaub mir ich hab nur die GeW getweaked. Mein System sagt nur das LSV bei einem GP 75% holen würde (in Wahrheit macht er 60%) und nicht 85% wie es das alte Elosystem vorhersagt. Dann hab ich gesagt ok lass mal laufen und schauen ob dann das alte! System immernoch die guten Spieler findet und siehe da es schafft es nicht mehr. Eine Gruppe von guten Spielern auf dem selben Skillniveau (sagen wir mal 2000) müsste alle! um die 2000 landen. Das alte! System murmelt aber lustig vor sich hin rechnet mit utopischen Gewinnwahrscheinlichkeit und am Ende macht es so viele Fehler das ein 2000er irgendwo zwischen 2200 und 1800 landet und das schon bei kleinen K-Werten weil es nicht mehr schafft sich selbst zu korregieren. Eben weil Magic GeW nicht Elo GeW ist. Es kam kein weiteres Element hinzu.

          • Tigris sagt:

            Das jetztige Rating ist doch fair, ich sehe dein problem nicht, dein Blog zeigt gar nichts ausser, dass das jetztige Model durch das Elosystem und das Model durch dein eigenes C-Wert System zwei total verschiedene Dinge geben.
            Fakt ist LSV hat dieses hohe Rating, das hat er durch das System bekommen, und das muss er bekommen haben durch viele Siege gegen schlechte Gegner oder (ein bisschen weniger viele) Siege gegen gute Gegner ODER wie es wahrscheinlich sein wird, eine Mischung daraus.

            Du machst nichts anderes als anzunehmen dein Model ist besser als das andere und dann zu zeigen, dass wenn man das annimmt man zeigt dass das System schlechter ist als das andere.

            Es ist schon sehr arrogant zu sagen, dass jetzt nicht die guten Spieler gute Ratings haben.

            Wenn LSV bei GPS eine 60%ige Gewinnwahrscheinlichkeit hat und NUR GPs spielen würde (was er nicht macht und das Rating ist halt eben auch nicht eine Aussage über nur GPs sondern über alles Magic), dann würde das nur eines bedeuten, seine Gegner haben auch ein hohes Rating (was halt dank den riesen Schankungen alleine durch den GP und wenn man betrachtet wer Tag 2 macht) gar nicht soo unerwartet ist.

          • trischai sagt:

            Ich hab kein c-Wert System genommen ich habe das Elosystem genommen. Wirklich! Nochmal ich habe nur die GeW des Spielers angepasst in dem simulierten Match, dass er zockt und dann geschaut okay was passiert denn wenn das System den Magicinput bekommt. Was rechnet das Elosystem aus, aus diesen Daten die es bekommt anhand des momentanen Ratings der beiden Spieler. Ergebnis es kommt Müll raus, Hausnummern aber kein Ranking. Ich kann dir alle meine Daten schicken und du kannst überprüfen, dass genau nur das passiert ist. Warum die Elozahlen der Spitzenspieler rauskommen die wir beobachten in der wirklichen Welt wurde ja schon erörtert. Aber das ist ja kein Beweis, dass das Ranking für den Großteil der Spieler um 1800-2000 richtig ist.

            Und nochmal ruf mich an unter Skype unter trischai oder ruf mich an unter der Telefonnummer die ich dir geschickt habe. Ich bin zu faul das jedesmal von Anfang an und mit Beispielen abzutippen. Meine Zeit ist begrenzt, dass musst du einfach verstehen. Ich hab in den Kommentaren schon eine Text produziert der reicht für 20 Blogs.

  21. trischai sagt:

    Wer der Meinung ist das Dargelegte im Blog sei falsch, kann mich auch in Skype unter trischai anrufen. Es hat sich in den bisherigen Kommentaren gezeigt, dass das Thema für viele zu komplex ist. Was vollkommen verständlich ist, da Rankingsysteme nicht Allerweltswissen sind. Daher ist es vielleicht besser ein persönliches Gespräch zu führen, damit ich nicht bei jedem Kommentar, der gegenteiliges zu dem im Blog dargelegten behauptet, die selben Erklärungen abtippen muss. Dazu bin ich langsam zu faul und ich kann besser reden als schreiben. 😀

    Keine Sorge ich reiß keinem die Rübe ab nur weil er was nicht verstanden hat.

    • Michael Müller sagt:

      Das ist auch besser so, sonst endet das wie bei Rumpelstilzchen…
      Ich schreibe da gleich noch was längeres zu, aber ich will den Moser-Artikel erst zu Ende lesen.

  22. Michael Müller sagt:

    Sodele, auch meine Zeit ist kostbar, deshalb meine Abschlussbemerkungen:

    Die Behauptung, ein sehr guter Spieler könnte gegen einen schlechten Spieler keine GeW von 90% erzielen (und halten), ist durch nichts belegt und schlicht nicht haltbar. Sie ist sogar ein direkter Widerspruch zu der Rating erzeugenden Funktion! Es mag jeder mal in seine Ratinghistorie schauen wie oft er gegen Spieler verloren/gewonnen hat die über 400 Punkte besser/schlechter waren als man selbst (ist über die Ratingberänderung zumindest grob abschätzbar).
    Hint: Er wird deutlich weniger Spiele finden, als man vermuten könnte. Das liegt daran, dass man sich normalerweise mit Gegnern „auf Augenhöhe“ messen will.

    Das von WotC verwendete Total-Rating hat (mindestens) zwei Schwachstellen.
    Zum Einen sorgt der hohe K-Wert für eine grössere Streuung des momentanen Ratings um das tatsächliche Niveau. Kann man gut erkennen, wenn man die Simulation in dem Diagramm „Schach Beispiel“ mit unterschiedlichen K-Values wiederholt. Das hat zur Folge, dass man das tatsächliche Niveau eines Spielers aus seinem momentanen Rating kaum ablesen kann. Das würde im Schach auch passieren, wenn man entsprechende K-Werte verwenden würde.
    Zum anderen werden unterschiedliche Formate miteinander verglichen. Wenn ein Eternalonly-Spieler mit 1800er Totalrating auf einen Standardonly-Spieler mit 1800er Totalrating während des Prereleases trifft, ist die GeW? Schlicht nicht abschätzbar. Das ist aber KEIN Grund das Elo-Rating bei Magic grundsätzlich in Frage zu stellen. Wenn man ein Totalrating Boardgames einführen würde, zusammengesetzt aus Mühle, Dame und Schach, würde es dieselben Schwierigkeiten verursachen.
    (Sidenote: Die 90% GeW sind in verschiedenen Formaten unterschiedlich schwer zu erreichen. Das erkennt man daran, dass die Varianz bei der Verteilung der Spieler-Ratings unterschiedlich ist. Ein Anhaltspunkt dafür ist die Anteil der Spieler mit Rating von 1500-1700, im Constructed ca. 81%, im Limited ca. 85%. Gäbe es ein Sealed-Rating, dürfte sich die Kurve noch weiter verdichten, es ist gut möglich, dass man im Sealed eine Rating-Differenz von 400 Punkten nicht dauerhaft halten kann.)

    (Jetzt kommt der unfreundliche Teil)

    Trischai, Du hast den TrueSkill vollständig und überhaupt und ganz und gar NICHT verstanden!
    (Glicko habe ich nur überflogen, aber auch das scheint in eine völlig andere Richtung zu gehen, als Du behauptest)
    Beim TrueSkill geht es nicht um Glück oder Zufall, sondern um Unsicherheit! (Wer keine Muße hat den Artikel zu lesen, möge ihn mal nach Begriffen wie „luck“ oder „random“ durchsuchen)
    Worum geht es beim TrueSkill wirklich?
    Um die Frage,ob ein Spieler bereits sein wahres Rating erreicht hat oder ob er sich noch im Initialisierungsprozess befindet. Wenn man sich nochmal das Diagramm „Schach Beispiel“ anschaut, da erkennt man diesen Prozess im Bereich 0-800 Matches. Die Motivation dahinter ist, dass es mehr Spass macht gegen gleichstarke Gegner zu spielen, als gegen völlig unter-/überlegene. Das Problem beim klassischen Elo ist es, dass dieser Prozess bei kleinen K-Werten sehr lange dauert, und bei grossen K-Werten sehr hohe Schwankungen auftreten. Das ist der klassische Trade-Off zwischen Varianz und Bias! Die Lösung verwendet einen variablen K-Wert (ja! einen K-Wert wie bei Schach und Magic, nicht einen ominösen Chaos-Faktor), der abhängig ist von der Anzahl der bisherigen Partien des jeweiligen Spielers. Kleine Anzahl Partien führen zu einem hohen K-Wert, große Anzahlen zu einem kleinen K-Wert. Soweit ich weiss (ich habe wirklich keine Ahnung von Schachturnieren), wird das Elo-System beim Schach vergleichbar justiert. Kleinere Turniere (da wo die neueren Spieler anzutreffen sind) haben einen hohen K-Wert, grössere (mit erfahreneren Spielern) eine kleinen K-Wert.
    TrueSkill wurde entwickelt um den Initialisierungsprozeß bei Spielen wie Schach(!!!) automatisieren zu können, daraus eine Argumentation zu stricken, warum Elo bei Schach funktioniert und bei Magic nicht, ist nur eines: ABSURD!

    Danke für die Aufmerksamkeit.

    • trischai sagt:

      Doch die GeW muss in Magic niedriger sein ich habe dir das auch schon mehrfach vorgerechnet. Die Win% von guten-sehr guten Spielern ist zu niedrig, das zeigen eindeutig die Win% aller! Pros. Diese ist nicht dadurch erklärbar, dass sie nur gegen gute Gegner spielen denn dazu reicht die Anzahl an guten Spieler gar nicht aus. Auch das habe ich schon vorgerechnet. Mehrmals! Es ist auch mit einem funktionierendem Rankingsystem nicht erklärbar warum die Win% von GP und PT identisch ist obwohl bei der PT im Schnitt bessere Spieler spielen als bei einem GP.

      Zum TrueSkill: Natürlich ist Unsicherheit = Glücksfaktor. Soviel logische Verknüpfungsarbeit muss schon sein. Ich werde dir kein Paper liefern können, dass sich explizit auf Magic als Beispiel bezieht. Im Falle von TrueSkill ist es primär entwickelt worden um faires Matchmaking von Spielern in Teamspielen zu ermöglichen bei denen aber die Teams jedesmal neu zusammengestellt werden. Da weiss man auch nicht wie gut die eigenen Mitspieler sind und kann verlieren obwohl man kein Fehler macht, allein durch das schlechte Abschneiden der random Teammitglieder. Das ist vergleichbar (nicht identisch!) mit dem Glücksfaktor in Magic. TrueSkill kann aber denoch aus den Ergebnissen mittels dem verwendeten Algorithmus den Skillwert jedes Einzelnen ermitteln. Ein Elosystem könnte das nicht oder nur sehr schlecht weil es mit dem zusätzlichen Glücksfaktor nicht zurechtkommt.

      Alles weitere über Skype oder Telefon sonst bekomm ich noch nen Schreibkrampf.

  23. Felix sagt:

    Um diesen Streit, also die Frage, ob in Magic sinnvolle Ratings durch ein ELO-System repräsentiert werden können, zu klären, müssten wir hier neu ansetzen.
    Erstmal zu all meinen Vorrednern (nein Vorschreibern): Es ist richtig, dass trischai mit diesem Artikel seine Aussage „Das ELO-System funktioniert für Magic nicht“ (noch) nicht bewiesen hat. Trischai hat versucht, einen im System intrinsischen Fehler zu finden und durch Simulation und rationale Abwägung („Kein Pro hat je so hohe Gewinnwahrscheinlichkeiten wie 90%“) plausibel zu machen. Kein Beweis. Ich schätze, dass man weder diese Aussage noch ihr Gegenteil BEWEISEN kann. Und ganz ehrlich ich weiß auch nicht, wer von euch hier tatsächlich richtig liegt. Was ich sicher weiß ist:

    Das ELO-System bietet ein Ranking. Es stuft relativ zuverlässig die Spieler, die mit besseren Decks bessere Entscheidungen treffen und konzentrierter viele Spiele spielen besser ein, als solche, die es nicht tun. Dies passiert unabhängig davon, dass es in Magic einen eventuell höheren „Zufallsfaktor“ (bin mir nicht mal sicher, ob der multiplikativ ist, schätze sogar eher additiv) gibt, da schlechte Draws etc. ja (vermutlich) symmetrisch sind. Dass es innerhalb des Systems Anomalien gibt (ein paar davon hat trischai versucht aufzuzeigen und weitere sind in den Diskussionen danach schon besprochen worden) ist unbestritten.

    Was ist also nun zu tun, um das Problem zu entscheiden? Wir haben es mit Statistik zu tun, also ist ganz klar: Wir brauchen einen geeigneten Test! Alle die, die ihre Aussage gerne zeigen würden, sind hiermit also aufgefordert, sich ein Signifikanzniveau alpha zu wählen (Ich würde ja gerne $\alpha$ schreiben, ich fürchte aber, dass es hier kein TeX-Plugin gibt … :-[ ) und anhand von repräsentativen Daten der letzten (,keine Ahnung, vielleicht) 10 Jahre der Pros mit einem geeigneten Test zu prüfen, ob die Ratings den „tatsächlichen Skill-Level“ der Spieler wiedergeben. Offensichtlich birgt dies einige Schwierigkeiten:
    1. Niemand kennt den „tatsächlichen Skill-Level“ von irgendjemanden (hängt damit zusammen, dass unsere Skala völlig willkürlich gewählt wurde). Weiter kann es sein, dass dieser „tatsächliche Skill-Level“ ständig variiert, denn jeder von uns lernt, ist mal schlecht drauf, unkonzentriert etc.
    2. Es gibt unzählige Testmöglichkeiten und da die Daten bereits zugänglich sind, könnte man sie zuerst analysieren und sich dann ein Signifikanzniveau alpha wählen. In diesem Fall ist der Test wertlos, da man zu nahezu jedem p-Wert (wer den nicht kennt, dem hilft Wikipedia (p-value)) verwerfen kann (was das heißt -> Wikipedia (Test))
    3. Wir brauchen natürlich eine Grundverteilungsannahme. Anschaulich scheint die Normalverteilung mit Mittelwert „tatsächliches Skill-Level“ und einer (zumindest mir) nicht bekannten Varianz eine gute Annahme zu sein, wie sich das ELO-Rating entwickelt. Aber, ob das korrekt ist, oder ob nicht viel eher eine andere Verteilung die richtige ist, kann kein Mensch beweisen.
    4. Es bleibt immer noch das Problem, dass Realität auf Modell trifft. Das Modell ist eine Vereinfachung der realen Gegebenheiten und kann die Realität nie in allen Feinheiten wiedergeben. Dies sollten wir uns auch vor Augen halten, wenn wir von Rating-Anomalien sprechen, denn dies sind (wahrscheinlich) genau die Fehler des Modells
    5. Selbst wenn wir einen geeigneten Test finden, so haben wir hier nur den einen „Run“, also den einen Verlauf der Spiele der Magic-Geschichte. Dieser kann Anomalien noch und nöcher enthalten und wir können immer nur sagen, dass gegeben die Daten folgen unserer Verteilungsannahme, dieser Run nur eine Wahrscheinlichkeit von epsilon % hat. Siehe z.B. Lotto: Es gibt genügend Tests, die zeigen, dass es unwahrscheinlich ist, dass die „13“ so selten gezogen wurde, wie im deutschen Lotto 6 aus 49. Dass aber die Ziehung der Kugeln beim Lotto einer Gleichverteilung folgt (a priori zumindest) bestreitet niemand (der bei Verstand ist — und falls doch, behaltet das für euch und gewinnt den Jackpot; nur so als Tipp ;-] ).
    Ich bin gespannt, ob es jemanden gibt, der den Skill (und die Zeit) hat, einen vernünfitgen Test auf die Beine zu stellen. Für Fragen etc stehe ich gerne unter fhoffmann(at)iam.uni-bonn.de zur Verfügung.
    Liebe Grüße,

    Felix

  24. original_pete sagt:

    Der Artikel lässt sich vielversprechend an, allerdings geht er spätestens ab Tabelle 5 (erste Simulation von Matches mit c-Faktor) von falschen Annahmen aus.
    Die Gewinnwahrscheinlichkeiten bedingen das Rating, nicht umgekehrt.
    Diese Simulation liefert nur für den – zugegebenermaßen sehr speziellen – Sonderfall das korrekte Ergebnis, dass der Zufallsfaktor quasi über Nacht Einzug gehalten hat und alle Gegner zum ersten Mal unter den neuen Bedingungen spielen, ihr Rating aber noch unter den alten Bedingungen entstanden ist.
    Rein mathematisch hält das Modell spätestens ab diesem Punkt einer genaueren Überprüfung nicht stand – womit ich nicht sagen will, das alte ELO-Rating sei über jeden Zweifel erhaben.
    Gruß, Pete

    P.S.
    Trischai, wenn du an meiner Behauptung zweifelt, führe eine Simulation mit mehreren Spielern verschiedener Spielstärken durch, die alle bei 1600 starten.

    • Tigris sagt:

      Genau das habe ich (nach nochmaligem lesen usw) auch gedacht allerdings ist das hier sehr schön formuliert. Wenn jemand ein 2200 Rating bekommen hat, dann ist es mehr oder weniger durch diese Gewinnwahrscheinlichkeiten oder ähnliche entstanden. Was ich mit ähnlichen meine ist, dass man halt wahrscheinlich nicht diese genaue Verteilung hat aber eine mit der man auf dieses Ergebnis kommt. Es mag stimmen, dass LSV nicht eine 95% gewinnwahrscheinlichkeit im Limited gegen einen Noob hat, aber dies kann halt dadurch ausgeglichen werden, dass er mehr Constructed als Limited spielt und dass er vielleicht gegen einen ähnlich hohen Spieler nicht eine Gewinnwahrscheinlichkeit von 55% sondern eine von 57% (oder so) hat.

      Du kannst ja mal Simulationen machen, wie man auf so ein Rating kommt, aber man kommt auf so ein Rating eben NICHT mit einer solchen linearen Senkung der Gewinnwahrscheinlichkeit sondern höchstens mit einer Art Umverteilung.

      Die echte Gewinnwahrscheinlichkeit kann anders sein als vom Elo Rating vorhergesagt, aber sie darf NICHT überall tiefer sein.

      (Ich sehe es bei mir, ich spiele oft gegen Spieler mit einiges tieferem Rating, gegen diese habe ich allerdings nicht soo eine hohe Gewinnwkeit dafür ist meine gegen gleich gute oder bisschen schlechtere Spieler einiges höher als das Rating vorraussagt).

      Das Rating entsteht ja direkt durch die die Gewin%e der Vergangenheit also kann es nicht so stark anders sein als das Rating es vorraussagt wie du hier annimmst.

      • trischai sagt:

        Deswegen hatte ich ja dann auch die Simulation gemacht mit zufälligem c-Faktor von Partie zu Partie, um zu sehen was passiert, wenn der gute Spieler auch Matches hat bei denen er sein volles Potential abrufen kann und wirklich der 99% Favourite ist. Die lineare Streckung vom konstant c-Fall ist nur eine grobe Annahme aber für das Elosystem sogar noch leichter verdaulich. Dewegen habe ich damit zuerst angefangen, denn der gute Spieler hat im konstant c Fall auch wirklich eine konstant bessere Edge gegenüber den schlechteren. Mein Modell ist auch immer eine Umverteilung, denn es geht in beide Richtungen. Gegen schlechtere gewinnt man weniger und gegen bessere gewinnt man öfter als das Elosystem vorhersagt.

        • Tigris sagt:

          Dein Modell macht aber eine chaotische Umverteilung, die Umverteilung die es amcht muss ja dazu führen können, dass man dieses Rating irgendwie erreicht hat. Wie erklärst du denn, dass jemand überhaupt jemals diese 2000er Ratings bekommen hat bzw wie er diese hält wie kann das denn sein, wenn er kleinere Gewinnwahrscheinlichkeiten hat? Die Umverteilung die du machst erfüllt eben nicht das richtige, du gewinnst gegen alle schlechteren Spieler weniger häufig und gewinnst nur gegen die besseren Spieler häufiger. Da ist es ja natürlich, dass dann jemand der gut ist im alten System in deinem System weniger gut ist, du senkst seine Overall Gewinnwahrscheinlichkeit, das darfst du aber eben NICHT machen. Was ich gemeint habe ist folgendes: Man gewinnt gegen Leute mit 400 Rating weniger ein bisschen weniger häufig als das System vorhersagt, man gewinnt aber gegen Leute mit nur bis zu 100 Rating weniger häufiger als das System vorhersagt. Sowas darf vorkommen so kann man die Gewinwahrscheinlichkeiten ändern ohne einfach die Gewinnwahrscheinlichkeit von guten Spielern zu senken.

          Fakt ist ja, dass man irgendwie zu diesem Rating gekommen ist. Und da machen demnach nur Modelle sinn, mit denen man auf dieses Rating kommen kann.
          Wenn LSV die Gewinnwahrscheinlichkeiten hätte die du annimmst dann wäre es beinahe unmöglich überhaupt auf dieses Rating zu kommen und es zu halten wenn man bei 1600 startet.

          (Also angenommen sein Trueskill wäre derjenige den dein System vorhersagt bei einem Rating von 2200 dann lass ihn mal gegen Random Gegner spielen (welche realistisch verteilt sind also die meisten 1700 herum bis zu 1900 wenig Ausschlaege gegen oben), dann siest du dass er NICHT auf ein 2200 er Rating kommen kann beim Elo system bzw dass er es falls er es mal erreicht (Varianz) nicht halten kann. Weil seine Gewinnwahrscheinlichkeiten nicht ausreichen.)

          Das zeigt ja dann schon, dass deine Annahme gar nicht stimmen kann, dass er solche Gewinnwahrscheinlichkeiten hat.

          Das selbe kannst du noch mit deinem Random C Faktor machen und wirst ebenfalls erkennen, dass er das auch nicht erreichen kann.

          Ausserdem muss das mit dem Random C Faktor folgendermassen aussehen:

          (GeW_Elo ) + (C-0.5)/Skallierungsfaktor (frei wählbar) fü c vichen nd
          Damit du nicht den Erwartungswert der Zufallsvariable veränderst, was du getan hast. Du hast nur angenommen, dass gute Spieler Pech haben können und deswegen schlechter abschneiden, als das ihr Rating sagt ABER wenn du so eine Annahme machst ist es logisch dass man so schlechtere Ergebnisse erhält, weil du ja annimmst, dass man nur schlechter abschneiden kann als guter Spieler nicht jedoch besser.
          Mir ist klar, dass man so Wkeiten von über 100% erhalten könnte aber das kann man bei deinem System ebenfalls wenn C hoch genug werden kann und wenn es dies nicht kann dann hat halt deine neue Zufallsvariable einen viel schlechteren Erwartungswert für gute Spieler und kann so (in obiger Simulation) gar nie auf das Rating kommen welches man hat.

          So macht man dies normalerweise wenn man 2 Verteilungen vermischt ansonsten hast du ja IMMER diesen zusätzlichen Zufall drin und senkst so die Gewinnwahrscheinlichkeit entweder immer für gute Spieler(und veränderst so logischerweise den Erwartungswert nach unten) oder du könntest wenn C grösser als 1 wird (was er sein können muss weil du sonst wieder eine Zufallsvariable mit einem tieferen Erwartungswert hinzu addierst).

          Wenn du eine zusätzliche Zufallsvariable hinzu fügst (was ja unnötig ist da es schon eine Zufallsvariable ist) muss die den selben Erwartungswert haben ansonsten verschlechterst du ja das Ergebnis direkt. Und dann zu zeigen, dass das Ergebnis schlechter wird dadurch ist ein Zirkelschluss.

          Also kurz zusammenfassend:

          Wenn du den Erwartungswert einer Zufallsvariable verschlechterst wird diese Zufallsvariable einen schlechteren Erwartungswert haben (das hast du gemacht und gezeigt).

          Wenn du einen zusätzlichen Randomfaktor annimmst, muss sich der auch positiv auswirken können nicht nur negativ sonst verschlechterst du den Erwartungswert.

          Wenn du eine Gewinnwahrscheinlichkeitsverteilung für ein bestimmtes Rating annimmst mit der man ein bestimmtes Rating gar nicht erreichen kann, dann muss diese Annahme falsch sein, weil man sonst dieses Rating gar nicht haben kann.

          Wenn LSV gegen bestimmte Spieler (z.B mit 400 Rating weniger als er) eine niedrigere Gewinnwkeit hat, als das ELO vorraussagt, dann MUSS er gegen andere Spieler, gegen die er TATSÄCHLICH spielt eine höhere Gewinnwahrscheinlichkeit haben als er hat. Dies können explizit eben nicht nur Spieler sein mit höherem Rating als er (weil er nicht wirklich gegen solche spielt) sondern müssen Spieler sein, die auch ein niedrigeres Rating haben, aber halt vielleicht ein nur knapp niedrigeres Rating (also nur 1-100 Punkte weniger als er).

          • trischai sagt:

            Ich schreib jetzt nochmal einen Blog bei dem ich versuche das Elosystem zu erklären und was passiert mit einem Glücksfaktor, sonst wird mir das zu krampfig.

          • Tigris sagt:

            Beantworte da aber auch die Frage, wie du dir erklärst dass diese Leute diese Ratings haben, wie diese zustande gekommen sind. Denn dann wirst du sehen dass das eben nicht mit deinen (allgemein zu tiefen für gute Spieler) Wkeiten geht.

            Du kannst nicht annehmen die Spieler mit diesem Rating haben so tiefe Gewinnwkeiten, wenn sie mit diesen gar nie so ein Rating erreicht hätten, dann muss die Annahme falsch sein.

            Ich muss zugeben mich hat das hier ein wenig zum denken gebracht, das war schonmal gut. Aber es hat mich auch darin bestätigt dass nicht Mathematiker besser keine Mathematik machen sollten.

            Alle deine möglichen Annahmen (festen oder Random C Faktor) die du hast resultieren dazu dass LSV eine Gewinnwkeitsverteilung hat mit der er in einem normalverteilten Feld NIE auf sein Rating gekommen wäre, müssen also allesamt falsch sein, denn der einzige Fakt den wir haben ist, dass LSV so ein Rating hat, das mit dem aktuellen Elorating zustande gekommen ist.

            Man darf natürlich annehmen, dass seine Gewinnwkeiten anders verteilt sind als das Elo das vorraussagt, aber man muss dann mit diesen auf dieses Rating kommen können, das er hat.

            Wenn man 0=1 annimmt kann man alles folgern.

    • trischai sagt:

      Ok erklär mir wie das Rating funktionieren soll wenn das Elosystem von utopisch hohen Werten ausgeht. Wie das Rating zustande kommt ist dem System ja egal es rechnet nur mit den aktuellen Werten und die entstehen ganz egal ob das System richtig ist, denn der Gewinner bekommt Punkte und der Verlierer verliert Punkte. Die Frage ist einzig und allein stehen gewonnen Punkte wirklich im richtigen Verhältnis zur Realität und falls dem nicht so ist (was ja in Magic stimmt) schafft es das Elosystem trotz falscher Annahmen immer noch zu konvergieren. Ergebnis es schafft es nicht mehr.

      Nur mal ein Beispiel zum Nachdenken für dich. Nehmen wir an du bist ein besserer Spieler als ich und hättest auch wirklich 2000 Punkte und ich bin bei 1800 wie das entstanden ist ist egal. Es geht im folgenden nur um die Widersinnigkeit, wie das Elosystem für Magicverhältniss rechnet, aufzuzeigen. So wir spielen jetzt eine Serie von Spielen bei dem es nur auf den Münzwurf ankommt. Wie das passiert ist auch egal. Wir beide wissen ja das sowas passieren kann in Magic. Wir beide wissen aber auch okay das ist ein 50:50 Matchup und Skill spielt keine Rolle. Das Elosystem sieht aber hey du hast 200 Punkte mehr und bist der 75:25 Favourit. Diese Quote kannst du aber nicht halten. Dem Elosystem ist das aber scheissegal es gibt dir jetzt weniger Punkte pro Sieg als du verdient hast und zieht dir mehr Punkte ab als fair ist wenn du verlierst. So und das ganze ist auch wahr, wenn man jetzt sagt okay das Matchup war 60:40, weil du wirklich besser bist als ich und mehr spiele gewinnst. Das System sieht dich immer noch als 75:25 Favourit. Und berechnet deine Punktgewinn/verlust nach der Partie falsch. Du müsstest exakt das Verhältnis von 75:25 erreichen, egal was wir gegeneinander zocken, in welchem Format auch immer und egal ob ich eine unfaire Edge durch todecken, Spoiler oder sonstwas habe.

      Dehne ich die Simulation nun aus auf eine Spielerschaft von 1 Mio Spielern denen ich alle eine Normalverteilung ihrer Spielstärker gegeben habe und lasse alle gegeneinander antreten wobei jeder bei 1600 startet. Benutze dabei Matchupwahrscheinlichkeiten, bei denen der bessere Spieler immernoch die Egde hat, nur verteilt von realistisch bis hin zu unrealistisch gut. Dann schafft es dass System nicht, die Spieler korrekt nach ihrem Skillniveau zu sortieren, sondern die Spieler sind wild durcheinander gewürfelt. Eben weil niemand dem Spieler garantieren kann, dass die Winqoute, die das Elosystem benutz um den neuen Wert zu berechnen auch wirklich die ist, die in dem aktuellen Spiel auch wirklich möglich ist. Dadurch übersteuert und untersteuert das Elosystem enorm und schafft es nicht mehr zu konvergieren. Dabei ist es aber so dass es auch in diesem falschen Ranking immer Spieler gibt mit hohen Ratings bis hin zu 2200+ und welche mit niedrigem Rating bis hin zu 1400. Doch diese Werte sagen nicht aus, dass das ihre Skillniveaus sind. Es ist sogar so das 50% der Spieler die eigentlich bei 2000 sein müssten irgendwo bei 1800 sind und umgekehrt.

      Irgendwie haben viele Leser die Meinung das das Elosystem es irgendwie magisch schaft die Matchupwahrscheinlichkeit von Magic zu erfassen bevor es anfängt zu rechnen.

      Deswegen aus zu dir ruf mich an über Skype oder Telefon. Ich kann dann viel effektiver auf deine Fragen eingehen. Was ich hier geschrieben habe ist nur ein Bruchteil der Wahrheit.

  25. BigBOne sagt:

    Also erstmal. Elo hat funktioniert! Ansonsten hätten nicht die besten Spieler die höchsten Ratings.

    Auf den ersten Blick sieht es danach as als wäre die Berechnung der Gewinnwahrscheinlichkeit falsch, da man um 400 Punkte mehr als der Durchschnitt(~1600) zu halten 90% der Spiele gegen zufällige Gegner gewinnen müsste und dies auf Grund des Zufalls in Magic nicht auf Dauer möglich ist.
    Stellt sich die Frage wie man dann überhaupt auf ein so hohes Rating kommen kann.

    Man Spielt nur 1 Match pro Turnier gegen einen zufälligen Gegner, danach spielt man gegen jemanden der in den vorrangegangen Runden das gleiche Ergebnis hatte. Damit veringert sich der Ratingunterschied zwischen den Gegnern im Durchschnitt mit jeder Runde im Turnier.
    (@trischai Deine Berechnungen sind also nur korrekt wenn man immer nach der ersten Runde dropt)
    Wenn man also ein Rating über dem Durchschnitt hat ist es besser je mehr Runden ein Turnier hat um sein Rating zu verbessern. Durch die höhere K-Value auf diesen Turnieren wird das noch verstärkt.

    Durch ein hohes Rating, dass man nicht gegen zufällige Gegner halten kann, ergibt sich jedoch das Problem, dass man nicht mehr gegen diese spielen möchte und nur noch auf Grand Prix(mit Byes) oder Pro Tour spielt.

    Beheben ließe sich das Problem indem das Pairing anhand des Ratings durchgeführt wird. Hätte aber zur Folge dass ein Spieler mit hohem Rating schlechtere Chancen auf dem Turnier hätte als ein ähnlich starker Spiele mit geringerem Rating.

    Eine andere Möglichkeit wäre eine sehr kleine K-Value in den ersten Runden und diese mit jeder Runde zu erhöhen. Das würde aber die Effizienz von gezielten Drops mit einem schlechtem Deck(Limited, Metagame)noch mehr stärken als mit fester K-Value.

    ich hoffe mal ich hab jetzt keinen kompletten Bullshit verzapft

    • trischai sagt:

      Die Ratingdifferenz von Runde zu ist auch nahezu konstant da man ja im Schweizer System spielt und die Spieler die gleiche Anzahl an Matches gewonnen haben. Klar gibt es gibt den konstruiert krassen Fall von ein 2000er geht 6:0 und spielt dann gegen ein 1600er der 6:0 gegangen ist, wenn hohe k-Values im Spiel sind. Um solche Effekte zu minimieren habe ich nur mit k-Values von 10 gerechnet. Unser Pro hätte dann im schlimmsten Fall (er spielt nur gegen Spieler mit Rating von 1600-) nach dem 6:0 ein Rating von 2006 und unser 1600er im besten Fall (er spielt nur gegen 2000er+) ein Rating von 1654. Die Differenz hat sich also nicht wesentlich geändert selbst in diesem super unwahrscheinlichen Fall. Selbst bei hohen K-Values kann man zeigen, dass die Differenz ähnlich bleibt wenn beide gegen einen Mix an Gegnern angetreten sind. Bei K-Values von 40 käme dann im Schnitt sowas raus 2000er -> 2096 und 1600 -> 1792. Auch da hat sich die Differenz also gut gehalten und ist nicht auf 0 zusammengeschrumpft, dabei spielt der 1600 selbst in dem Fall nur gegen 1900+.

  26. BigBOne sagt:

    ein durchschnittlicher Spieler (1600)geht aber nicht 6:0 also spielt der 2000er nicht in Runde 7 gegen ihn.

  27. Ra_Po sagt:

    LOLOL!!

    Ich fasse die Chronologie der bisherigen Diskussion zusammen:

    blogeintrag trischai: leute hört alle her: X!!!!
    pischner: uiuiui, ne nie, hier y!!!!
    trischai: quatsch, x!!
    pischner: lolol, y!!
    trischai: ok, dann erklär mir doch mal bitte z.
    pischner: kein problem, hier: (insert random erklärung für y)
    trischai: nene, z sollst du erklären!
    pischner: ok, weil du es nicht verstanden hast, hier ein gedankenexperiment.
    schließe deine augen und stell dir einen buchstaben zwischen x und z aus.
    und was siehst du? RICHTIG. Y. case closed.
    lino: (random kommentar der mit sicherheit nur das ziel hat, die diskussion um himmels willen nicht aufhören zu lassen)
    pischner: mir reichts leute, das ist mein letzter kommentar!
    pischner: ehrlich jetzt, letzter kommentar!
    trischai: ruft mich an unter 0190/666666 für hemmungslose diskussionen
    pischner: ich nochmal, wollte nur sagen, dass das mein letzter kommentar ist!


    pischner: ok leute, ihr wolltet es ja nicht anders. pischner out.

    ab da hab ich aufgehören zu lesen, wurde mir zu langweilig.
    auf jeden fall habt ihr es geschafft, die modernste und unterhaltsamste form des gladiatorenkampfes zu betreiben: das edle forentrolling ohne ahnung aber mit viel enthusiasmus und spaß an der sache 🙂

    (sorry christian, aber das musste sein ^^)

  28. Pingback: Elosystem die Zweite. | Multiplayerblog

  29. trischai sagt:

    So neuer Blog mit vielen Erklärungen wartet!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.