In den letzten Jahren hat sich das Multi-Agenten-Verstärkungslernen zu einem strahlenden neuen Stern im Bereich des Verstärkungslernens entwickelt und sein enormes Potenzial in zahlreichen Anwendungsszenarien gezeigt. Die Belohnungsfunktion lenkt die Agenten in ihrer Umgebung und hilft ihnen, optimale Entscheidungen zu treffen, indem sie Bewertungskriterien und ein Rückkopplungsmechanismus etabliert. Gleichzeitig bieten kooperative Ziele auf makroskopischer Ebene Trajektorien für das Lernen der Agenten und gewährleisten eine hohe Kohärenz zwischen individuellen Verhaltensstrategien und globalen Zielen des Systems. Die Wechselwirkung zwischen der Belohnungsstruktur und kooperativen Zielen stärkt nicht nur die Effizienz der individuellen Agenten, sondern fördert auch die Zusammenarbeit zwischen Agenten und bietet damit einen Anstoß und eine Richtung für die Entwicklung des kollektiven Intellekts und das harmonische Funktionieren von Multi-Agentensystemen. Das vorliegende Papier untersucht ausführlich Methoden zur Gestaltung der Belohnungsstruktur und zur Optimierung kooperativer Ziele im Multi-Agenten-Verstärkungslernen und beleuchtet eingehend die neuesten wissenschaftlichen Fortschritte auf diesen Gebieten. Darüber hinaus wird eine umfassende Bewertung kooperativer Umgebungsanwendungen durchgeführt sowie Diskussionen über zukünftige Trends in diesem Bereich und potenzielle Forschungsrichtungen geführt, um einen aussichtsreichen und inspirierenden Ausblick für zukünftige Forschungen zu bieten.