Die Aufgabe der Korrektur der chinesischen Rechtschreibung zielt darauf ab, mögliche Rechtschreibfehler im chinesischen Text zu erfassen und zu korrigieren. Die chinesische Sprache zeigt jedoch eine hohe Komplexität, da es mehrere Varianten von Tonveränderungen gibt, die verschiedenen Zeichen entsprechen können. Angesichts dieser Komplexität der chinesischen Sprache ist die Aufgabe der Korrektur der chinesischen Rechtschreibung entscheidend für die Gewährleistung der Genauigkeit und Klarheit der schriftlichen Kommunikation, und jüngste Forschungen haben bereits externes Wissen durch Sprach- und Sehmodalitäten in das Modell integriert. Diese Methoden konnten jedoch die Modalinformationen nicht effektiv zur gezielten Lösung verschiedener Arten von Rechtschreibfehlern nutzen. In diesem Artikel schlagen wir ein vorab trainiertes, multi-modales Sprachmodell namens DRMSpell zur Korrektur der chinesischen Rechtschreibung vor, das die Interaktion zwischen den Modalitäten berücksichtigt. Wir führen ein dynamisches multi-modales Reevualtionsmodul ein, um verschiedene Modalitäten neu zu gewichten und nützlichere multi-modale Informationen zu erhalten. Um die erhaltenen multi-modalen Informationen optimal zu nutzen und das Modell weiter zu stärken, schlagen wir eine unabhängige Modalmaskierungsstrategie vor, die drei Arten von Modalitäten für ein einzelnes Wortelement in der Vorabtrainingsphase maskeziert. Unsere Methode zeigt eine Spitzenleistung bei den meisten weit verbreiteten Basis-Testmetriken und die experimentellen Ergebnisse zeigen, dass unsere Methode in der Lage ist, die Interaktionsinformationen zwischen den Modalitäten zu modellieren, auch für irreführende Modalinformationen.