OpenRLHF Leichtes und effizientes LLM-Trainings- und Ausrichtungsframework in Industriequalität

Leichtgewichtiges und effizientes LLM-Trainings- und Ausrichtungsframework in Industriequalität, OpenRLHF unterstützt das Training des RLHF 70B-Modells mit allen Parametern und allen Prozessen!

Was ist OpenRLHF?seitChatGPTNach der Veröffentlichung wurde die RLHF-Alignment-Technologie von InstructGPT immer mehr in den Fokus gerückt und man versuchte, den darauf basierenden Trainingsprozess von ChatGPT zu reproduzieren. Nach und nach erschienen repräsentative RLHF-Reproduktionswerke wie ColossalChat und DeepSpeed-Chat. Damals konzentrierte sich das allgemeine Verständnis der Alignment-Technologie jedoch im Wesentlichen auf InstructGPT. Da OpenAI in letzter Zeit nicht sehr offen war, fehlte es tatsächlich an ausreichender Verifizierung durch Dritte. GlücklicherweiseLLaMA2Bald wurde es auf den Markt gebracht, das nicht nur die Wirksamkeit der RLHF-Technologie vollständig bestätigte, sondern auch genügend Innovationen enthielt (wie z. B. Ablehnung von Probenahme und Mehrfach-RM usw.), die sofort das Ganze auslöstenLLMOpen-Source-Community.

Angesichts der Popularität von InstructGPT und LLaMA2 untersuchte unsere Open-Source-Community OpenLLMAI die gängigen Alignment-Trainingsframeworks und stellte fest, dass die meisten Frameworks noch immer kein LLaMA2-Vollprozess- und -Parametertraining unterstützen, nicht ausreichend skalierbar sind oder nicht leichtgewichtig und benutzerfreundlich sind. Daher sind wir entschlossen, ein wirklich industrietaugliches LLM-Alignment-Trainingsframework zu entwickeln, den durch InstructGPT und LLaMA2 repräsentierten Trainingsprozess für große Modelle zu reproduzieren, gängige Alignment-Technologien wie RLHF/DPO zu unterstützen und jedem die schnelle Umsetzung seiner eigenen Alignment-Ideen zu ermöglichen.

Also, willkommen beiOpenRLHF, beginnen Sie schnell mit Ihren Ausrichtungsarbeiten!

https://github.com/OpenLLMAI/OpenRLHF

Einführung in das OpenRLHF-Projekt

Derzeit arbeitet OpenLLMAI hauptsächlich an zwei Projekten:

LLM-Rahmenwerk:https://github.com/OpenLLMAI/OpenRLHF
LLMWiki:https://github.com/OpenLLMAI/OpenLLMWikiWissensdatenbank für große Model Alchemy

Die restlichen Projekte hängen von der zukünftigen Arbeitskraft und den Interessen ab. In naher Zukunft werden wir möglicherweise ein KD- oder SE-Framework einführen. Derzeit sind wir möglicherweise nicht sehr daran interessiert, ein allgemeines kleines Modell zu trainieren. Der Hauptgrund dafür ist, dass Zeit, Geld und Energie sehr begrenzt sind. Es ist etwas schwierig, mit Liebe Energie zu erzeugen, daher werden wir uns hauptsächlich auf Interessen konzentrieren. Aber Interesse ist schließlich nicht zu verachten, daher haben wir kürzlich viel Energie in die Erstellung dieses Werbematerials gesteckt (Xianyu, ein Klassenkamerad, war zuvor zu buddhistisch/zwanghaft/beschäftigt und hatte viele Probleme). Zugegeben, OpenLLMAI ist noch sehr unwissend.OpenRLHF ist noch nicht perfektWir haben jedoch unser Bestes gegeben und hoffen auf breitere Anerkennung und Unterstützung durch die Community. Eine Gruppe von Menschen kann noch mehr erreichen!

OpenRLHF-Designidee

1. Designziele:Leicht und effizientvonIndustriequalitätLLM-Schulungs- und Ausrichtungsrahmen

Da der Branche derzeit ein wirklich industrietaugliches LLM-Ausrichtungsframework fehlt, könnten sich die meisten Hersteller dafür entscheiden, es selbst zu implementieren (dank OpenAI für den guten Start). Kurzfristig ist das verständlich, langfristig ist es jedoch unvermeidlich, das Rad neu zu erfinden.

Unser Ziel ist es daher, ein schlankes und effizientes LLM-Trainings- und -Ausrichtungsframework für den industriellen Einsatz zu entwickeln. Um dieses Ziel zu erreichen, haben wir die erste Version mit Bedacht entwickelt und getestet, um die Benutzerfreundlichkeit zu gewährleisten. Gleichzeitig haben wir sie offiziell freigegeben, um mehr Gleichgesinnte für die gemeinsame Entwicklung zu gewinnen. Wir sind überzeugt, dass Open Source die einzige Möglichkeit ist, das Framework lebendig zu gestalten!

2. Designkonzept: einfach zu bedienen, leistungsstark, skalierbar, explorativ

Einfach und benutzerfreundlich: Benutzerfreundlichkeit ist für uns das oberste Leitprinzip bei der Entwicklung des OpenRLHF-Frameworks. Da hohe Leistung für ein qualifiziertes Framework unerlässlich ist, legen wir keinen übermäßigen Wert darauf. Unter der Prämisse, hohe Leistung zu gewährleisten, ist die Verbesserung der Benutzerfreundlichkeit unser oberstes Ziel.
Skalierbar: Basierend auf 7B ist es abwärtskompatibel mit dem Training von 1–2B kleinen Modellen und unterstützt schrittweise die wachsende Modellgröße, z. B. 34B/70B/170B-Training.
Explorativ: Neben der Sicherstellung der grundlegenden Framework-Funktionen halten wir die Alignment-Technologie auf dem neuesten Stand, verfolgen die neuesten Fortschritte und implementieren sie schnell. Darüber hinaus stellen wir die neuesten von unserem Team entwickelten Alignment-Algorithmen bereit. Zukünftig werden wir außerdem das LLMPipeline-Modul entwickeln, um schnelles Üben und einen fairen Vergleich gängiger Alignment-Algorithmen und gängiger Modelltrainingstechnologien zu ermöglichen.

3. Umsetzungsideen

Benutzerfreundlichkeit: Im Hinblick auf das grundlegende Framework für große Modelle haben wir DeepSpeed/Megatron-LM und andere LLM-Trainingsframeworks untersucht und uns in der ersten Version für DeepSpeed entschieden, das prägnanter und benutzerfreundlicher ist. In Bezug auf die Modellbibliothek haben wir uns ohne zu zögern für HugBaoHugFace entschieden. In Bezug auf die verteilte Erweiterung haben wir uns für Ray entschieden. Fragen Sie nicht, fragen Sie einfach XiangRay! (Wird hauptsächlich für die Ressourcenplanung verwendet.)
Skalierbar und leistungsstark: Verwenden Sie Ray für vernünftigeGPU-Ressourcenplanung, Zuweisung von Actor-, Reward-, Reference- und Critic-Modellen zu separaten GPUs,Trennung von Training und InferenzUm die hervorragenden Tools der Inferenz-Community voll auszunutzen und mit Offload, PEFT usw. zusammenzuarbeiten.Videospeicher sparenTechnologie zur Skalenerweiterung und effizienten Schulung großer Modelle.
Explorativ: In der ersten Version haben wir den Trainingsprozess von InstructGPT und LLaMA2 vollständig reproduziert und neuere Alignment-Technologien wie DPO unterstützt. Auch in Zukunft werden wir den explorativen Charakter beibehalten und Pipeline-Module entwickeln, um die Pipelines gängiger Modelle wie InstructGPT Pipeline und LLaMA2 Pipeline zu unterstützen und der Community so mehr wissenschaftliche Vergleiche und Forschung zu ermöglichen.

Wichtige Highlights von OpenRLHF

Hauptfunktionen von OpenRLHF

Die erste Open Source-Reproduktion von LLaMA2 im Originalmaßstabund das RLHF-Ausrichtungsframework von InstructGPT;
- Unterstützung der SFT/RM/PPO-Vollprozessschulung;
- UnterstützungAblehnungsstichprobe, mehrere RMs;

Einfach zu verwenden: OpenRLHF ist eine der einfachsten derzeit verfügbaren Hochleistungs-RLHF-Bibliotheken und kann auf einem einzelnen 8-Karten-DGXA100-Knoten implementiert werden 34B Das Modell-RLHF-Training kann über Skripte durchgeführt werdenEin-Klick-Training;
Trennung von Training und Pushen, verteiltes und skalierbares RLHF;
- Verwendung mehrerer Karten24 GB RTX 4090 GPU7B Vollständiges Prozesstraining des Modells
- Verwendung mehrerer Karten A100 80G GPU und vLLM70B+ ModellUmfassende Prozessschulung
- Trennung von Training und Pushen: Trennen Sie Training und Argumentation, um gute Argumentationstools aus der Community wiederzuverwenden (wir haben schließlich vLLM verwendet), um die Argumentationslatenz zu reduzieren;
- Verteilt und skalierbar: Mit der Unterstützung von Ray/Deepspeed/vLLM und einer sinnvollen Ressourcenplanung haben wir ein effizientes und skalierbares Training erreicht. Hier zwei Beispiele:

Hohe Leistung: Dank Ray/Deepspeed und anderen speichersparenden Technologien und Frameworks zur Inferenzbeschleunigung ist unsere Trainingsleistung beim 13B LLaMA2-Modell mehr als viermal so hoch wie die von DeepSpeedChat.
- Zero-Serie
- FlashAttention2
- LoRA, QLoRA
- ausladen
- Gradienten-Checkpointing
- Inferenzbeschleunigung: vLLM
- Tipps zum Sparen von Videospeicher:

Hochmodern: Bleiben Sie auf dem Laufenden, da derzeit gängige Ausrichtungstechnologien und große Mainstream-Modelle unterstützt werden.
- Lama
- Baichuan
- qwen
- Mixtral 8*7b
- Topaktuelle Modelle:
- Standard-RLHF: SFT/RM/PPO;
- Ablehnungsstichprobe;
- DPO (Direktpräferenzoptimierung)/IPO/cDPO;
- Kahneman-Tversky-Optimierung (KTO);
- Bedingte SFT (https://arxiv.org/abs/2308.12050);
- Modernste Ausrichtungstechnologie:

Tricks zum bestärkenden Lernen: Wir haben die Implementierungstricks für PPO integriert, um die Trainingsstabilität zu verbessern, und dabei auf „Implementation Matters“ in „Deep Policy Gradients“ und „ppo-implementation-details“ verwiesen.

OpenRLHF-Leistungsdemonstration

Support-Matrix:

Die folgende Supportmatrix zeigt den Vergleich zwischen OpenRLHF und dem gängigen LLM-Alignment-Trainingsrahmen (es kann zu Verzögerungen bei der Umfrage kommen, bitte kontaktieren Sie uns für Korrekturen, falls Fehler oder Auslassungen vorliegen):

	PPO-Tricks	34B Volle Teilnahme/4 A100	70B+vollständige Parameter/16 A100	7B Voll/4 RTX4090	QLoRA	Mixtral MOE 8*7b
OpenRLHF	✔	✔	✔	✔	✔	✔
DeepSpeedChat	✖️	✖️	✖️	✖️	✖️	✖️
ColossalAIChat	✖️	✖️	✖️	✖️	✖️	✖️
TRL	✔	✖️	✖️	✖️	✔	✖️
LLaMA-Fabrik	✖️	✖️	✖️	✖️	✔	✔(QLoRA)

Die Hauptvorteile von OpenRLHF sindGute SkalierbarkeitUndEffiziente Leistung, das ein effizientes Training des gesamten Prozesses und der Parameter des 70B-Modells unterstützen kann und auch zukünftige Erweiterungen in größerem Maßstab bewältigen kann. Frameworks wie LLaMA-Factory/trl/trlx haben jedoch ähnliche Probleme. Unterstützt kein 70B-RLHF-Training mit allen ParameternEinige Frameworks konzentrieren sich auf die Feinabstimmung von Lora-Modellen der Ebene 13b, im Allgemeinen auf SamplingDie Lösung der Einbeziehung von Schauspielerkritikern(Dies ist eine Notlösung für RLHF im kleinen Maßstab, um Videospeicher zu sparen, aber es entspricht nicht der Standardimplementierung von RLHF, und die Skalierbarkeit ist sehr schlecht, und es wird immer eine Zeit geben, in der es nicht abgelegt werden kann.) Natürlich hat OpenRLHF auch einige Nachteile, wie unvollständige Dokumentation und Benchmarks.Die Benutzerfreundlichkeit muss verbessert werdenIm Folgenden vergleichen wir OpenRLHF mit anderen gängigen RLHF-Frameworks (bitte weisen Sie uns gerne auf etwaige Fehler oder Auslassungen hin). Einen detaillierteren und umfassenderen Vergleich finden Sie später in unserem offiziellen technischen Bericht.

LLaMA-Factory: Seine Vorteile liegen in der effizienten Feinabstimmung und der Benutzerfreundlichkeit (es lohnt sich, es zu lernen, und es verfügt sogar über eine Web-Benutzeroberfläche). Es verwendet zusammengeführte Schauspieler-Kritiker, kann kein 70B-PPO-Training mit vollen Parametern unterstützen und die Modellskala lässt sich nicht einfach erweitern.
Colossal-Chat: verwendet einstufiges RL, während unser Framework schrittweises RL verwendet. Weitere Informationen finden Sie unter OpenRLHF vs. Colossal-Chat.
trl/trlx: Der Vorteil liegt in der hohen Kompatibilität mit dem Hugging Face-Ökosystem, kann aber zu stark gekapselt und schwer zu modifizieren sein. Ebenso wird derzeit kein 70B-PPO-Training mit allen Parametern unterstützt. Außerdem wird die Kombination von Schauspieler und Kritiker verwendet, um Videospeicher zu sparen. Dies steht jedoch im Widerspruch zur Standardimplementierung.
NeMo-Aligner: Die auf Megatron basierende Generation ist derzeit ineffizient, was sich auf die allgemeine Trainingseffizienz auswirkt. Sie ist nicht sehr kompatibel mit dem Hugging Face-Ökosystem, und das Modell muss möglicherweise speziell angepasst werden.

Leistungsdaten:

Laut bestehenden Tests ist die Trainingseffizienz unseres OpenRLHF-Frameworks auf dem 13B-Modell etwa viermal so hoch wie die von DeepSpeedChat (aufgrund von Personalbeschränkungen kann es zu Verzögerungen beim Testen kommen. Sie können uns die Leistungsdaten anderer Frameworks zur Korrektur melden).

	7B llama2 RLHF	13B llama2 RLHF (50.000 Proben)
OpenRLHF	-	17 Stunden mit 8 A100
DeepSpeedChat	-	48 Stunden mit 16 A100

Trainingsdurchsatz:

Standardkonfiguration:
4 A100 80G für Actor, 2 A100 80G für Critic, 1 A100 80G für RM und 1 A100 80G für InitPolicy
ZeRO2 mit Adam Offload
Maximale Sequenzlänge: 2048

Leistungsdurchsatz (Samples/s in der Standardkonfiguration, die später in Tokens/s geändert wird):
7B llama2: 0,105 Samples/GPU/Sek., Mikrobatchgröße = 16/8 (Rollout/Train), Generationslänge = 100–300
13B llama2: 0,04 Samples/GPU/Sek. Mikrobatchgröße = 8/4 (Rollout/Train), Generationslänge = 200–400
34B Codellama: 0,007 Samples/GPU/Sek. Mikrobatchgröße = 2/1 (Rollout/Train), Generationslänge = 300–800

Leistungsdaten gängiger Modelle (aus Personalgründen ist derzeit keine Zeit für einen erneuten Test. Die hier angegebenen Testdaten beziehen sich auf die Testdaten zum Zeitpunkt der Unterstützung des Modells. Die aktuelle Version von PPO sollte deutlich schneller sein. Weitere Modelle werden hinzugefügt und die Leistungsdaten werden später im offiziellen technischen Bericht aktualisiert):

Modell	SFT	RM	PPO	Hinweise
Baichuan2-7B	1 Stunde	4 Stunden	71 Stunden
Qwen-7B	-	-	-

So verwenden Sie OpenRLHF

Offizielle Dokumentation:

Die offiziellen Dokumente, einschließlich dieses Artikels, werden auf Github gepflegt. Die Verbesserung der Qualität der Dokumente zur Verbesserung der Benutzerfreundlichkeit ist auch eine der wichtigsten Richtungen unserer weiteren Arbeit (aus Personalgründen sind die Dokumente derzeit noch im Rohzustand, und jeder ist herzlich eingeladen, sich zu beteiligen und Beiträge zu leisten):

Projekthomepage
Offizielle Dokumentation

OpenRLHF-Installation

Wir unterstützennvidia-docker (empfohlen, um potenzielle Umgebungsprobleme zu vermeiden)Oder Installation einer Conda-Umgebung (Sie können später eine konfigurierte Conda-Umgebung oder ein Image bereitstellen):

Klonen Sie zunächst das Repository:

Klonen Sie das Repository: git clone https://github.com/openllmai/OpenRLHF.git

Installieren Sie dann die NV-Docker- oder Conda-Umgebung:

# installiere nv-docker, CD-Beispiele/Skripte # installiere nvidia-docker (optional) ./nvidia_docker_install.sh # starte nvidia-Container ./docker_run.sh # wir brauchen conda conda create -n openrlhf python=3.10 # also brauchen wir einige Pakete manuell: beim Installieren von Torch Install müssen Sie möglicherweise die entsprechende CUDA-Version anpassen. pip installiere Packaging Ninja pip3 installiere Torch # überprüfe Ninja Ninja --version echo $? # Ausgabe: 0 # installiere Flash-Attn: kann einige Zeit dauern. # Bei Netzwerkfehlern: Sie können die angegebene Version von https://github.com/Dao-AILab/flash-attention/releases herunterladen. pip install flash-attn==2.4.2 ./build_openrlhf.sh # viel Spaß! conda aktiviere openrlhf

OpenRLHF-Schulung

Trainingsskript:

Wechseln Sie nach der Konfiguration der Umgebung in das Verzeichnis /openrlhf/examples/scripts, passen Sie das Trainingsskript Ihren Anforderungen an und starten Sie das Training mit einem Klick. Es unterstützt Einzel- und Mehrmaschinentraining.Unterstützt das umfassende und vollständige Training von 7B-70B+-ModellenIm Folgenden sind einige wichtige Parameter aufgeführt, die Benutzer je nach Situation ändern können, um ihr eigenes Modelltraining zu unterstützen:

-pretrain: vortrainierte Modelladresse im Hugface-Format
-dataset: Datensatzadresse, Hugface-Format
-dataset_probs: Stichprobenwahrscheinlichkeit mehrerer gemischter Datensätze, zum Beispiel: 0,5, 0,4, 0,1
-save_path: Modell-Speicheradresse, Hugface-Format
-max_epochs: Anzahl der Trainingsepochen
-micro_train_batch_size: einzelne GPU-Batchgröße
-train_batch_size: globale Batchgröße
-learning_rate: Lernrate

Eigenständiges Trainingsskript:

cd Beispiele/Skripte # NVIDIA-Docker installieren (optional) ./nvidia_docker_install.sh # NVIDIA-Container starten ./docker_run.sh # CD im Container cd /openrlhf/examples/scripts # OpenRLHF erstellen (d. h. Pip-Installation) ./build_openrlhf.sh # Huggingface-Login ~/.local/bin/huggingface-cli-Login # Vortraining fortsetzen ./train_continue_pretrain_llama.sh # SFT-Modell trainieren ./train_sft_llama.sh # RM-Modell trainieren ./train_rm_llama.sh # PPO-Modell trainieren ./train_ppo_llama.sh # DPO-Modell trainieren ./train_dpo_llama.sh # KTO-Modell trainieren ./train_kto_llama.sh # Trainieren eines Ablehnungsstichprobenmodells ./train_rejection_sampling_llama.sh # Trainieren eines bedingten SFT-Modells ./train_conditional_llama.sh

Trainingsskript für mehrere Maschinen,16-Karten-A100 70B-Modell, RLHF-Training mit allen Parametern:

cd Beispiele/Skripte # NVIDIA-Container starten ./docker_run.sh # CD im Container cd /openrlhf/examples/scripts # OpenRLHF erstellen (d. h. pip installieren) ./build_openrlhf.sh # wegen der Kompatibilität des NVIDIA PyTorch-Image pip deinstallieren xgboost transformer_engine -y # huggingface login ~/.local/bin/huggingface-cli login # Masterknoten von Ray im Container starten ray start --head --node-ip-address 0.0.0.0 --num-gpus 8 # wenn Sie Ray auf mehreren Knoten starten möchten, verwenden Sie ray start --address {MASTER-NODE-ADDRESS}:6379 --num-gpus 8 # Ray PPO-Modell trainieren, erfordert 8 GPUs in der Standardkonfiguration ./train_ppo_llama_ray.sh # für 70B-Modelle und vLLM-basiertes RLHF (wichtig!) pip install vllm==0.3.2 # aufgrund der Kompatibilität von vLLM pip uninstall flash_attn -y ./train_ppo_llama_ray_70b.sh

Argumentation

Zur Argumentation und Bewertung empfehlen wir die Wiederverwendung von Open-Source-Tools oder branchenüblichem Code. Sie können auf die folgenden Skripte zurückgreifen:

Zukünftige Arbeit

Die zukünftige Entwicklung von OpenRLHF konzentriert sich auf Benutzerfreundlichkeit und Praktikabilität (Dokumentation, Tutorials, praktische Erfahrung usw.), Spitzentechnologie (neue Algorithmen, Modellpipelines usw.) und Stabilität. Konkret ergeben sich folgende potenzielle Aufgaben, und wir hoffen, dass sich jeder beteiligen kann:

Dokumentation: Chinesische und englische Versionen
- Tutorial: Bietet guteLernprogramm
- Umgebung: Stellen Sie ein konfiguriertes Image oder eine Conda-Umgebung bereit;

Leistungstests, Benchmark;
- Testen der Grundfunktionen
- Vergleich mit anderen Frameworks
- Unterstützen Sie Modelltests
- Testen des Ausrichtungsalgorithmus

Weitere Leistungsoptimierung;
Stabilitätsverbesserung: regelmäßige Codeüberprüfung;
Neue Funktionen und neue Algorithmen;
Unterstützung neuer Modelle: Neue Modelle von Google usw.
Das Evaluierungsmodul bietet umfassendere Evaluierungsfunktionen;

Über die Organisation

OpenLLMAI: Offene KI für alle.

Wir sind zwar weit von OpenAI entfernt, aber wir sind Open sehr nahe. Daher haben wir nur zwei Anforderungen an unsere Mitglieder: Wir hoffen, dass jeder offen und selbstbewusst genug ist. Unsere Einstellung lautet: „Ein Punkt Wärme, ein Punkt Licht“. Wir sind bereit, den Weg der KI mit Ihnen zu gehen. Ein Wissenschaftler muss aufgeschlossen und entschlossen sein, und der Weg ist lang und beschwerlich!

Wir sind alle aus Liebe zum LLM hier und möchten zwei Dinge erreichen: 1. LLM-Technologie austauschen (Technologieaustausch, Wissensverbreitung); 2. LLM-Tools entwickeln (Trainingsrahmen, Modelle, Datentechnik usw.). Interessierte Studierende sind herzlich willkommen! Eine ausführliche Einführung in die Organisation finden Sie im alten Zhihu-Artikel „OpenLLMAI Organization Introduction“.

Entwickler

Im Laufe der Zeit hat das OpenRLHF-Projekt über 20 Mitwirkende angezogen, über 130 Commits beigetragen und über 800 Sterne erhalten. Ich möchte allen Mitwirkenden, insbesondere hijkzzz, wuxibin und Xianyu, für ihre herausragenden Beiträge zur Entwicklung des Projekts danken. hijkzzz und Xianyu sind die Initiatoren des Projekts. Als Projektadministrator hat hijkzzz die erste Codeversion für das Projekt eingereicht und lange Zeit viel Energie in die Wartung gesteckt, wodurch er einen unersetzlichen Beitrag zur Entwicklung des Projekts geleistet hat. Als Kernentwickler des Projekts ist wuxibin hauptsächlich für die umfassende Erweiterung des auf Ray basierenden Frameworks verantwortlich und hat lange Zeit viel Energie in die tägliche Wartung gesteckt. Als Projektadministrator ist Xianyu für die Entwicklung des NLP-Teils und einige Projektplanungsarbeiten verantwortlich. Darüber hinaus haben auch pikaqqqqqq, li-plus, wwxFromTju, jovany-wang, xffxff, dabney777, suc16, Dylancer1998 und andere Studierende wichtige Beiträge zur Entwicklung des Projekts geleistet (eine Auflistung ist hier nicht möglich, alle nachfolgenden Entwickler werden sie in den offiziellen technischen Berichten/Dokumenten erläutern; viele Studierende und Lehrende haben zwar nicht direkt mitgewirkt, aber wertvolle Vorschläge eingebracht. Vielen Dank). Wir freuen uns auch über immer mehr gleichgesinnte Freunde und hoffen, dass OpenLLMAI gemeinsam mit allen wächst!

Interessierte Studierende können sich direkt an der Entwicklung auf Git beteiligen, sich an die jeweiligen Verantwortlichen wenden oder die offizielle E-Mail-Adresse nutzen.

RL: hijkzzz
Ray: Wuxibin
NLP: Xianyu
Offizielle E-Mail: [email protected]

Sponsoren Sie uns

OpenLLMAI ist derzeit eine reine Open-Source-Organisation. Ob OpenRLHF/OpenLLMWiki und andere Projekte oder OpenLLM Talk und technische Austauschgruppen – sie alle sind vollständig Open Source. Ohne finanzielle Unterstützung ist OpenLLMAI jedoch langfristig zum Scheitern verurteilt. Es ist nicht leicht, mit Liebe dorthin zu gelangen, wo wir heute sind. Vielen Dank für Ihre Unterstützung. Und schließlich: Bitte unterstützen Sie mich! Sie sind herzlich eingeladen, mich mit Geld (Rechenleistung!!!) und mit Menschen (Beteiligung an der Entwicklung oder andere Beiträge) zu unterstützen! Für Sponsoring oder Kooperationen wenden Sie sich bitte an [email protected].

Verweise

https://github.com/OpenLLMAI/OpenRLHF

https://github.com/NVIDIA/Megatron-LM

https://chat.openai.com/

InstructGPT

LLaMA2

https://github.com/facebookresearch/llama

Transformers zum Umarmen von Gesichtern

DeepSpeed

https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat

Strahl

https://github.com/hpcaitech/ColossalAI/tree/main/applications/Chat

https://github.com/CarperAI/trlx

https://github.com/NVIDIA/NeMo-Aligner

https://github.com/hiyouga/LLaMA-Factory

https://github.com/OpenLLMAI/OpenLLMWiki

【OpenLLMAI】Glauben Sie an die Kraft von Open Source: Wir haben unsere eigene Organisation! Der Weg ist lang und beschwerlich, aber wir werden unser Ziel erreichen, wenn wir weitermachen! - Artikel von OpenLLMAI - Zhihuhttps://zhuanlan.zhihu.com/p/647882819

Wie kann man Instruct GPT / RLHF korrekt reproduzieren? - Artikel von Snail in the Garden Parkour - Zhihu https://zhuanlan.zhihu.com/p/622134699

Beginnen Sie die Trainingsreise: Erstellen Sie ein Open-Source-RLHF-Trainingsframework in vollem Umfang für über 70 Milliarden Modelle basierend auf Ray und vLLM – Artikel von Snail in the Garden Parkour – Zhihuhttps://zhuanlan.zhihu.com/p/678828949

【OpenLLM 006】LoRA: Low-Rank-Adaption großer Modelle – Was ist das aktuell beliebte LoRA? Warum werden sowohl stabile Diffusion als auch Open-Source-ChatGPT-Reproduktion verwendet? – OpenLLMAI-Artikel – Zhihu

https://zhuanlan.zhihu.com/p/620327907

https://arxiv.org/abs/2005.12729

https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/

https://github.com/baichuan-inc/Baichuan2

https://github.com/QwenLM/Qwen

https://mistral.ai/news/mixtral-of-experts/

https://github.com/OpenLLMAI/OpenRLHF/issues/221

1/5 (2 Stimmen)