Dolly 2.0: Das offene LLM von Databricks - heyData (2024)

Databricks präsentiert Dolly 2.0 - Ein Open Source Sprachmodell für Unternehmen und Startups

Datenschutz und Compliance sind heute kritische Themen für Unternehmen, besonders für Start-ups und kleine bis mittelständische Unternehmen. Als Data-Privacy-as-a-Service Start-up bietet heyData eine All-in-One-Plattformlösung, die Unternehmen dabei unterstützt, ihre Daten-Privacy- und Compliance-Anforderungen effizient zu managen. In diesem Kontext ist Dolly 2.0, das neueste Sprachmodell von Databricks, von großer Bedeutung.

Als Data-Privacy-as-a-Service Start-up suchen wir ständig nach innovativen Lösungen, um Start-ups, Unternehmen und Gründern dabei zu helfen, ihre Daten-Privacy- und Compliance-Anforderungen zu erfüllen. Heute sind wir voller Begeisterung, eine bahnbrechende Innovation vorzustellen: Dolly 2.0, das weltweit erste offene und anweisungsgeleitete Language Model (LLM), entwickelt von Databricks.

Hintergrund

In der Welt der KI-Modelle hat Databricks mit Dolly 2.0 einen bemerkenswerten Fortschritt gemacht. Dolly 2.0 ist ein ChatGPT-ähnliches Sprachmodell, das für weniger als $30 trainiert wurde. Es basiert auf dem EleutherAI Pythia-Modellfamilie und wurde von Databricks-Mitarbeitern aus der Crowd mit einem menschengenerierten Anweisungsdatensatz lizenziert für Forschung und kommerzielle Nutzung feinabgestimmt. Dieses einzigartige Modell wird jetzt als Open Source bereitgestellt und bietet Unternehmen und Startups eine kostengünstige Möglichkeit, leistungsstarke Sprachmodelle für ihre Gesprächsinteraktionen zu erstellen und anzupassen.

Open Source: Freie Nutzung für Unternehmen und Startups

Dolly 2.0 wird als Open Source bereitgestellt, was bedeutet, dass Organisationen ihre eigenen Sprachmodelle erstellen, anpassen und besitzen können, ohne für kostenpflichtige API-Dienste bezahlen oder Daten mit Dritten teilen zu müssen. Dies ist eine bahnbrechende Entwicklung für Unternehmen und Startups, die nach kostengünstigen Lösungen für ihre Sprachinteraktionen suchen. Mit Dolly 2.0 haben sie die Freiheit, das Modell nach ihren Bedürfnissen anzupassen und zu erweitern, um ihren spezifischen Anforderungen gerecht zu werden.

Einzigartiger Anweisungsdatensatz für die Feinabstimmung

Ein besonderes Merkmal von Dolly 2.0 ist der Anweisungsdatensatz, der von Databricks-Mitarbeitern aus der Crowd erstellt wurde. Der Databricks-Dolly-15k-Datensatz mit 15.000 Prompt-/Antwortpaaren wurde speziell für die Anpassung von großen Sprachmodellen an Anweisungen entwickelt und steht unter einer Creative Commons Attribution-ShareAlike 3.0 Unported-Lizenz zur Verfügung. Dies bedeutet, dass er von jedem genutzt, modifiziert oder erweitert werden kann, einschließlich kommerzieller Anwendungen. Dieser Datensatz ist der erste Open-Source-Anweisungsdatensatz, der von Menschen generiert wurde und es großen Sprachmodellen ermöglicht, die Interaktivität von ChatGPT zu zeigen. Er enthält natürliche, ausdrucksstarke Trainingsaufzeichnungen, die verschiedene Verhaltensweisen wie Brainstorming, Content-Erstellung, Informationsgewinnung und Zusammenfassung repräsentieren.

Motivation

Die Erstellung des neuen Dolly 2.0 Datensatzes wurde von den Anfragen der Benutzer motiviert, die wissen wollten, ob sie Dolly kommerziell nutzen können, um Einschränkungen der kommerziellen Nutzung des ursprünglichen Dolly 1.0-Modells zu umgehen. Databricks hat auf diese Anfragen reagiert und einen neuen Datensatz erstellt, der speziell für kommerzielle Anwendungen geeignet ist. Dies unterstreicht das Engagement von Databricks für die Bedürfnisse seiner Benutzer und ermöglicht Unternehmen den Zugang zu leistungsfähigen Sprachmodellen für ihre kommerziellen Anwendungen. Die Motivation für die Erstellung dieses neuen Datensatzes lag in den Anfragen von Benutzern, die wissen wollten, ob sie Dolly kommerziell nutzen können, um die Einschränkungen der kommerziellen Nutzung des ursprünglichen Dolly 1.0-Modells zu umgehen. Dolly 1.0 wurde mit einem Datensatz des Stanford Alpaca-Teams unter Verwendung der OpenAI-API trainiert, was jedoch aufgrund der Nutzungsbedingungen Einschränkungen für die kommerzielle Nutzung mit sich brachte. Databricks hat daraufhin beschlossen, einen neuen Datensatz zu erstellen, der nicht "kontaminiert" ist und für kommerzielle Zwecke verwendet werden kann. Hierfür wurde sich von der InstructGPT-Forschungsarbeit von OpenAI inspirieren lassen und die Mitarbeiter von Databricks in einem Wettbewerb zur Generierung eines originalen und qualitativ hochwertigen Datensatzes eingebunden, der verschiedene Aufgaben wie offene und geschlossene Q&A, Informationsentnahme und Zusammenfassung aus Wikipedia, Klassifikation und kreatives Schreiben umfasste.

Inspiration von InstructGPT

Die Entwicklung von Dolly 2.0 wurde von dem bahnbrechenden Forschungspapier von OpenAI zu InstructGPT inspiriert. InstructGPT ist ein Sprachmodell, das speziell darauf trainiert ist, Anweisungen zu folgen und komplexe Aufgaben zu erfüllen. Dolly 2.0 basiert auf der Pythia-Modellfamilie von EleutherAI und wurde mit dem Databricks-Dolly-15k-Datensatz trainiert, um ähnliche Fähigkeiten in Bezug auf die Interaktion mit Anweisungen zu entwickeln. Dies ermöglicht es Dolly 2.0, eine Vielzahl von Aufgaben wie Brainstorming, Content-Erstellung, Informationsgewinnung und Zusammenfassung zu bewältigen und eine echte Unterstützung für Benutzer in verschiedenen Anwendungsbereichen zu bieten.

Vorteile für Startups und Unternehmen

Die Veröffentlichung von Dolly 2.0 als Open Source bietet zahlreiche Vorteile für Startups und Unternehmen. Hier sind einige der wichtigsten:

  1. Kosteneffizienz: Da Dolly 2.0 als Open Source verfügbar ist, können Startups und Unternehmen die Software kostenlos nutzen, ohne teure Lizenzgebühren oder Abonnements zahlen zu müssen. Dies ermöglicht es ihnen, Ressourcen für andere wichtige Aspekte ihres Geschäftsmodells zu nutzen.
  2. Flexibilität: Als Open Source bietet Dolly 2.0 den Nutzern die Möglichkeit, die Software nach ihren eigenen Bedürfnissen anzupassen und anzupassen. Startups und Unternehmen können die Funktionen und Features von Dolly 2.0 an ihre spezifischen Anforderungen anpassen, um maßgeschneiderte Lösungen zu entwickeln.
  3. Gemeinschaftliches Engagement: Die Open-Source-Gemeinschaft ist bekannt für ihre Zusammenarbeit und das Teilen von Wissen und Ressourcen. Durch die Veröffentlichung von Dolly 2.0 als Open Source können Startups und Unternehmen von der Zusammenarbeit mit der Entwicklergemeinschaft profitieren, um Fehler zu beheben, neue Funktionen zu implementieren und die Software weiter zu verbessern.
  4. Schnellere Innovation: Open Source ermöglicht es Startups und Unternehmen, auf eine bestehende Codebasis aufzubauen und somit schneller innovative Lösungen zu entwickeln. Durch die Nutzung von Dolly 2.0 als Open Source können sie von der Arbeit anderer Entwickler profitieren und ihre eigenen Innovationen auf einer bewährten Plattform aufbauen.
  5. Interoperabilität: Als Open Source kann Dolly 2.0 in verschiedene Technologien und Systeme integriert werden, was Startups und Unternehmen die Möglichkeit gibt, mit anderen Produkten und Dienstleistungen zu interagieren und ihre Funktionalitäten zu erweitern.
  6. Transparenz und Vertrauen: Da der Quellcode von Dolly 2.0 als Open Source verfügbar ist, können Startups und Unternehmen den Code überprüfen und sicherstellen, dass er sicher und vertrauenswürdig ist. Dies kann dazu beitragen, das Vertrauen von Kunden und Benutzern in die Software zu stärken.
  7. Gemeinsame Nutzung von Ressourcen: Durch die Nutzung von Open Source können Startups und Unternehmen Ressourcen teilen und sich mit anderen Entwicklern und Organisationen austauschen. Dies kann zu einer effizienteren Nutzung von Ressourcen führen und Synergien schaffen, um gemeinsam an neuen Lösungen zu arbeiten.
  8. Anpassungsfähigkeit: Die Open-Source-Natur von Dolly 2.0 ermöglicht es Startups und Unternehmen, die Software an neue Technologien, Marktanforderungen oder Geschäftsmodelle anzupassen. Dies ermöglicht ihnen, agil zu reagieren und ihre Lösungen kontinuierlich zu verbessern, um wettbewerbsfähig zu bleiben.

Zusammenfassend bietet Dolly 2.0 von Databricks Unternehmen eine leistungsstarke Lösung zur Entwicklung von Sprachmodellen mit fortschrittlichen Funktionen wie Transfer Learning, kulturellen Anpassungen und Überwachungsfunktionen. Es ermöglicht Unternehmen, hochwertige und anpassungsfähige Sprachmodelle zu erstellen und in ihre bestehenden Workflows und Datenverarbeitungspipelines zu integrieren. Mit Dolly 2.0 können Unternehmen die Vorteile der Sprach-KI-Technologie nutzen, um ihre Anwendungsfälle zu verbessern, die Kommunikation mit ihrer Zielgruppe zu optimieren und ihre Geschäftsprozesse zu optimieren.

Datenschutz und Compliance mit Databricks und Dolly 2.0: Konformität gewährleistet

In Bezug auf Datenschutz und Compliance stellt Databricks sicher, dass die Verwendung von Dolly 2.0 im Einklang mit den geltenden Datenschutzrichtlinien und Vorschriften erfolgt. Unternehmen können ihre eigenen Datenschutzrichtlinien implementieren und sicherstellen, dass die Verarbeitung von Daten mit Dolly 2.0 den relevanten Vorschriften entspricht. Dies ist von entscheidender Bedeutung, da Datenschutz und Compliance zunehmend an Bedeutung gewinnen und Unternehmen dazu verpflichtet sind, die Daten ihrer Kunden und Benutzer angemessen zu schützen.

Insgesamt bietet Dolly 2.0 von Databricks Unternehmen eine leistungsstarke und flexible Lösung für die Entwicklung von Sprachmodellen, die auf ihre individuellen Bedürfnisse zugeschnitten sind. Durch die Kombination von Open Source-Funktionen, einem umfassenden Datensatz und einer skalierbaren Cloud-Plattform ermöglicht Dolly 2.0 Unternehmen, fortschrittliche Sprachmodelle zu nutzen, um ihre Geschäftsprozesse zu optimieren, kundenorientierte Lösungen zu entwickeln und den Datenschutz und die Compliance-Anforderungen zu erfüllen.

Fazit

Insgesamt ist Dolly 2.0 eine bahnbrechende Entwicklung in der Welt der Sprachmodelle und KI-Technologie. Als das erste Open-Source-Sprachmodell, das auf menschengenerierten Anweisungsdatensätzen trainiert wurde und für kommerzielle Nutzung geeignet ist, bietet Dolly 2.0 Startups, Unternehmen und Gründern eine einzigartige Möglichkeit, leistungsstarke Sprachmodelle für Gesprächsinteraktionen zu erstellen und anzupassen, ohne auf kostenpflichtige API-Zugriffe angewiesen zu sein oder sensible Daten mit Dritten teilen zu müssen.

Mit dem Databricks-Dolly-15k-Datensatz, der ebenfalls als Open Source verfügbar ist und über 15.000 qualitativ hochwertige Prompt-/Antwortpaare enthält, die von Databricks-Mitarbeitern erstellt wurden, können Entwickler auf eine Vielzahl von Verhaltensweisen zugreifen und diese nutzen, um ihre Modelle weiter zu verbessern und an ihre spezifischen Anforderungen anzupassen. Die Veröffentlichung dieses Datensatzes war eine Antwort auf die Bedenken und Anfragen von Benutzern hinsichtlich der kommerziellen Nutzung von Dolly und zeigt das Engagement von Databricks für die Förderung von Open Source und die Unterstützung der Entwicklergemeinschaft.

Dolly 2.0 ist auch ein Beispiel für die Fortschritte in der KI-Technologie und die Möglichkeiten, die sich durch die Kombination von menschlicher Kreativität und maschinellem Lernen ergeben. Mit einem hochwertigen Anweisungsdatensatz, der von Databricks-Mitarbeitern erstellt wurde, bietet Dolly 2.0 ein beeindruckendes Maß an Interaktivität und Vielseitigkeit, was es Unternehmen ermöglicht, innovative Anwendungen für Content-Erstellung, Informationsgewinnung, Zusammenfassung und mehr zu entwickeln.

Insgesamt ist Dolly 2.0 ein Meilenstein in der Entwicklung von Sprachmodellen und bietet Unternehmen die Möglichkeit, ihre eigenen Modelle zu erstellen und anzupassen, um auf natürliche Weise mit Benutzern zu interagieren und ihre Geschäftsziele zu erreichen. Mit der Verfügbarkeit von Dolly 2.0 als Open Source stehen den Entwicklern neue Möglichkeiten und Ressourcen zur Verfügung, um innovative Lösungen zu entwickeln und die Grenzen der KI-Technologie weiter zu erweitern.

Dolly 2.0: Das offene LLM von Databricks - heyData (2024)
Top Articles
Latest Posts
Article information

Author: Fredrick Kertzmann

Last Updated:

Views: 6662

Rating: 4.6 / 5 (46 voted)

Reviews: 85% of readers found this page helpful

Author information

Name: Fredrick Kertzmann

Birthday: 2000-04-29

Address: Apt. 203 613 Huels Gateway, Ralphtown, LA 40204

Phone: +2135150832870

Job: Regional Design Producer

Hobby: Nordic skating, Lacemaking, Mountain biking, Rowing, Gardening, Water sports, role-playing games

Introduction: My name is Fredrick Kertzmann, I am a gleaming, encouraging, inexpensive, thankful, tender, quaint, precious person who loves writing and wants to share my knowledge and understanding with you.