Glossar
Manchmal kann die Welt der Künstlichen Intelligenz wie ein undurchdringlicher Dschungel aus Fachbegriffen wirken.
Doch lassen Sie sich davon nicht abschrecken! Dieses Glossar ist Ihr verlässlicher Begleiter, um sich in diesem spannenden Gebiet zurechtzufinden. Wir helfen Ihnen, die wichtigsten Begriffe zu verstehen, damit Sie sich in der Welt der KI schnell sicher fühlen und sich in Gesprächen selbstbewusst einbringen können.
In unserem KI-Lexikon finden Sie präzise und einfache Erklärungen, die alles Wichtige auf den Punkt bringen – von A wie AlphaFold bis Z wie Zapier.
KI-System von DeepMind, das die 3D-Struktur von Proteinen aus deren genetischer Sequenz mit hoher Genauigkeit vorhersagt. AlphaFold löste 2020 ein jahrzehntealtes wissenschaftliches Problem (Protein Folding) und revolutioniert seitdem Bereiche der Biologie und Medizin, da es Forschern hilft, die Form und Funktion von Proteinen schneller zu verstehen.
KI-Programm von Google DeepMind, das 2016 als erste KI den weltbesten menschlichen Spieler im Brettspiel Go besiegte. AlphaGo nutzte Deep Learning und Bestärkendes Lernen zusammen mit klassischer Spielbaumsuche, um das enorm komplexe Go-Spiel zu meistern – ein Meilenstein der KI-Forschung.
Ein experimentelles Open-Source-Projekt, das GPT-4 in einen “autonomen KI-Agenten” verwandelt. AutoGPT kann selbständig Unteraufgaben definieren und ausführen, um ein gegebenes Ziel zu erreichen. Es verkörpert die Idee einer KI, die Schritte plant, Tools verwendet und aus ihren Aktionen lernt – alles nahezu ohne menschliche Eingriffe.
Abkürzung für “Bidirectional Encoder Representations from Transformers”. Ein Sprachmodell von Google (2018), das Kontext in beide Richtungen berücksichtigt. BERT versteht den Zusammenhang von Wörtern in einem Satz sehr gut und wurde für viele NLP-Aufgaben (Suche, Textanalyse) zum Standard.
Lernmethode, in der ein Agent durch Belohnung und Bestrafung optimale Handlungsstrategien erlernt – bekannt durch Anwendungen wie spielende KI (z.B. AlphaGo).
Systematische Verzerrung in Daten oder Modellen, die zu ungerechten oder falschen Ergebnissen führen kann. Beispiel: Wenn ein KI-System aufgrund schiefer Trainingsdaten Vorurteile übernimmt.
Ein dialogfähiges Programm, das per Text oder Sprache mit Menschen kommuniziert. Moderne Chatbots nutzen KI, um natürliche Unterhaltungen zu ermöglichen (z.B. Kundenservice-Chats).
Ein KI-Chatbot von OpenAI, basierend auf GPT-Modellen (GPT-3.5/GPT-4), der in natürlicher Sprache Dialog führt. ChatGPT kann Fragen beantworten, bei Aufgaben helfen und Texte aller Art verfassen, als würde man sich mit einem Menschen unterhalten.
Bereich der KI, der Computersystemen ermöglicht, Bilder und Videos zu “sehen” und zu analysieren – etwa Objekte erkennen oder Fotos interpretieren.
Ein KI-Sprachmodell von Anthropic (erstmals 2023 veröffentlicht), das ähnlich wie ChatGPT lange und komplexe Texte verarbeiten und generieren kann . Claude wurde mit Fokus auf sichere und ethische KI entwickelt – es soll hilfreiche Antworten geben und problematische Inhalte vermeiden.
Ein KI-Bildgenerierungsmodell von OpenAI, das aus Textbeschreibungen Bilder erstellt. DALL·E (und die neuere Version DALL·E 3) können z.B. “ein grünes Haus im Stil van Goghs” zeichnen. Sie gehören zur Familie der Diffusionsmodelle, die gelernt haben, aus Rauschen schrittweise realistische Bilder zu formen.
Ein Spezialbereich des ML, der künstliche neuronale Netze mit vielen Schichten nutzt, um komplexe Muster in Daten zu erkennen digitalhandwerk.rocks.
Künstlich erstellte Medien (Videos, Bilder oder Audio), bei denen KI genutzt wird, um echte Personen täuschend echt nachzuahmen. Bekannt sind z.B. Deepfake-Videos, in denen Gesichter in Videos ausgetauscht werden. Diese Technologie zeigt die Fähigkeiten und auch Risiken generativer KI im Bereich Video/Audio.
Ein KI-Übersetzungsdienst aus Deutschland, bekannt für seine außergewöhnlich guten Übersetzungen. DeepL nutzt neuronale Netze, um Texte von einer Sprache in eine andere zu übertragen, oft mit erstaunlicher Natürlichkeit. Es wird weltweit von Übersetzern und Nutzern geschätzt, um schnell Texte in hoher Qualität zu übersetzen (eine Alternative zu Google Translate).
Chinesisches KI-Startup und Modellreihe, die 2025 viel Aufmerksamkeit erregte. DeepSeek’s erste veröffentlichte Modelle (R1, R2) zeichnen sich durch starke Leistungsfähigkeit bei geringeren Ressourcen aus – ein R1-Modell übertraf einige westliche Konkurrenten und wurde als kostengünstiger Durchbruch im Bereich KI-Reasoning gefeiert. DeepSeek gilt als neuer wichtiger Spieler im globalen KI-Rennen.
Ein führender KI-Sprachgenerator. ElevenLabs wandelt Text in lebensechte künstliche Stimmen um und kann sogar die Stimme eines Menschen klonen. Mit diesem Tool lassen sich Hörbücher, Dialoge oder andere Sprachausgaben in hoher Qualität generieren – in vielen Sprachen und Stimmungen, fast wie von einem Profi eingesprochen.
Konzepte und Methoden, um KI-Entscheidungen nachvollziehbar und transparent zu machen. Ziel: Menschen sollen verstehen, warum ein KI-Modell eine bestimmte Ausgabe liefert.
Ein KI-Ansatz mit zwei Netzen – Generator und Diskriminator, die gegeneinander trainieren. GANs erzeugen z.B. realistische Bilder, indem der Generator versucht, den Diskriminator zu täuschen. GAN-Bilder waren Basis früher Deepfakes und KI-Kunst.
Sammelbegriff für KI-Systeme, die neue Inhalte erzeugen (Texte, Bilder, Audio etc.), anstatt nur bestehende Daten zu analysieren. Beispiele sind Text-Bots oder Bildgeneratoren.
Leistungsfähigstes KI-Modell von Google (offiziell vorgestellt Ende 2023). Gemini bezeichnet eine Familie multimodaler Modelle in verschiedenen Größen (Nano, Pro, Ultra). Es ist Googles KI-Assistent der neuesten Generation – multimodal (kann Text, Bilder und mehr verarbeiten) – und soll künftig in viele Google-Produkte integriert werden.
Googles KI-Chatbot und Antwort auf ChatGPT. Bard (inzwischen in Google Gemini integriert) ist ein multimodaler Chatbot, der ebenfalls natürliche Gespräche führt und Informationen liefert. Er wurde ursprünglich als eigenständiger Chatbot vorgestellt und später unter dem Namen Gemini weiterentwickelt.
Sehr großes KI-Sprachmodell mit Milliarden von Parametern, trainiert auf enormen Textmengen, das menschenähnliche Texte verstehen und generieren kann (z.B. GPT-4).
Eine KI-Modellfamilie von OpenAI, die auf der Transformer-Architektur basiert und menschenähnliche Texte erzeugt. GPT bedeutet „generativer vortrainierter Transformer“ – das Modell wurde mit riesigen Textmengen vortrainiert und kann daraufhin verständlich antworten.
Die dritte Generation der GPT-Reihe (2020 veröffentlicht). Ein großes Sprachmodell mit 175 Milliarden Parametern, das sehr flüssige Texte in Englisch und anderen Sprachen generiert. GPT-3 machte Schlagzeilen, weil es erstmals nahezu menschlich klingende Antworten in vielfältigen Aufgaben lieferte.
Nachfolger von GPT-3 (2023 erschienen) mit noch größerem Modell und Fähigkeit, Texte auf höherem Niveau zu verstehen und zu erzeugen. GPT-4 kann auch Bilder interpretieren (multimodal) und gilt aktuell als eines der leistungsfähigsten Sprachmodelle.
Der in Entwicklung vermutete nächste GPT-Meilenstein von OpenAI. Offiziell noch nicht veröffentlicht (Stand 2025), wird aber erwartet, die Fähigkeiten von GPT-4 nochmals deutlich zu übertreffen – möglicherweise ein Schritt näher Richtung allgemeinerer KI.
Steht für “If This Then That” – ein einfacher Automatisierungsdienst. IFTTT ermöglicht kleine Automationen nach dem Prinzip “Wenn dies, dann das”: z.B. “Wenn ich ein Foto auf Instagram poste, dann speichere es automatisch in meiner Dropbox.” Es verbindet unzählige Web-Services und Smart-Home-Geräte, um alltägliche digitale Aufgaben zu vereinfachen.
Allgemeine Bezeichnung für KI-Assistenzfunktionen, die Nutzern bei Aufgaben zur Hand gehen. Beispiele: GitHub Copilot (schlägt Programmiercode vor) oder Microsoft 365 Copilot (hilft bei Office-Dokumenten). Ein KI-Copilot arbeitet mit dem Benutzer zusammen – wie ein smarter Assistent, der Routinearbeit abnimmt oder kreative Vorschläge macht.
Beschäftigt sich mit fairer, transparenter und verantwortungsvoller KI. Es geht darum, Richtlinien zu entwickeln, damit KI-Systeme menschliche Werte achten (Datenschutz, Nicht-Diskriminierung etc.).
Phänomen, bei dem ein KI-Modell faktenfreie oder erfundene Inhalte produziert. Gerade Sprachmodelle “halluzinieren” bisweilen und geben überzeugend klingende, aber falsche Antworten.
Hypothetische “starke KI”, die generell so flexibel und lernfähig wie ein Mensch wäre – aktuell noch Vision, im Gegensatz zur heutigen spezialisierten (“schwachen”) KI.
Überbegriff für Systeme, die menschenähnliche Intelligenz zeigen, also intelligentes Verhalten durch Maschinen (z.B. Lernen, Problemlösen).
Open-Source-Sprachmodell von Meta (Facebook), veröffentlicht 2023. Llama 2 ist ein frei verfügbares großes Sprachmodell, das menschenähnlichen Text erzeugen, übersetzen und Fragen beantworten kann. Es darf von Unternehmen und Entwicklern genutzt und sogar angepasst werden, was es zu einer wichtigen offenen Alternative macht.
Eine No-Code-Plattform für Workflow-Automatisierung, auf der man visuell Apps und Dienste verknüpfen kann. Make erlaubt es, per Drag&Drop komplexe Abläufe (“Szenarien”) zu erstellen und in Minuten zu automatisieren – ohne eine einzige Codezeile schreiben zu müssen.
Teilgebiet der KI, bei dem Computer aus Daten lernen, ohne explizit programmiert zu sein – Modelle verbessern sich durch Erfahrung.
Ein populärer KI-Bildgenerator, der beeindruckende, teils fotorealistische Grafiken auf Basis von Texteingaben erzeugt. Midjourney arbeitet ähnlich wie DALL·E, ist aber ein eigenständiger Dienst mit speziellem Stil und wird oft von Künstlern und Designern genutzt, um KI-Kunst zu erstellen.
KI-Systeme, die mehrere Datenmodalitäten gleichzeitig verarbeiten können, z.B. Text und Bild. Eine multimodale KI könnte eine Frage zum Inhalt eines Fotos verstehen und beantworten.
Ein Open-Source-Workflow-Automatisierungstool mit einer knotenbasierten Oberfläche. Mit n8n können Nutzer eigene Automatisierungen erstellen, selbst hosten und bei Bedarf um eigenen Code erweitern, wobei die Bedienung visuell erfolgt. Es bietet eine kostengünstige Alternative zu kommerziellen Diensten, inklusive Integration von KI-Funktionen.
Codenname eines neuen Bild-KI-Modells von Google. Nano Banana (Gemini 2.5 Flash Image) ist ein KI-Bildbearbeitungsmodell, das es erlaubt, Bilder per Texteingabe präzise zu verändern und zu erstellen. Es gilt als eines der besten aktuellen Modelle für gezielte, hochqualitative Bildgenerierung und -bearbeitung.
Ein Rechenmodell, inspiriert vom Gehirn, bestehend aus vielen verbundenen “Neuronen” (Knoten), die Daten verarbeiten – Grundlage moderner KI-Systeme.
Microsofts cloudbasierte Software zur Automatisierung von Geschäftsprozessen. Mit Power Automate (früher Microsoft Flow) lassen sich wiederkehrende Aufgaben als Workflows (“Flows”) per Drag-and-Drop erstellen und über viele Apps hinweg automatisieren – auch mit Verknüpfung zu Office 365 und über 100 externen Diensten.
Eingabeaufforderung an ein KI-Modell, meist in Textform. Der Prompt beschreibt, was die KI tun oder beantworten soll (z.B. eine Frage oder Anweisung).
Die Kunst, Eingabetexte (Prompts) gezielt zu entwerfen und zu optimieren, um von generativen KI-Modellen die gewünschten Ergebnisse zu erhalten.
Automatisierung von repetitiven Software-Aufgaben durch sogenannte Softwareroboter (Bots). RPA folgt festen Regeln (z.B. Formularübernahmen) und erhöht Effizienz in Geschäftsprozessen – oft ohne eigentliche “KI”, aber zunehmend mit KI-Unterstützung kombiniert.
KI-gestützter digitaler Assistent, der Sprachbefehle versteht und reagiert (z.B. Siri, Alexa). Er kann Fragen beantworten oder Aktionen ausführen, als wäre es ein persönlicher Helfer.
Open-Source-Modell zur Bildgenerierung, das 2022 veröffentlicht wurde. Stable Diffusion kann auf normaler Hardware laufen und ermöglicht es jedem, aus Text beliebige Bilder zu generieren. Es beruht auf einem Diffusionsmodell und wurde von Stability AI in Zusammenarbeit mit der Forschung entwickelt.
Eine KI-Video-Plattform, mit der man aus Texten realistisch wirkende Video-Präsentationen mit virtuellen Avataren erstellen kann. Synthesia bietet digital erzeugte “Moderatoren”, die einen eingegebenen Text sprechen. Firmen nutzen es z.B. für Trainingsvideos oder Produktvorstellungen – die KI übernimmt dabei Mimik, Stimme und Gestik des Avatars, ohne dass eine echte Person vor die Kamera muss.
Neuronale Netzwerk-Architektur für Sequenzen (entwickelt 2017), die mithilfe von “Self-Attention” besonders effektiv Sprache verarbeiten kann – bildet das Grundgerüst vieler heutiger LLMs wie GPT.
Ein 1950 von Alan Turing vorgeschlagener Test, der prüfen soll, ob eine Maschine in einem Gespräch von einem Menschen unterscheidbar ist. Wenn ein Mensch keinen Unterschied merkt, hätte die KI den Turing-Test bestanden.
ML-Ansatz, bei dem das System ohne vorausgegebene Labels selbst Muster in unstrukturierten Daten finden muss (z.B. Clusterbildung von Ähnlichem).
ML-Methode, bei der ein Modell mit gekennzeichneten Beispieldaten (Eingaben + gewünschte Ausgaben) trainiert wird – das System lernt, die richtigen Ergebnisse vorherzusagen.
KI-Feld, das Maschinen befähigt, menschliche Sprache zu verstehen, zu interpretieren und zu erzeugen (z.B. in Übersetzungen oder Chatbots).
Bezeichnung für Googles neues KI-Videomodul (auch Veo 3 genannt), das in Gemini eingebunden ist. VO3 kann aus einer Textbeschreibung oder einem Bild kurze Videos mit Ton generieren, d.h. bewegte Szenen samt passendem Audio erschaffen. Diese Technologie ermöglicht es Nutzern, per KI innerhalb von Sekunden kleine Videoclips zu produzieren – ein weiterer Schritt von statischen Bildern hin zu generierten Videos.
KI-basierte Voice-Lösung für automatisierte Telefonanrufe. Mit Wapi lassen sich Anrufe (z.B. im Vertrieb oder Kundenservice) von einer KI führen – etwa um Termine zu vereinbaren oder Umfragen durchzuführen. Die Stimme klingt natürlich und kann Dialoge anhand vorgegebener Skripte selbständig führen, was Firmen bei wiederkehrenden Anrufen entlastet.
KI-System von IBM, bekannt geworden durch seinen Sieg bei der Quizshow Jeopardy! im Jahr 2011. Watson wurde entwickelt, um natürlichsprachige Fragen zu beantworten, indem es große Wissensdatenbanken durchsucht. Heute bezeichnet IBM Watson eine Reihe von KI-Lösungen für Unternehmen, etwa in der Datenanalyse und im Kundenservice.
Spracherkennungsmodell von OpenAI, das gesprochene Sprache sehr präzise in Text transkribiert. Whisper wurde 2022 als Open-Source-Modell veröffentlicht und kann Audio in vielen Sprachen erkennen – z.B. Diktate mitschreiben oder Untertitel aus Videos erzeugen. Es zeigt den Fortschritt von KI im Verstehen menschlicher Sprache (Speech-to-Text).
Ein Online-Automatisierungsdienst, mit dem sich ohne Programmierung verschiedene Apps verbinden lassen. Zapier führt nach dem Wenn-Dann-Prinzip (“Wenn in App A etwas passiert, dann tue X in App B”) Aufgaben automatisch aus und hilft so, Routinearbeiten zwischen Webanwendungen zu erledigen.