Welche KI ist die beste? Welches Abo lohnt sich? Wie mache ich mehr aus meinem Chatbot? Antworten auf gängige Fragen von KI-Einsteigern

Mittlerweile gibt es Hunderte Anbieter von KI-Tools. So finden Sie den passenden Chatbot und nutzen ihn optimal.
Gioia da Silva, Samuel Meier

Illustration Simon Tanner / NZZ
NZZ.ch benötigt JavaScript für wichtige Funktionen. Ihr Browser oder Adblocker verhindert dies momentan.
Bitte passen Sie die Einstellungen an.
Das kommt darauf an, was man mit ihr machen möchte. Wer mit Texten arbeiten will, hat drei ähnlich gute Optionen: Open AI mit Chat-GPT, Anthropic mit Claude und Google mit Gemini. In Qualitätstests schneiden diese drei Anbieter seit mehreren Monaten am besten ab. Mal führt Google die Spitze an, dann wieder Open AI, im Moment ist es Anthropic.
Welches KI-Tool für welche Aufgabe?Wer mit dem Chatbot Bilder generieren möchte, wählt im Moment am besten entweder Gemini oder Chat-GPT. Claude kann zwar Bilddateien analysieren, aber keine Bilder selbst generieren.
Wer Videos generieren möchte, wählt am besten Gemini. Das Modell erstellt Videos inklusive Ton und Lippensynchronisation. Chat-GPT und Claude generieren im Moment keine Videos. Gelegentlich ändern die Anbieter die Funktionen ihrer Modelle. Vor der Kaufentscheidung lohnt sich also ein Blick auf die neuesten Verkaufsversprechen.
Je nach Präferenz gibt es weitere Anbieter: Wer seine Privatsphäre schützen will, kann zum Beispiel auf Lumo ausweichen, den Chatbot des Schweizer Tech-Unternehmens Proton. Die Firma verspricht, dass die Dateneingaben von Nutzern (Prompts) nie für das Training der Modelle verwendet werden, und verschlüsselt die Anfragen. Manche Nutzer sind davon begeistert, andere beschweren sich in Onlineforen über Halluzinationen und Logikfehler.
Wer sich bei den drei Branchenführern an zu vielen Guardrails stört, also an abgewiesenen Fragen, oder am politisch korrekten Tonfall der Modelle, kann Grok von xAI ausprobieren. Der Besitzer Elon Musk preist Grok als besonders freches Modell an. Mehrere Tests ergaben allerdings: Grok scheint mehr zu halluzinieren als die drei Branchenführer, antwortet also häufiger mit fachlich unkorrekten Informationen. Ausserdem lösen die Antworten des Chatbots immer wieder Skandale aus.
Welches KI-Abo lohnt sich?Privatanwender, die das Kontingent von Gratisanfragen aufgebraucht haben, wählen am besten einen der drei Branchenführer und versuchen möglichst viel mit dessen Chatbot zu erledigen.
Das Wichtigste beim Formulieren einer Frage an einen Chatbot ist Präzision. Je genauer die Anfrage, desto brauchbarer die Antwort. Fragen Sie nicht: «Welches ist die beste Kaffeemaschine?», sondern: «Ich suche eine Kaffeemaschine für eine Familie, Budget 600 Franken. Wichtig sind einfache Bedienung, guter Cappuccino und wenig Reinigungsaufwand. Vergleiche drei Typen nach Preis, Bedienung und Wartungsaufwand.»
Hilfreich ist auch, die gewünschte Form der Antwort vorzugeben: Tabelle, Checkliste, kurze Zusammenfassung oder Schritt-für-Schritt-Anleitung.
Wer trotzdem mit der Antwort nicht zufrieden ist, kann den Chatbot zuerst auffordern, Fragen zu stellen, bevor er seine Antwort generiert: «Ich suche eine Kaffeemaschine. Stelle mir fünf Fragen, um herauszufinden, welche Modelle sich für mich eignen.»
Wenn Sie den Chatbot generell zu kritischen Gegenfragen auffordern, nutzen Sie eine seiner Stärken besonders gut – und lagern das Denken nicht zu stark an die Maschine aus.
Bei Sachfragen sollte man sich angewöhnen, Quellen zu verlangen und diese auch zu überprüfen. Immer wieder stimmen die angegebenen Quellen nicht mit der Antwort überein. Belastbare Informationen entnimmt man also am besten nicht der KI-Antwort, sondern einer Originalquelle.
Um die Wahrscheinlichkeit für Fehler zu verkleinern, kann man dem Chatbot sagen, welche Quelle er berücksichtigen soll: «Erkläre mir den Umwandlungssatz in der zweiten Säule anhand von offiziellen Dokumenten des Bundesamtes für Sozialversicherungen.» Das verhindert nicht alle Fehler, macht sie aber leichter sichtbar.
Auch der Ton des Chatbots lässt sich steuern. Wer die oft überfreundliche Art störend findet, kann das in den Einstellungen oder zu Beginn des Chats anpassen. Ein solcher Metaprompt könnte lauten: «Antworte sachlich, neutral und ohne Floskeln. Lobe nicht unnötig. Halte die Antworten kurz, und stelle kritische Gegenfragen, wenn Informationen fehlen.»
Wie vermeide ich den «KI-Look» in Bildern?Neuerdings sehen Einladungen für Geburtstage, kleine Konzerte oder Spielabende oft erstaunlich ähnlich aus. Sie haben diesen typischen KI-Look: weiche Formen, rundliche Schriften, viele kleine dekorative Details. Fotorealistische KI-Bilder erkennt man oft an den glatten Oberflächen, starker Belichtung, makelloser Haut und einem fast öligen Glanz. Das wirkt zwar professionell, aber auch etwas austauschbar.
Wer das vermeiden will, sollte beim Prompten nicht nur das Motiv beschreiben, sondern auch Stil, Material und Gestaltung. Statt: «Erstelle eine Einladung für eine Grillparty» besser: «Erstelle eine Einladung für eine Grillparty: unbeholfen handgezeichnet, schwarzer Feinstift, sparsame Pastell-Aquarellfarbe. Motiv: eine Fackel mit wenigen Strichen. Weisser Hintergrund, viel Leerraum, Schreibmaschinentext. Keine weichen Formen, keine Deko, keine Verläufe.»
Für die meisten Nutzer dürfte die Firma Elevenlabs das spannendste Angebot haben. Mit ihrem KI-Tool lassen sich Musikstücke generieren, wie zum Beispiel Hintergrundmusik für ein Werbevideo. Weiter kann man Geräusche wie das Einschalten eines Autos oder Schritte auf einem Kiesweg generieren.
Berühmt ist Elevenlabs aber für das Klonen von Stimmen: Lädt man eine Audiodatei der eigenen Stimme hoch, kann die KI die Stimme nachahmen. Es werden auch Emotionen ausgedrückt und natürliche Geräusche wie Seufzen oder Einatmen generiert. Allerdings variiert die Qualität der Outputs. Wer die Stimme gut kennt, wird Unterschiede zwischen Klon und Original entdecken.
Elevenlabs gibt an, seine KI beherrsche über siebzig verschiedene Sprachen. Nutzer können sich selbst aufnehmen und es danach so aussehen lassen, als würden sie Japanisch, Schwedisch, Hindi sprechen. Schweizerdeutsche Dialekte funktionieren im Test der NZZ allerdings nur eingeschränkt.
Sowohl in der Schweiz wie auch in Deutschland ist es illegal, jemandem ohne Einverständnis mit einem KI-Tool Worte in den Mund zu legen. Die Stimme und das Gesicht gehören zur geschützten Privatsphäre. Es gilt das Recht am eigenen Wort.
Welche KI macht gute Podcasts?Bei Notebook LM von Google kann man Websites, Videos, Bilder und sogar Dateien mit mehreren hundert Seiten hochladen. Die KI erstellt danach Präsentationen, Zusammenfassungen, Infografiken – und Podcasts. Wer will, kann dem Podcast einen besonderen Fokus geben oder ihn einfach als allgemeine Einführung in ein neues Thema verwenden.
Notebook LM nutzt eine Technologie namens Retrieval-Augmented Generation (RAG). Das bedeutet, die künstliche Intelligenz greift nicht primär auf ihr allgemeines Wissen zurück, sondern durchsucht die hochgeladenen Dokumente nach Informationen. Der Output ist damit näher an den Quellen.
KI-Dienste, die auf dem RAG-Konzept basieren, sollen weniger Fehler machen und weniger halluzinieren als herkömmliche Chatbots. Allerdings passieren auch Notebook LM immer wieder Fehler.
Ausserdem hat der Dienst eine politische Schlagseite: Parteiprogramme von linken Parteien werden in den Notebook-LM-Podcasts wohlwollend besprochen, Parteiprogramme von rechten Parteien werden missbilligt.
Was sind KI-Agenten, und wann lohnen sie sich?KI-Agenten machen aus E-Mails To-do-Listen und Kalendereinträge, suchen eine Wohnung in Zürich und bewerben sich automatisch im Namen des Nutzers, oder sie planen und buchen eine Geschäftsreise mit Zug und Übernachtung. Zumindest theoretisch.
Noch verhindern unbefriedigende Antworten und Sicherheitsrisiken, dass die Agenten wirklich eigenständig handeln können – oder sollten. Je mehr Zugriff sie auf E-Mails, Kalender, interne Dokumente oder Kreditkarten erhalten, desto grösser wird das Risiko für beträchtliche Schäden.
Anders als Chatbots beantworten KI-Agenten nicht einfach Fragen, sondern verfolgen selbständig ein Ziel. Dafür planen sie die notwendigen Schritte, nutzen Programme, überprüfen Zwischenergebnisse und passen allenfalls ihre Strategie an. Am Ende liefern sie beispielsweise eine Präsentation mit Slides und Speaker-Notes, eine Website oder eine Excel-Datei.
Sinnvoll sind Agenten dort, wo Aufgaben klar begrenzt, wiederholbar und gut überprüfbar sind. Etwa, um täglich die wichtigsten Entwicklungen einer Branche aus vielen Quellen zu sammeln, Rechnungen auf fehlende Angaben zu überprüfen oder Tabellen nach dem gleichen Vorgang zu bereinigen. Für die meisten alltäglichen Anwendungen sind sie noch zu schlecht.
Wie erkenne ich KI-Bilder und Videos?KI-generierte Bilder und Videos werden immer realistischer. Zwar gibt es laufend neue Tools, die versuchen, KI-Inhalte zu erkennen, doch das beste Werkzeug bleibt der menschliche Verstand. KI versteht weder die Gesetze der Physik noch jene der Geometrie – sie imitiert sie nur. Deshalb haben KI-Bilder beispielsweise oft keinen natürlichen Fluchtpunkt.
Auch verzerrte Gesichter, entstellte Gliedmassen oder unvollständige Objekte tauchen noch immer häufig auf. Allerdings finden sich solche Fehler vermehrt nur noch im Hintergrund, etwa bei Nebenfiguren.
Bei Videos kommen zeitliche Fehler hinzu. Schattenlängen, Kleidermuster oder Gesichter können sich von Frame zu Frame unlogisch verändern. KI-generierte Explosionen sind unrealistisch dramatisch, mit übertriebenen Feuerbällen. Auch Bewegungen wirken manchmal zu weich, zu dramatisch oder körperlich unmöglich.
Gerade bei Videos hilft deshalb Wiederholung: Je länger man ein KI-Video anschaut, desto eher fallen Brüche in Bewegung, Form oder Licht auf. Forscher konnten das kürzlich in einem Experiment bestätigen. Für echte Videos gilt das offenbar nicht im gleichen Mass. Auch wenn die Testpersonen diese länger anschauten, blieben sie im Experiment unsicher, ob sie echt waren oder nicht. Mit noch realistischeren KI-Videos dürfte diese Unsicherheit weiter zunehmen.
Auch Software kann helfen, KI-Inhalte zu erkennen. Viele liefern aber nur eine KI-Wahrscheinlichkeit und lassen kaum nachvollziehen, wie sie zu ihrem Schluss kommen. Nützlicher sind Werkzeuge, die konkrete Hinweise geben: Image Whisperer überprüft mit 42 unabhängigen Tests, ob Bilder durch KI erstellt wurden, und erklärt, wie es zum Ergebnis kommt. Das Zürcher Startup Aurigin setzt bei KI-generierten Stimmen an. Es versucht diese zu erkennen, auch wenn sie in echte Aufnahmen hineingeschnitten wurden. Bei KI-Videos lässt es sich ebenfalls einsetzen, sofern darin gesprochen wird.
Google kennzeichnet KI-generierte Bilder, Videos und Audiodateien inzwischen mit einer «synthetischen ID» – einem Wasserzeichen, das für das menschliche Auge unsichtbar in die Pixel eines Bildes oder in die Tonspur eingebettet wird. Doch es gibt bereits Möglichkeiten, solche Wasserzeichen wieder zu entfernen oder zu beschädigen.
Auch andere führende KI-Firmen wie Nvidia, Open AI und Elevenlabs wollen generierte Bilder mit einer synthetischen ID kennzeichnen. Prüfen, ob ein Bild ein solches Wasserzeichen enthält, lässt sich unter anderem mit Gemini. Man lädt das Bild in den Prompt und fragt: «Wurde dieses Bild mit KI erstellt?» Ein fehlendes Wasserzeichen bedeutet aber nicht, dass ein Bild echt ist. Die synthetische ID kann auch entfernt worden sein oder von einem KI-System stammen, das keine Wasserzeichen setzt.
Ein Artikel aus der «NZZ am Sonntag»
nzz.ch



