In der Ära der generativen KI, wenn Chatbots auf der Grundlage von aus dem Internet gezogenem Inhalt detaillierte Antworten auf Fragen liefern können, ist die Grenze zwischen fairer Nutzung und Plagiat sowie zwischen Routine-Web-Suche und unethischer Zusammenfassung dünn.
Perplexity AI ist ein Startup, das eine Suchmaschine mit einem großen Sprachmodell kombiniert, das Antworten mit ausführlichen Erklärungen generiert, anstatt nur Links bereitzustellen. Im Gegensatz zu OpenAIs ChatGPT und Anthropics Claude trainiert Perplexity seine eigenen grundlegenden KI-Modelle nicht, sondern verwendet offene oder kommerziell verfügbare Modelle, um die Informationen, die es aus dem Internet sammelt, in Antworten zu übersetzen.
Aber eine Reihe von Anschuldigungen im Juni legt nahe, dass der Ansatz des Startups an der Grenze zum Unethischen liegt. Forbes warf Perplexity vor, eines seiner Nachrichtenartikel in der Beta-Perplexity-Seitenfunktion des Startups plagiiert zu haben. Und Wired beschuldigte Perplexity des heimlichen Scrapings seiner Website sowie anderer Websites.
Perplexity, das im April daran arbeitete, 250 Millionen US-Dollar bei einer Bewertung von fast 3 Milliarden US-Dollar aufzubringen, behauptet, nichts falsch gemacht zu haben. Das von Nvidia und Jeff Bezos unterstützte Unternehmen erklärt, dass es den Aufforderungen der Verlage gefolgt ist, keinen Content zu scrapen und dass es im Rahmen der fair use-Urheberrechtl.Operiert.
Die Situation ist komplex. Im Mittelpunkt stehen Nuancen rund um zwei Konzepte. Das erste ist das Robots Exclusion Protocol, ein Standard, der von Websites verwendet wird, um anzuzeigen, dass sie nicht möchten, dass ihr Inhalt von Webcrawlern zugegriffen oder verwendet wird. Das zweite ist die Fair Use im Urheberrecht, die den rechtlichen Rahmen für die Verwendung urheberrechtlich geschützten Materials ohne Erlaubnis oder Bezahlung in bestimmten Fällen festlegt.
Heimliches Scraping von Web-Inhalten
In einem Bericht vom 19. Juni behauptete Wired, dass Perplexity das Robots Exclusion Protocol ignoriert habe, um heimlich Bereiche von Websites zu scrapen, auf die Verlage nicht möchten dass Bots zugreifen. Wired berichtete, dass es eine Maschine beobachtete, die an Perplexity gebunden war, die dies auf seiner eigenen Nachrichtenwebsite sowie auf anderen Publikationen unter seinem Mutterkonzern, Condé Nast, tat.
Der Bericht erwähnte, dass der Entwickler Robb Knight ein ähnliches Experiment durchführte und zu demselben Ergebnis kam.
Sowohl die Wired-Reporter als auch Knight prüften ihre Verdächtigungen, indem sie Perplexity baten, eine Reihe von URLs zusammenzufassen und dann auf der Serverseite beobachteten, wie eine mit Perplexity verbundene IP-Adresse diese Websites besuchte. Perplexity „fasste“ dann den Text von diesen URLs zusammen - obwohl es in einem Fall einer Dummy-Website mit begrenztem Inhalt, die Wired zu diesem Zweck erstellt hatte, den Text von der Seite wörtlich zurückgab.
Dies ist der Punkt, an dem die Nuancen des Robots Exclusion Protocols ins Spiel kommen.
Web-Scraping ist technisch, wenn automatisierte Softwareteile, sogenannte Crawler, das Web durchsuchen, um Informationen von Websites zu indizieren und zu sammeln. Suchmaschinen wie Google tun dies, damit Webseiten in den Suchergebnissen enthalten sind. Andere Unternehmen und Forscher verwenden Crawler, um Daten aus dem Internet für Marktforschung, wissenschaftliche Forschung und, wie wir gelernt haben, das Training von KI-Modellen zu sammeln.
Web-Scraper, die diesem Protokoll entsprechen, werden zuerst nach der „robots.txt“-Datei im Quellcode einer Website suchen, um zu sehen, was erlaubt ist und was nicht - heute ist das Nichterlaubte in der Regel das Scrapen von Websites von Verlagen, um massive Trainingsdatensätze für KIs zu erstellen. Suchmaschinen und KI-Unternehmen, einschließlich Perplexity, haben erklärt, dass sie sich an das Protokoll halten, aber sie sind nicht rechtlich verpflichtet, dies zu tun.
Der Leiter des Bereichs Geschäft bei Perplexity, Dmitry Shevelenko, sagte gegenüber TechCrunch, dass das Zusammenfassen einer URL nicht dasselbe wie Crawlen ist. „Crawling ist, wenn man einfach herumgeht, Informationen aufsaugt und sie seinem Index hinzufügt“, sagte Shevelenko. Er merkte an, dass die IP von Perplexity als Besucher auf einer Website auftauchen könnte, die ansonsten unter „sonstigen Umständen in robots.txt verboten wäre“, nur wenn ein Benutzer eine URL in ihre Anfrage eingibt, was „nicht mit der Definition des Crawlings übereinstimmt“.
„Wir reagieren einfach auf eine direkte und spezifische Benutzeranfrage, um diese URL zu besuchen“, sagte Shevelenko.
Anders ausgedrückt, wenn ein Benutzer einem KI manuell eine URL bereitstellt, sagt Perplexity, dass seine KI nicht als Webcrawler fungiert, sondern als Werkzeug, um dem Benutzer beim Abrufen und Verarbeiten der angeforderten Informationen zu helfen.
Aber für Wired und viele andere Verlage ist das ein Unterschied ohne Bedeutung, denn das Besuchen einer URL und das Extrahieren von Informationen daraus, um den Text zu summarisieren, sieht sicherlich sehr nach Scraping aus, wenn dies tausende Male pro Tag durchgeführt wird.
(Wired berichtete auch, dass Amazon Web Services, einer der Cloud-Service-Anbieter von Perplexity, das Startup untersucht, weil es das robots.txt-Protokoll ignorierte, um Webseiten zu scrapen, auf die Benutzer in ihrer Eingabe verwiesen. AWS sagte gegenüber TechCrunch, dass der Bericht von Wired ungenau sei und dass es dem Outlet mitgeteilt habe, dass es ihre Medienanfrage bearbeitet wie jede andere Meldung, die Missbrauch des Dienstes behauptet.)
Plagiat oder faire Nutzung?
Wired und Forbes haben Perplexity auch des Plagiats beschuldigt. Ironischerweise sagt Wired, dass Perplexity den Artikel plagiiert hat, der das Startup dafür kritisiert hat, heimlich seinen Web-Inhalt zu scrapen.
Wired-Reporter sagten, der Perplexity-Chatbot habe einen sechs Absätze umfassenden, 287-Wörter umfassenden Text erstellt, der die Schlussfolgerungen der Geschichte und die Beweise, die zur Untermauerung verwendet wurden, eng zusammenfasst. Ein Satz reproduziert genau einen Satz aus der Originalgeschichte; Wired sagt, dass dies Plagiat darstellt. Die Richtlinien des Poynter Institute besagen, dass es sich um Plagiat handeln könnte, wenn der Autor (oder die KI) sieben aufeinanderfolgende Wörter aus dem Originalquellenwerk verwendet.
Auch Forbes beschuldigte Perplexity des Plagiats. Die Nachrichtenwebsite veröffentlichte Anfang Juni einen Untersuchungsbericht darüber, wie Googles CEO Eric Schmidts neues Unternehmen ausgiebig rekrutiert und KI-gesteuerte Drohnen mit militärischen Anwendungen testet. Am nächsten Tag veröffentlichte der Forbes-Redakteur John Paczkowski ein Posting auf X, in dem stand, dass Perplexity den Scoop als Teil seines Beta-Features, der Perplexity Pages, wieder veröffentlicht hatte.
Perplexity Pages, die derzeit nur bestimmten Abonnenten von Perplexity zur Verfügung stehen, ist ein neues Tool, das Nutzern helfen soll, Forschung in „visuell beeindruckenden, umfassenden Inhalten“ umzuwandeln, so Perplexity. Beispiele für solche Inhalte auf der Website stammen von den Mitarbeitern des Startups und umfassen Artikel wie „Anfängerleitfaden für Trommeln“ oder „Steve Jobs: Visionärer CEO“.
„Es reißt den Großteil unserer Berichterstattung ab“, schrieb Paczkowski. „Es zitiert uns und ein paar, die uns zitiert haben, als Quellen auf die leicht zu übersehende Art und Weise.“
Forbes berichtete, dass viele der Beiträge, die vom Perplexity-Team kuratiert wurden, „bemerkenswert ähnlich zu originalen Geschichten aus mehreren Publikationen, einschließlich Forbes, CNBC und Bloomberg“, sind. Forbes sagte, dass die Beiträge Zigtausende von Ansichten sammelten und keine der Publikationen namentlich im Artikeltext erwähnten. Perplexitys Artikel enthielten eher Zuschreibungen in Form von „kleinen, leicht zu übersehenden Logos, die auf sie verweisen“.
Des Weiteren sagte Forbes, dass der Beitrag über Schmidt „fast identische Formulierungen“ zu Forbes' Scoop enthielt. Die Aggregation enthielt auch ein Bild, das vom Design-Team von Forbes erstellt wurde und das von Perplexity leicht modifiziert zu sein schien.
Perplexity-CEO Aravind Srinivas antwortete Forbes damals, dass das Startup zukünftig Quellen prominenter zitieren würde - eine Lösung, die nicht narrensicher ist, da auch Zitate technische Schwierigkeiten haben. ChatGPT und andere Modelle haben Halluzinationen von Links, und da Perplexity OpenAI-Modelle verwendet, ist es wahrscheinlich anfällig für solche Halluzinationen. Tatsächlich berichtete Wired, dass es beobachtet hat, wie Perplexity ganze Geschichten halluzinierte.
Abgesehen von der Feststellung der „Rauheit von Perplexity“, haben Srinivas und das Unternehmen sich größtenteils auf das Recht von Perplexity zur Verwendung solcher Inhalte für Zusammenfassungen berufen.
Hier kommen die Nuancen der fairen Nutzung ins Spiel. Plagiat, obwohl verpönt, ist technisch gesehen nicht illegal.
Laut dem US Copyright Office ist es legal, begrenzte Teile eines Werkes einschließlich Zitaten für Zwecke wie Kommentare, Kritiken, Nachrichtenberichterstattung und wissenschaftliche Berichte zu verwenden. KI-Unternehmen wie Perplexity behaupten, dass die Bereitstellung einer Zusammenfassung eines Artikels im Rahmen der fairen Nutzung liegt.
„Niemand hat ein Monopol auf Fakten“, sagte Shevelenko. „Wenn Fakten offengelegt sind, stehen sie jedem zur Verwendung zur Verfügung.“
Shevelenko verglich die Zusammenfassungen von Perplexity mit der Art und Weise, wie Journalisten oft Informationen aus anderen Nachrichtenquellen verwenden, um ihre eigene Berichterstattung zu unterstützen.
Mark McKenna, Professor für Recht am UCLA Institute for Technology, Law & Policy, sagte gegenüber TechCrunch, dass die Situation nicht einfach zu entwirren ist. In einem Fall von fairer Nutzung würden Gerichte abwägen, ob die Zusammenfassung einen großen Teil des Ausdrucks des Originalartikels verwendet oder nur die Ideen. Sie könnten auch prüfen, ob das Lesen der Zusammenfassung ein Ersatz für das Lesen des Artikels sein könnte.
„Es gibt keine klaren Grenzen“, sagte McKenna. „Wenn [Perplexity] faktisch sagt, was ein Artikel sagt oder worüber er berichtet, würde es nicht urheberrechtlich geschützte Aspekte des Werks verwenden. Das wären nur Fakten und Ideen. Aber je mehr die Zusammenfassung tatsächlichen Ausdruck und Text enthält, desto mehr sieht es nach Reproduktion aus, anstelle nur einer Zusammenfassung.“
Leider, für Verlage, es sei denn, Perplexity verwendet volle Ausdrücke (und anscheinend in einigen Fällen tut es das), könnten seine Zusammenfassungen nicht als Verstoß gegen fair use angesehen werden.
Wie Perplexity sich schützen will
KI-Unternehmen wie OpenAI haben eine Reihe von Medienvereinbarungen mit einer Vielzahl von Nachrichtenverlegern unterzeichnet, um auf deren aktuellen und archivierten Inhalt zuzugreifen, auf dem sie ihre Algorithmen trainieren können. Im Gegenzug verspricht OpenAI, Nachrichtenartikel dieser Verlage als Antwort auf Benutzeranfragen in ChatGPT zu veröffentlichen. (Aber auch das hat einige Probleme, die gelöst werden müssen, wie Nieman Lab letzte Woche berichtete.)
Perplexity hat sich noch nicht zu seiner eigenen Vielzahl von Medienvereinbarungen geäußert, vielleicht wartet das Startup darauf, dass die Anschuldigungen gegen es abklingen. Aber das Unternehmen ist „mit voller Geschwindigkeit“ dabei, eine Reihe von Werbeeinnahmebeteiligungsvereinbarungen mit Verlagen abzuschließen.
Die Idee ist, dass Perplexity Anzeigen neben den Anfragen schaltet, und Verlage, deren Inhalt in irgendeiner Antwort zitiert wird, erhalten einen Anteil der entsprechenden Werbeeinnahmen. Shevelenko sagte, dass Perplexity auch daran arbeitet, Verlagen den Zugriff auf ihre Technologie zu ermöglichen, damit sie Q&A-Erlebnisse erstellen und Dinge wie verwandte Fragen nativ innerhalb ihrer Websites und Produkte unterstützen können.
Aber ist das nur eine Fassade für systematischen Diebstahl des geistigen Eigentums? Perplexity ist nicht der einzige Chatbot, der Inhalte so umfassend zusammenfasst, dass Leser keinen Anreiz sehen, auf das ursprüngliche Quellenmaterial zu klicken.
Und wenn KI-Scraper wie dieser weiterhin die Arbeit von Verlagen übernehmen und für ihre eigenen Geschäfte umarbeiten, werden Verlage Schwierigkeiten haben, Anzeigengelder zu verdienen. Das bedeutet letztendlich, dass es weniger Inhalt zum Scrapen geben wird. Wenn kein Inhalt mehr zum Scrapen übrig ist, werden generative KI-Systeme dann dazu übergehen, sich auf synthetischen Daten zu trainieren, was zu einem höllischen Teufelskreis von möglicherweise tendenziösem und ungenauem Inhalt führen könnte.