Across Domains

Große Sprachmodelle "Across Domains"

 

Große Sprachmodelle werden eingesetzt, um Fachleute aus verschiedenen Bereichen bei der Erledigung unterschiedlicher Aufgaben zu unterstützen.

Wählen Sie dann einen Bereich aus, der Ihrem Fachgebiet am nächsten kommt, und untersuchen Sie verschiedene Aufgaben, die durch diese Modelle unterstützt werden können:

 

Biologie
 
 
Wie können wir Sequenzen wie Sätze behandeln, um nicht-lokale genomische Abhängigkeiten zu extrahieren?

Ähnlich wie bei der menschlichen Sprache ist bekannt, dass weit entfernte genomische Sequenzen miteinander interagieren können (Miele und Dekker, 2008). Während sich die Beweise für die Bedeutung weitreichender Interaktionen in der Biologie häufen, wurden auf dem Gebiet der Verarbeitung natürlicher Sprache Durchbrüche erzielt. Google kündigte BERT (Bidirectional encoder representation from transformers) an, das Text als eine Sequenz von Vektoren mit selbstüberwachtem Lernen darstellt (Devlin et al., 2018). Ähnlich wie Dependency Parse Trees zielt BERT darauf ab, Sätze in einem anderen Format durch Kodierer darzustellen, so dass der Satz leicht analysiert werden kann, um Schlüsselinformationen zu extrahieren. Anstatt jedoch vordefinierte Regeln wie bei Dependency Parse Trees zu verwenden, lernt BERT die Regeln zur Kodierung der Sätze in Vektoren (eine Liste von Zahlen) selbst. BERT ist per se ein vortrainiertes Modell, das mit Millionen von Büchern und englischen Wikipedia-Artikeln trainiert wurde und mit wenigen Daten für verschiedene Zwecke feinabgestimmt werden kann. Eine der bemerkenswertesten Anwendungen von BERT ist die Google-Suche (Nayak, 2019), die bereits ein Jahr nach ihrer Einführung für fast alle englischsprachigen Suchanfragen verwendet wurde (Schwartz, 2020). 

Die Entschlüsselung der Sprache der DNA auf der Suche nach versteckten Anweisungen ist nach wie vor eine der größten Herausforderungen in der Biologie (Andersson und Sandelin, 2020), und die BERT-Architektur schien vielversprechend, um die DNA-Sequenzen zu verarbeiten und versteckte Merkmale zu extrahieren. Wir stellen einen der Pioniere bei der Anwendung der BERT-Architektur bzw. der Transformator-Architektur im Allgemeinen auf DNA-Sequenzen vor: DNABERT (Ji et al., 2021).

Zu den Aufgaben, bei denen BERT eingesetzt werden kann, gehören:

  1. Vorhersage von proximalen und zentralen Promotorsequenzen
  2. Identifizierung von Transkriptionsfaktor-Bindungsstellen
  3. Erkennung von kanonischen und nicht-kanonischen Spleißstellen.
  4. Identifizierung funktioneller genetischer Varianten

 Ähnlich wie bei BERT handelt es sich bei DNABERT um ein vorab trainiertes Modell, das für jede nachgelagerte Anwendung fein abgestimmt werden muss. Das Vortraining ist besonders hilfreich, wenn die Daten für ein bestimmtes nachgelagertes Ziel knapp sind, und hilft auch, im Vergleich zu Modellen mit zufällig initialisierten Parametern, den lokalen Optima zu entkommen. Noch erstaunlicher war, dass DNABERT, das mit dem menschlichen Genom trainiert wurde, sehr gut für das Mausgenom verwendet werden konnte, obwohl die nicht-kodierenden Regionen nur zu 50% ähnlich sind (Waterson et al., 2002). Der Erfolg von DNABERT und den folgenden Arbeiten zeigt, wie gut sich die in der natürlichen Sprachverarbeitung entwickelten Techniken auf genomische Sequenzen anwenden lassen.
  
REFERENCES
  1. Richard von Mises. (1951) Positivism - a study in Human Understanding (translated), pp. 3, 5, 7, 51, 53. Harvard. 1951.
  2. Searls, D. B. (1997). Linguistic approaches to biological sequences. Bioinformatics, 13(4), 333–344. https://doi.org/10.1093/bioinformatics/13.4.333 
  3. Oluwafemi A. Sarumi, Dominik Heider. (2024) Large language models and their applications in bioinformatics, Computational and Structural Biotechnology Journal, Volume 23, Pages 3498-3505, https://doi.org/10.1016/j.csbj.2024.09.031.
  4. Sam Boshar, Evan Trop, Bernardo P de Almeida, Liviu Copoiu, Thomas Pierrot, Are genomic language models all you need? Exploring genomic language models on protein downstream tasks, Bioinformatics, Volume 40, Issue 9, September 2024, btae529, https://doi.org/10.1093/bioinformatics/btae529
  5. Katrin Fundel, Robert Küffner, Ralf Zimmer, RelEx—Relation extraction using dependency parse trees, Bioinformatics, Volume 23, Issue 3, February 2007, Pages 365–371, https://doi.org/10.1093/bioinformatics/btl616
  6. Klein D. Manning C.D.Fast exact inference with a factored model for natural language parsing, Adv. Neural Inform. Proc. Syst., 2002, vol. 15 (pg. 3-10)
  7. Mel'cuk I.Dependency Syntax: Theory and Practice, 1988, NYState University Press of New York
  8. Nédellec C.Learning language in logic - genic interaction extraction challenge, 2005, Proceedings of the ICML05 workshop: Learning Language in Logic (LLL05) 
  9. Miele, A., & Dekker, J. (2008). Long-range chromosomal interactions and gene regulation. Molecular BioSystems, 4(11), 1046. https://doi.org/10.1039/b803580f 
  10. "Understanding searches better than ever before". Pandu Nayak, Google. October 25, 2019. Retrieved January 4, 2025.
  11. Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (October 11, 2018). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2
  12. "Google: BERT now used on almost every English query". Barry Schwartz. Search Engine Land. October 15, 2020. Retrieved November 24, 2020.
  13. Andersson R. , Sandelin A. (2020) Determinants of enhancer and promoter activities of regulatory elements. Nat. Rev. Genet.,21, 71–87.
  14. Yanrong Ji, Zhihan Zhou, Han Liu, Ramana V Davuluri, DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome, Bioinformatics, Volume 37, Issue 15, August 2021, Pages 2112–2120, https://doi.org/10.1093/bioinformatics/btab083
  15. Waterston R.H.  et al. ; Mouse Genome Sequencing Consortium. (2002) Initial sequencing and comparative analysis of the mouse genome. Nature,420, 520–562. 
 
Journalismus

Sind LLMs für Journalisten tatsächlich hilfreich beim Schreiben von Texten?
 


Nur eine einfache Aufforderung und schon ist Ihr Essay in wenigen Sekunden fertig. Es ist natürlich, über die Auswirkungen nachzudenken, die LLMs auf den Journalismus haben können und werden, aber finden Journalisten LLMs tatsächlich hilfreich für ihre Arbeit? Diakopoulos et al. befragten 292 Journalisten im Jahr 2024, wie sie LLMs in ihrer Arbeit nutzen und welchen Herausforderungen sie sich stellen (Diakopoulos et al., 2024). Die Befragten waren im Durchschnitt 18 Jahre in der Nachrichtenbranche tätig, so dass Sie ihnen als professionelle Journalisten vertrauen können. Bleiben Sie dran, denn ob Sie nun ein LLM-Fan sind oder nicht, die Ergebnisse sind vielleicht nicht genau das, was Sie erwartet haben.



81,4 % der Befragten gaben an, dass sie über generative KI Bescheid wissen, und fast drei Viertel von ihnen gaben an, dass ihre Organisationen generative KI Systeme in gewissem Maße eingesetzt haben. Die häufigste Verwendung von LLMs ist nicht überraschend die Textproduktion (69,6 % der 181 Befragten, die LLMs verwendet haben), wobei die Verwendung sicherlich nicht auf Text beschränkt ist, sondern sich auch auf Multimedia, Übersetzung, Transkription, Benutzererfahrung und Metadaten erstreckt, und zwar in absteigender Reihenfolge der Beliebtheit. Viele Journalisten wiesen jedoch darauf hin, dass sie aufgrund von Qualitätsproblemen manchmal mehr Zeit mit der Bearbeitung des Outputs von LLMs verbringen, als sie dadurch einsparen. LLMs schienen sicherlich nützlich für Brainstorming und verwandte Funktionen zu sein, die die Kreativität der Journalisten unterstützen, einschließlich des Sammelns von Hintergrundinformationen und der Erweiterung des Publikums. Um einen der Befragten zu zitieren: „Die Möglichkeit, schnell zahlreiche visuelle Iterationen eines Konzepts zu sehen, macht es einfach, Optionen und Ideen zu erkunden, die ich sonst aufgrund von Zeit- oder Ressourcenbeschränkungen nicht verfolgen würde“. Im Folgenden wird zusammengefasst, wie LLMs und generative KI Systeme die Journalisten bei den von den Befragten am häufigsten genannten Aufgaben unterstützen.

Texte: Generierung von Inhalten wie Schlagzeilen, Social-Media-Posts, Newslettern, Quiz, Text aus Daten, Taglines und Story-Entwürfen. LLMs wurden selten für den Hauptinhalt eines Artikels verwendet.
Multimedia: Illustrationen für Beiträge in sozialen Medien, Video- und Audiobearbeitung (z. B. Text in Sprache)
Übersetzung und Transkription: als Teil des Produktionsprozesses von Inhalten, mit Tools wie Otto oder Whisper.
Benutzererfahrung: zur Erstellung von Chatbots für Verbraucher (Leser)
Metadaten: Erstellung von Alt-Texten für Bilder, die angezeigt werden, wenn die Website die Bilder nicht lädt oder von barrierefreien Tools gelesen werden, oder auch für Audiodateien.

Eine weitere bemerkenswerte Veränderung, die der LLM im Journalismus bewirkt hat, ist die Tatsache, dass sich die journalistischen Berufe in der Branche zusammen mit den organisatorischen Veränderungen rasch weiterentwickeln. Fast die Hälfte der Befragten gab an, dass sich ihre Arbeitsabläufe oder Aufgaben durch generative KI Systeme verändert haben, was sich zum Teil bereits schnell in ihrem CMS (Content Management System), ihren Slack-Kanälen (einem beliebten Messenger für die Arbeit) und anderen häufig genutzten Bürosoftwares niederschlägt. Es entstehen auch neue Positionen für verschiedene Kompetenzniveaus und Rollen, darunter Führungsrollen wie „Innovation Officer“ oder „KI-Experte“, redaktionelle Rollen wie „Prompt Editor“ oder „Fact Checker“, in der Tat auch juristische Rollen und nicht zuletzt viele technische Rollen wie „Software Engineer“ oder „Quality Assurance.“ 



Wir möchten die Sitzung mit einer Liste der journalistischen Tätigkeiten beenden, bei denen die Befragten eine Unterstützung durch KI Systeme in Betracht ziehen würden und bei denen sie dies nicht tun würden. Mehr Journalisten würden den Einsatz von KI Systemen für die Analyse oder das Sammeln von Informationen in Erwägung ziehen, aber sie würden sich weniger auf KI Systeme verlassen, wenn es um die Interpretation der Informationen oder deren Verwendung für die Entscheidungsfindung geht. Dieses Ergebnis bestätigt die Bedenken der Journalisten in Bezug auf die Genauigkeit und die ethischen Aspekte der KI Systemen. Diese Bedenken reichten aus, um viele Journalisten davon abzuhalten, generative KI Systeme überhaupt zu nutzen. Auf die Frage nach einer Strategie zur Bewältigung solcher ethischen Bedenken gaben 20 % der Befragten an, dass der Output einer generativen KI Systemen oder eines LLM sorgfältig von Menschen überprüft und kuratiert werden müsse, wenn auch nicht von allen.

Der Bericht befasst sich mit vielen weiteren Themen im Zusammenhang mit KI Systemen im Journalismus, die auf dieser Seite nicht vorgestellt wurden, einschließlich der Verantwortung, der Einstufung von journalistischen Aufgaben in Bezug auf ihre Langweiligkeit und den Vorschlägen der Autoren für die Journalismusbranche im Zeitalter der KI. Die Schlüsselfrage ist, wie wir die Vorteile von LLMs und anderen KI-Modellen maximieren und gleichzeitig ihre Nachteile minimieren können, insbesondere die ethischen Nachteile, die von Journalisten und ihren Verbrauchern ernsthaft und sicher angegangen werden sollten.

 
  
REFERENZEN
  1. Diakopoulos, N. (2024, April). Generative AI in journalism: The evolution of newswork and ethics in a Generative Information Ecosystem. Associated Press. https://www.aim4dem.nl/out-now-generative-ai-in-journalism-the-evolution-of-newswork-and-ethics-in-a-generative-information-ecosystem/ 
Finanz

Wie können wir die Reaktion des Marktes mit NLP und LLMs erfassen?

„Die eigene Position auf dem Markt zu verstehen, ist ein wichtiger Aspekt für die Führung eines erfolgreichen Unternehmens“. - Europäische Bank für Wiederaufbau und Entwicklung


Die schnell wachsenden Medien haben viele neue Kanäle für die Marktanalyse entstehen lassen. Dazu gehören Posts auf Social-Media-Plattformen, Börsenberichte oder Bewertungen, die auf Google Maps und Online-Shopping-Seiten geschrieben werden, sowie E-Mails, die an den Kundendienst geschickt werden. Sofern die Plattform kein numerisches Bewertungssystem unterstützt, müssen die Analysten die Bewertungen im Textformat lesen, um zu sehen, wie zufrieden die Kunden mit einem Produkt waren, was in der Tat ein mühsamer Prozess ist. Die Stimmungsanalyse ist ein etablierter Forschungsbereich, der unter die Verarbeitung natürlicher Sprache fällt und dessen Ziel es ist, den emotionalen Ton eines bestimmten Textes zu bestimmen (Liu, 2015). Die Anwendung der Sentiment-Analyse ist zwar nicht auf die Analyse von Marktreaktionen beschränkt, aber sie wird intensiv für den Finanzbereich erforscht. Die schnelle Erfassung von Informationen und die Erstellung zuverlässiger Vorhersagen werden umso wichtiger, je größer der Markt wird, denn bereits 2013 entsprachen sechs Millisekunden einer transatlantischen Verbindung von 300 Millionen Dollar (Uhr et al. 2014). Mit den jüngsten Fortschritten bei LLMs werden aktive Anstrengungen unternommen, um sie auf die Stimmungsanalyse an den Aktienmärkten anzuwenden. Im Folgenden werden wir den aktuellen Stand der Sentimentanalyse im Finanzbereich und die Wirksamkeit von LLMs in diesem Bereich diskutieren.


Zitate von Gordon Ramsay. Sätze mit geschickter Verwendung von Metaphern oder Sarkasmus gehören zu den feinsten Kryptoniten, die nicht unbedingt die idealsten Eingaben für wörterbuchbasierte Stimmungsanalysemodelle darstellen.


Die traditionelle, aber dennoch gängige Methode zur Durchführung von Stimmungsanalysen besteht darin, eine manuell vordefinierte Menge von positiv und negativ kategorisierten Wörtern in einer wörterbuchähnlichen Weise zu verwenden, was jedoch sofort auf Schwierigkeiten stößt, wenn Negation verwendet wird oder das Wort in vielen verschiedenen Bedeutungen verwendet werden kann. 

Im Jahr 2024 verglichen Zhang et al. verschiedene Sprachmodelle gegeneinander. Ein bemerkenswertes Paar war das berüchtigte ChatGPT und T5. T5 ist ein viel kleineres Modell als GPT, da es nur mit domänenspezifischen Texten trainiert wird, von denen man erwarten kann, dass sie in ihrem Fachgebiet gut funktionieren. Zunächst wurden zwei Modelle miteinander verglichen, indem die Beispiele der Stimmungsanalyseaufgaben (wie Übungsaufgaben und Modellfragen an der Universität) nicht angezeigt wurden, eine Einstellung, die allgemein als „Zero-Shot“ bezeichnet wird. Überraschenderweise waren die LLM-Modelle, einschließlich ChatGPT, im Allgemeinen weniger genau als T5, wenn sie alle mit Texten aus dem Fachgebiet von T5 getestet wurden. Wurden ChatGPT jedoch einige Übungsfragen und Modellantworten für jede Stimmungsanalyseaufgabe vorgelegt, eine Einstellung, die allgemein als „few-shot“ bezeichnet wird, begann ChatGPT, T5 zu übertreffen. 


Diese Ergebnisse zeigen zwei Punkte: 
  1. LLMs sind in der Lage, sich mit domänenspezifischen Sprachmodellen zu messen, sogar in ihren Fachgebieten.
  2. Damit LLMs jedoch besser abschneiden als domänenspezifische Sprachmodelle, müssen sie einige, wenn auch nicht viele, Beispiele dafür sehen, wie die Stimmungsanalyse durchgeführt werden sollte.
In der Tat hat sich einmal mehr gezeigt, dass LLMs vielseitig genug sind, um in der Stimmungsanalyse eingesetzt zu werden. Dieses Potenzial von LLMs sollte jedoch nicht überschätzt werden; der Vergleich von Zero-Shot- und Little-Shot-Ergebnissen, den wir bereits erörtert haben, veranschaulicht, wie wichtig eine Feinabstimmung ist, bevor das LLM in der Praxis eingesetzt wird.

Sind LLMs auch im Finanzbereich besser als domänenspezifische Sprachmodelle?
Die kurze Antwort lautet ja, aber nicht immer. Im Jahr 2023 wurde unter dem Namen BloombergGPT (Wu et al. 2023) ein großes Sprachmodell angekündigt, das sich speziell auf den Finanzbereich konzentriert. BloombergGPT, das von den Autoren als der größte domänenspezifische Datensatz der Welt bezeichnet wurde, wurde mit 363 Milliarden Token aus Finanzdatensätzen und 345 Milliarden Token aus öffentlichen Datensätzen trainiert. Später im selben Jahr wurde BloombergGPT mit dem berüchtigten ChatGPT zur Analyse von Stimmungen in Finanztexten verglichen (Li et al. 2023). Die Ergebnisse waren etwas enttäuschend: Bei der in dem Artikel getesteten Aufgabe der Stimmungsanalyse schnitten alle Versionen von ChatGPT besser ab als BloombergGPT. Auch bei allen anderen im Artikel genannten Aufgaben konnte BloombergGPT nicht mit dem neuesten ChatGPT4 mithalten. 

Dies bedeutet jedoch nicht, dass das Potenzial von domänenspezifischen Sprachmodellen vollständig ausgeschöpft wird. Wenn das Modell mit einer domänenspezifischen Aufgabe betraut wurde, im Gegensatz zu allgemeineren Aufgaben wie der Stimmungsanalyse, können domänenspezifische Sprachmodelle besser abschneiden. Da domänenspezifische Sprachmodelle in der Regel kleiner sind als allgemeine LLMs wie ChatGPT, werden sie oft auch als SLMs (Small Language Models) bezeichnet. Ihre geringere Modellgröße kann die Speichernutzung und damit den Energieverbrauch reduzieren. Außerdem eröffnen kleinere Modelle und Trainingsdaten einen Raum für ein effektiveres Management von Verzerrungen und ethischen Bedenken (Lee et al. 2024). Obwohl sehr große LLMs wie ChatGPTs im Allgemeinen besser sind als kleinere Sprachmodelle, die nur mit domänenspezifischen Daten trainiert wurden, kann es daher dennoch ratsam sein, letztere zu verwenden.


Nur zum Spaß: ChatGPT gibt zu, dass BloombergGPT sich besser mit BQL auskennt - einer von Bloomberg entwickelten Abfragesprache für Finanzdaten.

  Referenzen
  1. P. Uhr, J. Zenkert and M. Fathi, "Sentiment analysis in financial markets A framework to utilize the human ability of word association for analyzing stock market news reports," 2014 IEEE International Conference on Systems, Man, and Cybernetics (SMC), San Diego, CA, USA, 2014, pp. 912-917, doi: 10.1109/SMC.2014.6974028. keywords: {Sentiment analysis;Portfolios;Companies;Text mining;Algorithm design and analysis;Software;Databases;Sentiment Analysis;Word Association;Text Mining},
  2. B. Lui, “Sentiment Analysis and Opinion Mining,” Morgan & Claypool Publishers, May 2012
  3. Zhang, W., Deng, Y., Liu, B., Pan, S., & Bing, L. (2024). Sentiment analysis in the era of large language models: A reality check. Findings of the Association for Computational Linguistics: NAACL 2024. https://doi.org/10.18653/v1/2024.findings-naacl.246 
  4. Li, X., Chan, S., Zhu, X., Pei, Y., Ma, Z., Liu, X., & Shah, S. (2023). Are CHATGPT and GPT-4 general-purpose solvers for financial text analytics? A study on several typical tasks. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing: Industry Track. https://doi.org/10.18653/v1/2023.emnlp-industry.39  
  5. Wu, S., et al. (2023). BloombergGPT: A Large Language Model for Finance. Arxiv. https://doi.org/10.48550/arXiv.2303.17564
  6. Lee, D., Todorova, C., & Dehghani, A. (2024). Ethical risks and future direction in building trust for large language models application under the EU AI act. Proceedings of the 2024 Conference on Human Centred Artificial Intelligence - Education and Practice, 41–46. https://doi.org/10.1145/3701268.3701272

 


!     Denken Sie über andere Probleme in Ihrem Fachgebiet nach, bei denen große Sprachmodelle eingesetzt werden können, und teilen Sie sie in einer neuen Taskcard unten mit.