DB Podcast

Chatbots und KI Arzneimittelentwicklung: Wie KI die Medikamentenforschung beschleunigt

Ein Gastbeitrag von Dr.Alexander Jarasch 4 min Lesedauer

Anbieter zum Thema

Für den Einsatz von Chatbots mit künstlicher Intelligenz (KI) in der Arzneimittel­entwicklung sind noch ein paar Hindernisse zu überwinden. Doch schon bald ­werden ­fachspezifische Chatbots mit KI und natürlichem Sprachverständnis (­Natural ­Language Understanding, NLU) die Medikamentenentwicklung beschleunigen.

(Bild:  taa22 – stock.adobe.com)
(Bild: taa22 – stock.adobe.com)

Gleich zwei Probleme bringt generative künstliche Intelligenz (Generative Artificial Intelligenz, GenAI) wie ChatGPT mit sich: unzuverlässige Antworten und Verständigungsschwierigkeiten. Die gute Nachricht ist: Werden diese Probleme gelöst, wird generative KI für die Biowissenschaften und die Pharmaindustrie nutzbar.

Können wir den Antworten generativer KI vertrauen? Noch nicht!

Generative KI erweckt oft den Anschein, eine Frage souverän zu beantworten, obwohl die Antwort falsch, parteiisch oder verkürzt ist. Dieses Verhalten wird als „halluzinieren“ bezeichnet.

Wie kommt es dazu? Die Basis der generativen KI sind große Sprachmodelle (Large Language Modells, LLMs), die Antworten auf intransparente Weise nach Wahrscheinlichkeiten berechnet. LLMs werden mit einem gigantischen Korpus aus Dokumenten trainiert, die zum großen Teil aus Inhalten des Internets bestehen. Mit allen Fehlern, die dort zu finden sind.

Aus diesen Gründen ist es bisher riskant, ChatGPT-ähnliche Tools für ernsthafte Datenerfassung zu verwenden. Der Weg zu einem fachspezifischen KI-Chatbot, auf dessen Antworten Verlass ist, ist vorgezeichnet: Er führt über die Verbesserung der Datengenauigkeit.

Arzneimittelentwicklung: Ein eigenes LLM-basiertes Tool mit Graphen

Die Arzneimittelentwicklung hatte schon immer mit einem unstrukturierten Berg heterogener Daten unterschiedlicher Qualität zu kämpfen. Um Vertrauen in ein fachspezifisches Sprachmodell zu schaffen, müssen die Daten so strukturiert werden, dass Transparenz, Erklärbarkeit und Kontext gewährleistet sind. Dafür kommt immer häufiger ein Knowledge Graph zum Einsatz.

Knowledge Graphen organisieren Daten aus verschiedenen Quellen. In sogenannten „Knoten“ erfassen sie Informationen über Entitäten – zum Beispiel Personen, Orte oder Ereignisse. Über sogenannte „Kanten“ stellen sie Verbindungen her. Auf diese Weise lassen sich nicht nur Daten abfragen, sondern auch Muster erkennen.

Der Analysezweig der Graphtechnologie, Graph Data Science, generiert zudem neue Erkenntnisse aus komplexen Datenbeziehungen – und sogar Antworten auf bis dato ungestellte Fragen. Zu den Nutzern dieser Technologie zählen das Deutsche Zentrum für Diabetesforschung (DZD), Novartis, Novo Nordisk und Astra Zeneca.

Mit kuratierten, qualitativ hochwertigen und strukturierten Daten machen Knowledge Graphen LLMs weniger voreingenommen, genauer und regelgetreuer. Denn sie zwingt die Sprachmodelle, sich auf die richtigen Antworten zu konzentrieren. Der Graph dient als Kontrollinstanz für das LLM.

Wie sieht das gegenwärtig in der Praxis der Biowissenschaften aus?

Basecamp Research nutzt die Graphdatenbank des Anbieters Neo4j, um die Biodiversität der Erde zu kartieren. Das Team hat den größten Knowledge Graphen der ­Artenvielfalt mit mehr als fünf Milliarden Beziehungen erstellt, den sogenannten BaseGraph™. Basecamp Research hat an großen Sprachmodellen für die Entwicklung von Proteinen gearbeitet und dabei ein ChatGPT-ähnliches Modell für die Generierung von Enzymsequenzen namens ZymCtrl eingesetzt. Das Team baut nun große Sprachmodelle um seinen gesamten Knowledge Graphen, wodurch BaseGraph zu einem LLM-erweiterten Knowledge Graph wird.

Ein anderes Beispiel: Der Bioinformatiker Sixing Huang (Gemini Data) hat einen LLM-Chatbot für die Auswertung stark unstrukturierter Daten aus verschiedenen Datenquellen – klinischen Studien, Patenten und SNOMED-Terminologie – implementiert. Dafür kombinierte er ein LangChain-LLM mit einem Neo4j-Graphen.

Das LLM extrahiert Entitäten aus den Daten (Text, Bild, Audio oder Video). Durch die Verknüpfung der extrahierten Entitäten und Dokumente wird automatisch ein Knowledge Graph aus stark unstrukturierten Daten aufgebaut. Außerdem ermöglicht das LLM den Nutzern, ihre Anfragen in natürlicher Sprache zu stellen. Ohne Programmierkenntnisse wird dadurch beispielsweise die Analyse von Wettbewerbern, ihrer klinischen Studien, Indikationsfelder und möglicher Resultate möglich.

Arzneimittelentwicklung: Verständliche Antworten auf schwierige Fragen

So lässt sich durch die Kombination Graphtechnologie mit LLMs auch das Problem der Verständigungsschwierigkeiten lösen. Um die Interaktion mit den Daten zu vereinfachen, gilt es eine Schnittstelle mit natürlicher Sprache (wie ChatGPT) zu verwenden, statt Code zu schreiben.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Graphen haben zwar bereits eine sehr intuitive Abfragesprache (Cypher). Aber es ist und bleibt Code. Eine natürlichsprachliche Schnittstelle ermöglicht es auch Nicht-Informatikern, durch komplexe Datenstrukturen zu navigieren und Muster und Beziehungen zu erkennen. Dabei wird Sprache in Sekundenbruchteilen in Code und Code in Sprache übersetzt. Der NLU-Ansatz ermöglicht ein unmittelbares Zwiegespräch zwischen dem forschenden Menschen und dem Datenkonvolut.

In der Praxis ist ein großes Pharmaunternehmen schon dabei, einen GenAI-gestützten Chatbot zu erproben, um auf den digitalen Zwilling der Lieferkette in natürlicher Sprache zuzugreifen. Die Informationen der Lieferkette werden zur Risikobewertung in einen Graphen von Neo4j hochgeladen. Der neue Arbeitsablauf sieht so aus: Ein Nutzer stellt Fragen in natürlicher Sprache; die Eingabeaufforderung wird in Cypher generiert, die die Abfrage ausführt, die Antwort empfängt und in natürliche Sprache, eine Tabelle oder einen Rückgabewert umwandelt.

Warum jedes Unternehmen seine eigene Graph-KI-Kombination braucht

Pharma- und Forschungsteams schrecken aus guten Gründen davor zurück, die eigenen Ideen öffentlich zugänglich zu machen. Zum Schutz des geistigen Eigentums (Intellectual Property, IP) sollte die Datenexploration intern geschehen.

Zu diesem Zweck brauchen Forschungsteams ein eigenes robustes, proprietäres GenAI-Tool. Dafür kann das Team zunächst ein eigenes Sprachmodell auf der Grundlage seiner Ergebnisse erstellen. Das LLM wird dann mit öffentlich zugänglichen relevanten Datenbankinformationen ergänzt. Der Knowledge Graph liefert dabei die nötige Genauigkeit, Transparenz, Erklärbarkeit und Skalierbarkeit.

So erhalten Forschungsteams einen hochspezialisierten KI-Chatbot, mit dem sie in natürlicher Sprache kommunizieren können. Zugleich legen sie die Grundlage für die Anwendung von Graph Data Science, um auf ganz neue Fragestellungen zu kommen – und damit zu ganz neuen Antworten. 

Dr. Alexander Jarasch
 ist­ Technical Consultant Pharma / Healthcare / Biotech bei Neo4j

Bildquelle: Neo4j