Across Domains

Generative KI "Across Domains"

Generative KI-Modelle werden eingesetzt, um Fachleute aus verschiedenen Bereichen bei der Durchführung verschiedener Aufgaben zu unterstützen.

Wählen Sie unten einen der Bereiche aus, der Ihrem Fachgebiet am nächsten liegt, und entdecken Sie verschiedene Aufgaben, die von generativen KI-Modellen unterstützt werden können: 

Medizin
 


Können generative KI-Modelle mehr Trainingsdaten für andere KI-Modelle im Gesundheitswesen erzeugen?
Je mehr Daten, desto besser kann das Deep-Learning-Modell werden (Simon et al. 2024). Allerdings sind medizinische Daten in dieser Welt oft zu knapp, um moderne tiefe neuronale Netze zu trainieren. Grund dafür sind die hohen Kosten für die Bilderfassung und -verarbeitung, strenge Datenschutzgesetze und das geringe Auftreten einiger Krankheiten (Kazerouni, et al. 2023). Wenn generative KI-Modelle eingesetzt werden können, um auf der Grundlage der knappen verfügbaren Trainingsdaten ähnliche Bilder zu erzeugen, können wir möglicherweise alle nachgelagerten KI-Modelle verbessern, die für die Diagnose verwendet werden können.


Generative adversarische Modelle (GANs) haben als erste Aufmerksamkeit erregt, indem sie medizinische Trainingsdaten mit qualitativ hochwertigen KI-generierten Bildern anreicherten und damit den Grundstein für weitere revolutionäre Strategien für eine Vielzahl von Aufgaben der pathologischen Bildanalyse legten (Barragán-Montero et al. 2023; Suganyadevi et al. 2022). Solche Augmentierungstechniken durch GANs stießen jedoch aufgrund der begrenzten Qualität und Vielfalt auf ein instabiles Training (Kazerouni, et al. 2023). 

Diffusionsmodelle haben sich bei der Bilderzeugung als effizienter erwiesen als GANs (Dhariwal und Nicol 2021). Diese Modelle wurden zur Erzeugung von Bildern verwendet, um Datenknappheit zu bekämpfen (Müller-Franzes et al., 2021; Pinaya et al., 2022; Kazerouni et al., 2023). Es wurden auch Modelle entwickelt, die nicht nur synthetische Daten aus knappen realen Daten erzeugen, sondern auch Texteingaben zur Verbesserung der Qualität begleiten. Kidder integrierte das Stable Diffusion Framework, ein Bildsynthesemodul mit latenten Diffusionsmodellen (Rombach et al. 2021), mit DreamBooth, einem Text-zu-Bild-Diffusionsmodell (Ruiz et al. 2022), um synthetische medizinische MRT- und Röntgenbilder zu erstellen (Kidder, 2024). 



Links: A. Synthetische MRT-Bilder von Meningiom-Tumoren, die mit dem Kidder-Modell erzeugt wurden. B. Synthetische MRT-Bilder von Gliomtumoren, die mit demselben Modell erzeugt wurden. Rechts: A. Tatsächliche Trainingsdaten aus der CDD-CESM-Datenbank (Kahled et al., 2022). B. Synthetische Mammographie-Bilder, die von Kidders Modell auf einer Text-zu-Bild-Basis erzeugt wurden.


Es wurde gezeigt, dass Kidders Modell synthetische medizinische Bilder viel schneller erzeugt als GANs, wobei GANs 24-26 Stunden zum Trainieren benötigten, während Kidders modifiziertes DreamBooth-Modell nur 10-15 Minuten benötigte. Solche Diffusionsmodelle mit Texteingabe können nicht nur Diagnosemodelle trainieren, die sonst nicht trainierbar wären, sondern auch die wirtschaftlichen Kosten für die Sammlung von Trainingsdaten und die ethischen Bedenken bei der Verwendung sensibler persönlicher Daten für das Modelltraining verringern. 

 
 
REFERENZEN
  1. Simon, J. B. (2024). More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory. ICLR 2024 Poster. https://doi.org/https://openreview.net/forum?id=OdpIjS0vkO
  2. Kazerouni A, Aghdam EK, Heidari M et al.  Diffusion models in medical imaging: a comprehensive survey. Med Image Anal 2023;88:102846.
  3. Barragán-Montero A, Javaid U, Valdés G et al.  Artificial intelligence and machine learning for medical imaging: a technology review. Phys Med 2021;83:242–56.
  4. Suganyadevi S, Seethalakshmi V, Balasamy K. A review on deep learning in medical image analysis. Int J Multimed Inf Retr 2022;11:19–38.
  5. Dhariwal P, Nichol A. Diffusion models beat gans on image synthesis. Advances in Neural Information Processing Systems 2021;34:8780–94.
  6. Müller-Franzes G, Niehues J, Khader F et al.  Diffusion probabilistic models beat GANs on medical images. arXiv:2212.07501 [eess.IV], 2022.
  7. Pinaya WHL, Tudosiu P, Dafflon J et al.  Brain imaging generation with latent diffusion models. arXiv:2209.07162 [eess.IV], 2022.
  8. Kazerouni A, Aghdam E, Heidari M et al.  Diffusion models for medical image analysis: a comprehensive survey. arXiv:2210.08402 [cs.CV], 2023.
  9. Rombach R, Blattmann A, Lorenz D et al.  High-resolution image synthesis with latent diffusion models. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2021:10674–85.
  10. Ruiz N, Li Y, Jampani V et al.  Fine tuning text-to-image diffusion models for subject-driven generation. arXiv:2208.12242 [cs.CV], 2022
  11. Khaled R, Helal M, Alfarghaly O et al.  Categorized contrast enhanced mammography dataset for diagnostic and artificial intelligence research. Sci Data 2022;9:122.
Marketing

 

Wie wirksam sind KI-generierte Bilder im Marketing?

Im digitalen Zeitalter verlagert sich das Marketing von weiter Verbreitung zu personalisierten und präzisen zielgerichteten Strategien (Kim et al. 2022). Personalisiertes Marketing zielt darauf ab, die individuellen Bedürfnisse einzelner Kunden zu erkennen und darauf einzugehen, wozu maßgeschneiderte E-Mails, maßgeschneiderte Websites über Cookies, Empfehlungsmaschinen, Engagement in sozialen Medien und fein abgestimmte Kundendienstleistungen gehören (Dodds, 2024). ) Indem sie ihren Kunden und Kundinnen personalisierte Botschaften übermitteln, können Unternehmen tiefere Bindungen schaffen, das Engagement, die Konversionsraten und die Loyalität erhöhen (Hovespian, 2024). Im Zentrum der massiven Personalisierung im modernen Marketing stehen KI-Systeme, die über das hinausgehen, was die traditionelle Datenanalyse zu bieten hat, und die übermäßige Mengen an Nutzerdaten verarbeiten, um die Strategie in Echtzeit an das Verhalten jedes Nutzendens anzupassen (Akilkahkov, 2024).

Genative KI-Modelle haben sich sicherlich ihren Platz in der Branche verdient, indem sie realistische Bilder erstellen, die die Kunden und Kundinnen ansprechen, unter anderem in den Medien (Davenport und Mittal, 2022.), aber wie effektiv sind sie? In einer Studie der TU München wurden mehr als zehntausend Bilder mit sieben modernen generativen Text-Bild-Modellen erzeugt und 254.400 menschliche Bewertungen erfasst (Hartmann et al., 2024.) Die Befragten gaben vier der sieben getesteten Modelle höhere Werte für die „Bildqualität“, wobei alle sieben Modelle deutlich besser abschnitten als von Menschen erstellte Bilder. Berücksichtigt man außerdem den enormen Kostenunterschied zwischen menschlichen Freiberuflern oder Freiberuflerinnen und generativen Modellen, wird der klare Vorteil der Modelle noch deutlicher: Die Forschenden mussten 100 USD zahlen, um ein einziges Bild von menschlichen Freiberuflern oder Freiberuflerinnen zu erhalten, während mit demselben Budget 2.500 Bilder von DALL-E 3, dem generativen Modell mit den höchsten Punktzahlen, gewonnen werden konnten. 


Bilderzeugungsprozess der Studie von Hartmann et al. Ein von Menschen gemachtes Bild wurde in einen Text umgewandelt, der dann in generative Text-Bild-Modelle eingespeist wurde, um synthetische Bilder zu erzeugen.

Ethische Bedenken bleiben jedoch bestehen, da solche generativen KI-Modelle dazu verwendet werden können, Urheberrechte an Trainingsbildern zu umgehen (Avey, 2023). Wenn wir beispielsweise den oben beschriebenen Ansatz verfolgen, um aus einem urheberrechtlich geschützten Bild eine Textdarstellung zu erstellen, den Text mithilfe von generativen Text-Bild-Modellen in ein anderes Bild umzuwandeln und das synthetische Bild für Marketingzwecke zu verwenden, wäre der Urheber oder die Urheberin des Originalbildes praktisch nie in der Lage, den Missbrauch seiner oder ihrer kreativen Arbeit zu erkennen. Avey warnt davor, dass die meisten KI-Modelle Bilder aus dem Internet nehmen, ohne sich darum zu kümmern, ob sie urheberrechtlich geschützt sind oder nicht, wie es in dem obengenannten Bericht heißt.  

 

REFERENZEN
  1. Kim, J. (Jay), Kim, T., Wojdynski, B. W., & Jun, H. (2022). Getting a little too personal? positive and negative effects of personalized advertising on online multitaskers. Telematics and Informatics, 71, 101831. https://doi.org/10.1016/j.tele.2022.101831 

  2. Dodds, D. (2024, August 13). Council post: Personalization in marketing: Beyond the buzzword to business impact. Forbes. https://www.forbes.com/councils/forbesagencycouncil/2024/02/27/personalization-in-marketing-beyond-the-buzzword-to-business-impact/ 
  3. Hovsepian, T. (2024, August 13). Council post: The power of personalization: Crafting tailored marketing campaigns for maximum impact. Forbes. https://www.forbes.com/councils/forbesbusinesscouncil/2024/07/22/the-power-of-personalization-crafting-tailored-marketing-campaigns-for-maximum-impact/ 
  4. Akilkhanov, A. (2024, August 13). Council post: AI and personalization in marketing. Forbes. https://www.forbes.com/councils/forbescommunicationscouncil/2024/01/05/ai-and-personalization-in-marketing/ 
  5. Davenport, T. H., & Mittal, N. (2023, August 15). How generative AI is changing creative work. Harvard Business Review. https://hbr.org/2022/11/how-generative-ai-is-changing-creative-work 
  6. Hartmann, J., Exner, Y., & Domdey, S. (2024). The power of Generative Marketing: Can generative AI create Superhuman Visual Marketing Content? International Journal of Research in Marketing. https://doi.org/10.1016/j.ijresmar.2024.09.002 
  7. Avey, C. (2023, December 11). Ethical pros and cons of AI Image Generation. IEEE Computer Society. https://www.computer.org/publications/tech-news/community-voices/ethics-of-ai-image-generation
 
Geologie

 

Wie können synthetische Bilder aus generativen KI-Modellen bei der Modellierung heterogener Gesteine helfen?

Porenstruktur bezeichnet die allgemeinen Merkmale der Größe, Form, Verteilung und Konnektivität des Porenraums (Jiang et al., 2007). Das Verständnis ihrer Merkmale und ihrer Auswirkungen auf die physikalischen Eigenschaften von Gesteinen, wie Durchlässigkeit, Elastizität und elektrische Eigenschaften, ist in vielen Teilbereichen der Geowissenschaften und der Erdöltechnik wichtig (Zhu et al., 2022). Es bleibt jedoch eine Herausforderung, die Komplexität der Porenstruktur genau zu charakterisieren (Li et al., 2022), was zumindest teilweise auf die Heterogenität der Gesteine zurückzuführen ist, die eine visuelle Untersuchung in Laborexperimenten schwierig macht (Sun et al., 2017). 

Die digitale Gesteinsmodellierung ist in der Geologie eine wichtige Methode zur Untersuchung der Mikrostruktur und der Eigenschaften von Gesteinen (Fang et al., 2020), die sich in die folgenden Teilbereiche unterteilen lässt:

  • Die digitale Gesteinsphysik (DRP) kann zur direkten Quantifizierung der strukturellen und morphologischen Parameter von Gesteinen und zur Vorhersage der Fließeigenschaften auf der Porenskala verwendet werden (Sadeghnejad et al., 2021). Die DRP und ihre zerstörungsfreien Methoden sind bereits vor drei Jahrzehnten zu einer wichtigen ergänzenden Methode bei der Charakterisierung von Lagerstätten geworden (Blunt und King, 1991).
  • Digitale Gesteinschemie (DRC) wird angewandt, wenn Veränderungen in der Porenstruktur durch die Interaktion mit gelösten Stoffen verursacht werden (Sadeghnejad et al., 2021).
  • Digitale Gesteinsbiologie (DRB) wird angewandt, wenn Veränderungen der Porenstruktur durch mikrobielle Aktivitäten verursacht werden (Sadeghnejad et al., 2021).

Dichter Sandstein ist ein heterogenes Gestein mit vielfältigen mineralischen Zusammensetzungen und multiskaligen Porenstrukturen, das sich daher nur schwer mit digitaler Gesteinsmodellierung analysieren lässt (Chi et al., 2024).  Chi et al. veröffentlichten 2024 ein aufmerksamkeitsgesteuertes generatives adversariales Netzwerk, das Röntgen-Mikro-Computertomographie (Micro-CT) und Rasterelektronenmikroskop-Bilder (SEM) kombiniert, um großflächige, hochpräzise Gesteinsbilder zu erstellen. Mikro-CT-Bilder sind zerstörungsfrei und billiger, haben aber eine geringere Auflösung als die zerstörerischen und teuren SEM-Bilder. Ziel war es, ein Modell zu entwickeln, mit dem aus niedrig aufgelösten Mikro-CT-Bildern hochauflösende synthetische REM-Bilder erstellt werden können. Sie waren zwar nicht die ersten, die generative KI-Modelle zur Erstellung hochwertiger Gesteinsbilder für die digitale Gesteinsphysik verwendeten (Niu et al., 2020; Chen et al. 2020), und auch nicht die ersten, die Mikro-CT-Bilder und REM-Bilder mit generativen KI-Modellen kombinierten (Liu und Mukerji, 2022), aber sie befassten sich auch mit den Mikrostrukturen, einschließlich der Tonmorphologie. 



Schematische Darstellung der aufmerksamkeitsbasierten GAN-Architektur von Chi et al..

Das Modell basiert auf CycleGAN, wobei das Modell darauf abzielt, Bilder mit niedriger Auflösung (LR) auf eine hohe Auflösung (HR) zu verbessern, während der Gegner versucht, die Auflösung wieder auf LR zu reduzieren (Zhu et al., 2017). Die Autoren verwendeten zwei Maskengeneratoren, einen Inhalts- und einen Aufmerksamkeitsmaskengenerator, bei denen durch die Zusammenführung von Aufmerksamkeitsmasken mit ihren jeweiligen Inhaltsmasken und deren Anwendung auf niedrig aufgelöste Bilder höher aufgelöste Bilder erzielt werden können. Die Masken haben die Aufgabe, alle Teile des Bildes mit Ausnahme des kleinen Teils, auf den wir die Aufmerksamkeit des Modells lenken wollen, zu maskieren, wodurch das Modell in der Lage ist, mehrere charakteristische Merkmale verschiedener Gesteinskomponenten gleichzeitig zu lernen. 


Vergleich zwischen Originalbildern und synthetischen Bildern. Die vorhergesagten REM-Bilder in (b) zeigen, dass das Modell in der Lage war, aus niedrig aufgelösten Mikro-CT-Bildern hochauflösende REM-Bilder zu erzeugen, die den realen REM-Bildern sehr ähnlich sind. 


Wie von den Autoren angestrebt, konnte das Modell synthetische hochauflösende REM-Bilder erzeugen, in denen die Mikroporen und Spurenminerale erhalten bleiben. Ein solches Modell, das in der Lage ist, hochauflösende synthetische Bilder auf der Grundlage niedrig aufgelöster realer Bilder zu erstellen, dürfte eine wirksame technische Unterstützung für die digitale Gesteinsmodellierung, die Charakterisierung der Porenstruktur und die numerische Simulation der Gesteinsphysik bieten.



REFERENZEN
  1. Jiang Z, Wu K, Couples G, Van Dijke MIJ, Sorbie KS, Ma J (2007) Efficient extraction of networks from three-dimensional porous media. Water Resour Res 43(12):W12S03
  2. Zhu LQ, Ma YS, Cai JC, Zhang CM, Wu SG, Zhou XQ (2022) Key factors of marine shale conductivity in southern China-Part II: the influence of pore system and the development direction of shale gas saturation models. J Petrol Sci Eng 209:109516
  3. Li, Xiaobin, Wei, W., Wang, L., Ding, P., Zhu, L., & Cai, J. (2022). A new method for evaluating the pore structure complexity of digital rocks based on the relative value of fractal dimension. Marine and Petroleum Geology, 141, 105694. https://doi.org/10.1016/j.marpetgeo.2022.105694 
  4. Sun, H., Vega, S., & Tao, G. (2017). Analysis of heterogeneity and permeability anisotropy in carbonate rock samples using Digital Rock Physics. Journal of Petroleum Science and Engineering, 156, 419–429. https://doi.org/10.1016/j.petrol.2017.06.002 
  5. Fang, H.-H., Sang, S.-X., & Liu, S.-Q. (2020). Three-dimensional spatial structure of the macro-pores and flow simulation in anthracite coal based on X-ray μ-CT scanning data. Petroleum Science, 17(5), 1221–1236. https://doi.org/10.1007/s12182-020-00485-3
  6. Sadeghnejad, S., Enzmann, F., & Kersten, M. (2021). Digital Rock Physics, Chemistry, and biology: Challenges and prospects of pore-scale modelling approach. Applied Geochemistry, 131, 105028. https://doi.org/10.1016/j.apgeochem.2021.105028 
  7. Blunt, M., and King, P. (1991). Relative Permeabilities from Two- and Three-Dimensional Pore-Scale Network Modelling. Transport Porous Med. 6, 407–433. doi:10.1007/bf00136349
  8. Chi, P., Sun, J., Yan, W., & Luo, X. (2024). Multiscale fusion of tight sandstone digital rocks using attention-guided generative Adversarial Network. Marine and Petroleum Geology, 160, 106647. https://doi.org/10.1016/j.marpetgeo.2023.106647 
  9. Niu, Y., Wang, Y. D., Mostaghimi, P., Swietojanski, P., & Armstrong, R. T. (2020). An innovative application of generative adversarial networks for physically accurate rock images with an unprecedented field of view. Geophysical Research Letters, 47(23). https://doi.org/10.1029/2020gl089029 
  10. Chen, H., He, X., Teng, Q., Sheriff, R. E., Feng, J., & Xiong, S. (2020). Super-resolution of real-world rock microcomputed tomography images using cycle-consistent generative adversarial networks. Physical Review E, 101(2). https://doi.org/10.1103/physreve.101.023305 
  11. Liu, M., & Mukerji, T. (2022). Multiscale fusion of digital rock images based on deep generative adversarial networks. Geophysical Research Letters, 49(9). https://doi.org/10.1029/2022gl098342 
  12. Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. 2017 IEEE International Conference on Computer Vision (ICCV), 2242–2251. https://doi.org/10.1109/iccv.2017.244 
 
 

!     Denken Sie darüber nach, welche weiteren Aufgaben in Ihrem Fachgebiet durch generative KI-Modelle unterstützt werden könnten, und schreiben Sie diese auf eine neue Taskcard.