PyData Global - Das sind die wichtigsten Data- und AI-Themen

Die PyData Global findet am 6.-8.12.2023 statt. Hier werden die wichtigsten Data- und AI-Themen praktisch mit Python und vielen weiteren Open-Source-Technologien vermittelt. Wir geben einen Überblick.

Table of Contents

Die PyData Global bringt Data Engineers, Scientists und Practioneers zusammen

Key Insights / TL;DR

Was: Die PyData Global ist eine Konferenz zu den wichtigsten Data- und AI-Themen rund um Python und vielen weiteren Open-Source-Technologien
Wann: 6.-8.12.2023
Wo: Online
Für wen: Data Engineers, Python-Developer, Data Scientists, Data Analysten, LLM-Developer, KI-Enthusiasten und Interessierte mit Tech-Hintergrund
Kosten: 0-170$ (man zahlt, soviel man kann)
Tickets und Programm: Zur Website: PyData Global

Überblick über die wichtigsten Data-Technologien und Themen

Wer sich im Unternehmen oder privat mit Data, Python und AI beschäftigt, braucht einen Überblick über viele Spezialisierungen. Hier kommt die PyData Global gerade recht, denn sie deckt tatsächlich ein riesiges Spektrum der dafür wichtigen Felder ab. Besonders hilfreich ist, dass der Schwerpunkt auf Open-Source-Technologien liegt, so dass man hier keine Kosten-Einstiegshürden hat.

Die Schwerpunkte der PyData sind:

Data Engineering
Machine Learning
Data Visualization
Large Language Models
Generelle Data-Themen Anwendungsgebiete

Wir haben euch die Schwerpunkte in praktische Themengebiete aufgeteilt und die wichtigsten Technologien zusammengefasst und verlinkt. So könnt ihr, auch ohne schon auf der Konferenz gewesen zu sein lernen, was die heissen Themen sind.

Die besten kostenlosen AI-Tools

Alle KI-Tools ansehen

Thema 1: Data

Datenverarbeitung und Leistungsoptimierung
Hier dreht sich alles um effiziente Datenverarbeitung und Optimierung. Die Sessions beleuchten die neuesten Entwicklungen in beliebten Frameworks wie Pandas, Dask, und Polars. Es werden Lösungen rund um riesige Datensätze, GPU-Beschleunigung und Python-Workflows zur Datenverarbeitung gezeigt.

Sessions:

All Them Data Engines: Pandas, Spark, Dask, Polars and more – Data Munging with Python circa 2023
An Introduction to Pandas 2, Polars, and DuckDB
Pandas 2, Dask or Polars? Quickly tackling larger data on a single machine
Data of an Unusual Size: A practical guide to analysis and interactive visualization of massive datasets
Optimize first, parallelize second: a better path to faster data processing
cudf.pandas: The Zero Code Change GPU Accelerator for Pandas
We rewrote tsfresh in Polars and why you should too

Innovative Anwendungen und Datenhandling-Techniken
Von der Verbesserung von Datenkompression mit Btune und Blosc2 bis hin zu den neuesten Entwicklungen in FastAPI für Data Engineers und Scientists, bieten diese Sessions Einblicke in spannende neue Tools und Methoden zur Datenverarbeitung. Zudem wird mit LanceDB eine Vector-Datenbank für Text/Bild/Audio/Multimodal-KIs vorgestellt.

Sessions:

Btune: Making Compression Better
Blosc2: Fast And Flexible Handling Of N-Dimensional and Sparse Datasets
How I used Polars to build functime, a next gen ML forecasting library
Arrow revolution in pandas and Dask
API development for data analysts/scientists with FastApi
LanceDB: lightweight billion-scale vector search for multimodal AI
Build AI-powered data pipeline without vector databases

Datenanalyse in speziellen Kontexten
In diesem Bereich geht es um die Anwendung von Datenanalyse in spezifischen und manchmal unkonventionellen Kontexten. Die Themen reichen von Zeitzone-Handling mit Polars bis hin zu Klimadatenanalyse mit Xclim. Besonders interessant sind auch die Einblicke in Streaming-Daten und serverlose Systeme, die neue Horizonte in der Datenpersistenz und -verarbeitung eröffnen.

Sessions:

Polars and time zones: everything you need to know
How to build a data pipeline without data: Synthetic data generation and testing with Python
Data Tales from an Open Source Research Team
Real-Time Revolution: Kickstarting Your Journey in Streaming Data
Blazing fast I/O of data in the cloud with Daft Dataframes
High speed data from the Lakehouse to DataFrames with Apache Arrow
Production Data to the Model: “Are You Getting My Drift?”
Unified batch and stream processing in python
Data Harvest: Unlocking Insights with Python Web Scraping
Data persistence with consistency and performance in a truly serverless system
IID Got You Down? Resample Time Series Like A Pro
Kùzu: A Graph Database Management System for Python Graph Data Science
Xclim: Climate Data Processing and Analysis for Everyone

Thema 2: Machine Learning

Experimentmanagement und Bewertung im Machine Learning
Der Fokus liegt hier auf der Verwaltung und Bewertung von ML-Experimenten. Sessions befassen sich mit der Anwendung von Versionierungswerkzeugen wie Git für ML, Probleme beim Modelltraining und ML-Toolboxen wie sktime. Es geht um die Balance zwischen technischer Raffinesse und pragmatischer Anwendbarkeit im ML-Bereich.

Sessions:

Version Control and Beyond: Leveraging Git for ML Experiment Management
Paradoxes in model training and evaluation under constraints
sktime – python toolbox for time series: new features 2023 – advanced pipelines, probabilistic forecasting, parallelism support, composable classifiers and distances, reproducibility features

Innovative Ansätze und Werkzeuge im Machine Learning
Diese Kategorie zeigt innovative Methoden und Tools im ML. Themen umfassen die Verbesserung der Datenqualität, die Anwendung von Gaussian Processes, die Optimierung von scikit-learn Klassifikatoren, und die Konzeption von ML-Systemen für die Echtzeitwelt. Besonders interessant ist auch die Integration von lokalen LLMs und Code-Snippets in JupyterLab.

Sessions:

Improving Open Data Quality using Python
But what is a Gaussian process? Regression while knowing how certain you are
Enhancing your JupyterLab Developer Experience with Local LLMs and Code Snippets
Get the best from your scikit-learn classifier: trusted probabilties and optimal binary decision
Unravelling Hidden Technical Debt in ML: A Pythonic Approach to Robust Systems
DDataflow: An open-source end to end testing from machine learning pipelines
Event-Driven Data Science: Reconceptualizing Machine Learning for the Real-time World

Herausforderungen im Machine Learning
Hier werden High-End Anwendungsbereiche und Herausforderungen im ML untersucht. Themen reichen von der Entwicklung robuster KI-Pipelines mit Hugging Face und Kedro bis hin zu Frameworks für das „Machine Unlearning“. Weitere Highlights sind die Maximierung der GPU-Nutzung für das Modelltraining und das Verständnis und die Überbrückung von klassischen ML-Pipelines und LLMs.

Sessions:

Who needs ChatGPT? Rock solid AI pipelines with Hugging Face and Kedro
Customizing and Evaluating LLMs, an Ops Perspective
How can a learnt ML model unlearn something: Framework for „Machine Unlearning“
Maximize GPU Utilization for Model Training
Real Time Machine Learning
Tricking Neural Networks : Explore Adversarial Attacks
Bridging Classic ML Pipelines with the World of LLMs
Compute anything with Metaflow
Full-stack Machine Learning and Generative AI for Data Scientists
Predictive survival analysis with scikit-learn, scikit-survival and lifelines
sktime – the saga. Trials and tribulations of a charitable, openly governed open source project
Modeling Extreme Events with PyMC
Introduction to Machine Learning Pipelines: How to Prevent Data Leakage and Build Efficient Workflows

Thema 3: General Track

Erweiterung und Optimierung von Werkzeugen und Methoden
In diesem Bereich liegt der Fokus auf der Erweiterung und Optimierung bestehender Werkzeuge und Methoden. Von der vollen Ausschöpfung der Potenziale von Jupyter Notebooks bis hin zum Entwickeln von On-Demand-Logistik-Apps mit Python, es geht um innovative Anwendungen und Verbesserungen in der Handhabung von Daten und Software. Themen wie der Kampf gegen Geldwäsche mit Python und das Leben in einer, Achtung: _lognormalen_ Welt bieten spannende Einblicke in spezielle Fachwelten.

Sessions:

Unlock the Full Potential of Jupyter Notebooks
When Design Thinking Meets Opensource
More like this: monitoring recommender systems in production
Data Observability is Key: A Hands-on Comparison of Open Source Data Catalog Tools
Fighting Money Laundering with Python and Open Source Software
Cloud UX for Data People
Extremes, outliers, and GOATS: on life in a lognormal world
Map of Open-Source Science (MOSS)
VocalPy: a core Python package for acoustic communication research
Intake 2
The Hell, According to a Data Scientist
Order up! How do I deliver it? Build on-demand logistics apps with Python, OR-Tools, and DecisionOps
Getting better at Pokémon using data, Python, and ChatGPT.

Integration und Anwendung neuer Technologien
Diese Kategorie zeigt, wie neue Technologien in bestehende Systeme integriert und effizient genutzt werden können. Es geht um das Brückenbauen zwischen Theorie und Praxis in Investmentportfolios, die Verbesserung der Laufzeitreproduzierbarkeit im Python-Ökosystem und die Anwendung von Julia in der Dezentralisierung. Auch interessant ist die Nutzung von Python für interaktive Datenwissenschaften und die Entwicklung von Workflows für akustische Fischereierhebungen.

Sessions:

Python-Driven Portfolios: Bridging Theory and Practice for Efficient Investments
FawltyDeps: Finding undeclared and unused dependencies in your notebooks and projects
The Internet’s Best Experiment Yet
Xorbits Inference: Model Serving Made Easy
Introduction to Using Julia for Decentralization by a Quant
HPC in the cloud
Architecting Data Tools: A Roadmap for Turning Theory and Data Projects into Python Packages
Ensuring Runtime Reproducibility in the Python Ecosystem
Prefect Workflows for Scaling Acoustic Fisheries Survey Pipelines
Collaborate with your team using data science notebooks
Python as a Hackable Language for Interactive Data Science
Quarto dashboards
Keras (3) for the Curious and Creative
Hands-On Network Science
NonlinearSolve.jl: how compiler smarts can help improve the performance of numerical methods

Thema 4: Visualization

Entwicklung interaktiver Datenvisualisierungs-Apps
Im Zentrum steht die Entwicklung von interaktiven und Datenvisualisierungs-Apps mit guter Usability. Die Sessions behandeln die Mobile-App-Erstellung bis hin zu komplexen Dashboards und interaktiven Netzwerkgrafiken. Technologien wie Streamlit und Shiny stehen dabei im Vordergrund, die das Erstellen von animierten Berichten und Dashboards vereinfachen. Ästhetik und Funktionalität müssen zusammenspielen, damit wir die Daten verständlich darstellen können, egal wie komplex die Zusammenhänge auch sein mögen.

Sessions:

Build a Data Visualization App For Your Phone
Building Interactive, Animated Reports and Dashboards in Streamlit with ipyvizzu
Solara simplifies building complex dashboards.
From raw data to interactive data app in an hour: Powered by Python
Building an Interactive Network Graph to Understand Communities

Datenexploration vereinfachen
Hier wird die wichtige Datenexploration durch visuelle Mittel verbessert. Neue Ansätze zeigen, wie man komplexe Datenmengen intuitiv und interaktiv erforschen kann. Dafür müssen komplexe Datenbeziehungen verständlich visualisieret werden. Sessions wie das Verständnis der reaktiven Ausführung in Shiny oder das Bauen interaktiver Netzwerkgrafiken bieten praktische Einblicke in die fortgeschrittenen Anwendungen von Visualisierungstechnologien.

Sessions:

Empowering Data Exploration: Creating Interactive, Animated Reports in Streamlit with ipyvizzu
Understanding reactive execution in Shiny

Thema 5: Large Language Models

Darauf haben wir gewartet. Natürlich gibt es keine Data/AI-Konferenz ohne LLMs.

Entwicklung und Einsatz von Large Language Models (LLMs)
Dieser Track konzentriert sich auf die praktische Anwendung und Entwicklung von Large Language Models (LLMs). Von der Erstellung kontextbezogener Chatbots bis hin zum Training großmaßstäblicher Modelle mit PyTorch, diese Sessions decken ein breites Spektrum ab. Es geht darum, die Grenzen von LLMs zu erweitern und sie effektiv in der Praxis einzusetzen. Themen wie die Beschleunigung der Dokumentendeduplizierung für das Training von LLMs und die Produktionisierung von Open-Source-LLMs bieten tiefe Einblicke in die aktuellen Herausforderungen und Lösungen in diesem schnell wachsenden Bereich.

Sessions:

Building Contextual ChatBot using LLMs, Vector Databases and Python
Accelerating fuzzy document deduplication to improve LLM training with RAPIDS and Dask
LLMs: Beyond the Hype – A Practical Journey to Scale
Productionizing Open Source LLMs
Leveraging open-source LLMs for production
From RAGs to riches: Build an AI document interrogation app in 30 mins
Training large scale models using PyTorch

Erweiterte Anwendungen und Geschäftsnutzen von LLMs
In dieser Kategorie liegt der Fokus auf den erweiterten Anwendungen von LLMs und ihrem potenziellen Geschäftsnutzen. Es werden Ansätze vorgestellt, um LLMs für spezifische Anwendungen wie die Verbesserung von Search Engines und Learning-to-Rank-Modellen zu nutzen. Zudem ermöglichen generative AI-Workflows bessere Ergebnisse im Unternehmen.

Sessions:

Building Learning to Rank models for search using Large Language Models
Using Large Language Models to improve your Search Engine
Orchestrating Generative AI Workflows to Deliver Business Value

Rechtlicher Hinweis: Diese Website setzt Affiliate-Links zum Amazon-Partnerprogramm ein. Der Betreiber der Website verdient durch qualifizierte Käufe eine Provision. Dadurch finanzieren wir die Kosten dieser Website, wie z.B. für Server-Hosting und weitere Ausgaben.

Fazit: Die Data-Themen der Zukunft

Mit dieser beeindruckenden Auswahl an Sessions, die von der Feinheiten der Datenverarbeitung bis hin zu neuartigen Anwendungen von Large Language Models reichen, stellt diese Konferenz eine wahre Schatztruhe des Wissens dar. Die Sessions bieten Einblicke in die Spitze der technologischen Entwicklung. Zudem wird hier eine inspirierende Gemeinschaft von Gleichgesinnten zusammengebracht, die gemeinsam die Zukunft von Data & künstlicher Intelligenz mitgestalten.

Zur Website: PyData Global

Youtube: Videos zur PyData 2022

Ralf Schukay

Ralf Schukay liebt Analytics, Python & alles mit Daten. In seiner Freizeit spielt er Synthesizer (Nord, Novation), joggt und fährt Gravel Bike. Er arbeitet als Teamlead Analytics & Conversion mit einem fitten und netten Team in der Berliner Digitalagentur >MAI mediaworx<

PyData Global – Das sind die wichtigsten Data- und AI-Themen

Die PyData Global bringt Data Engineers, Scientists und Practioneers zusammen

Überblick über die wichtigsten Data-Technologien und Themen

Thema 1: Data

Thema 2: Machine Learning

Thema 3: General Track

Thema 4: Visualization

Thema 5: Large Language Models

Fazit: Die Data-Themen der Zukunft

Related Posts: