Für die Vorverarbeitung von Input-Daten in TensorFlow/Keras gibt es mehrere hilfreiche Python-Bibliotheken. Hier sind einige der wichtigsten:
1. NumPy
- Einsatzbereich: Mathematische Operationen, Array-Manipulation
- Installation: pip install numpy
- Beispiel: Normalisierung
1 2 3 | import numpy as np x = np.array([[ 1 , 2 , 3 ], [ 4 , 5 , 6 ]]) x_normalized = x / np. max (x) # Normalisierung |
2. Pandas
- Einsatzbereich: Verarbeitung von tabellarischen Daten
- Installation: pip install pandas
- Beispiel: Ersetzen von fehlenden Werten
1 2 3 | import pandas as pd df = pd.read_csv( "daten.csv" ) df.fillna(df.mean(), inplace = True ) # Fehlende Werte ersetzen |
3. Scikit-learn (sklearn)
- Einsatzbereich: Skalierung, Encoding, Feature Selection
- Installation: pip install scikit-learn
- Beispiel (Min-Max-Scaling):
1 2 3 | from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() x_scaled = scaler.fit_transform(x) |
4. TensorFlow Data API
- Einsatzbereich: Effiziente Verarbeitung großer Datensätze
- Installation: Bereits in TensorFlow enthalten
- Beispiel: Durchmischen von Daten und Prefetching für Leistungsoptimierung
1 2 3 | import tensorflow as tf dataset = tf.data.Dataset.from_tensor_slices((x_train, y_train)) dataset = dataset.shuffle( 10000 ).batch( 32 ).prefetch(tf.data.experimental.AUTOTUNE) |
5. OpenCV
- Einsatzbereich: Verarbeitung von Bilddaten
- Installation: pip install opencv-python
- Beispiel (Bild laden und skalieren):
1 2 3 | import cv2 img = cv2.imread( "image.jpg" ) img_resized = cv2.resize(img, ( 224 , 224 )) |
6. NLTK & spaCy
- Einsatzbereich: Verarbeitung von Textdaten (Natural Language Processing)
- Installation: pip install nltk spacy
- Beispiel (Tokenisierung mit spaCy):
1 2 3 4 | import spacy nlp = spacy.load( "en_core_web_sm" ) text = "TensorFlow is great!" tokens = [token.text for token in nlp(text)] |
7. PIL (Pillow)
- Einsatzbereich: Verarbeitung von Bildern
- Installation: pip install pillow
- Beispiel:
1 2 3 | from PIL import Image img = Image. open ( "image.jpg" ) img = img.resize(( 224 , 224 )) |