Pandas, Python’da veri manipülasyonu ve veri analizi için kullanılan popüler bir kütüphanedir. Pandas, veri işleme ve analiz için yüksek performanslı, kullanımı kolay veri yapıları ve araçlar sağlar.
- DataFrame: Pandas’ın en önemli veri yapısıdır. DataFrame, satır ve sütunlardan oluşan bir tabloyu temsil eder. Veri setlerini CSV, Excel, SQL veritabanları gibi çeşitli kaynaklardan DataFrame olarak okuyabilirsiniz.
- Series: DataFrame’in sütunları veya tek boyutlu bir veri dizisidir. DataFrame’i oluşturan temel veri birimleridir.
DataFrame, etiketli satırlar ve sütunlardan oluşan iki boyutlu bir veri yapısıdır. Series ise tek boyutlu bir veri dizisidir ve DataFrame’in sütunları veya tek bir sütununu temsil eder.
import pandas as pd # DataFrame oluşturma data = {'Name': ['John', 'Anna', 'Peter', 'Linda'], 'Age': [25, 30, 35, 40], 'City': ['New York', 'Paris', 'Berlin', 'London']} df = pd.DataFrame(data) print("DataFrame:") print(df) # Series oluşturma s = pd.Series([10, 20, 30, 40, 50]) print("\nSeries:") print(s)
Veri Okuma ve Yazma
:Pandas, CSV dosyaları, Excel dosyaları, SQL veritabanları, JSON, HTML ve diğer birçok veri kaynağından veri okuyabilir ve bu verileri bu formatlarda yazabilir.
Pandas, read_csv()
, read_excel()
, read_sql()
, read_json()
gibi işlevlerle çeşitli veri kaynaklarından veri okuyabilir ve to_csv()
, to_excel()
, to_sql()
gibi işlevlerle veriyi farklı formatlarda yazabilir.
# CSV dosyasından veri okuma df_csv = pd.read_csv('data.csv') # Excel dosyasına veri yazma df.to_excel('data.xlsx', index=False)
- Veri Seçme ve Filtreleme: DataFrame içindeki belirli verilere erişmek, sütunları seçmek, satırları filtrelemek, koşullara göre veriye erişmek gibi işlemleri kolayca yapabilirsiniz. Pandas, etiket veya konum bazlı indeksleme ile veriye erişmek için
.loc[]
ve.iloc[]
özelliklerini kullanır. Ayrıca, belirli koşulları sağlayan verileri filtrelemek için boolean dizilerini de kullanabilirsiniz. - Veri Temizleme ve Düzenleme: Eksik verileri işleme, veri türlerini dönüştürme, veri üzerinde döngülerle işlem yapma gibi veri temizleme ve düzenleme işlemleri için kullanışlı araçlar sunar. Pandas, eksik verileri işleme için
dropna()
,fillna()
, veri dönüştürme içinastype()
,map()
,apply()
gibi işlevler sunar. Ayrıca, veri sütunlarını yeniden adlandırmak, eklemek, silmek veya yeniden dizmek için de işlevler sağlar. - Veri Analizi ve Gruplama: Pandas, veri setlerini analiz etmek için bir dizi istatistiksel işlev sağlar. Ayrıca verileri belirli bir kritere göre gruplamak ve gruplanmış veriler üzerinde işlem yapmak için gruplama işlevlerine sahiptir. Pandas,
mean()
,sum()
,min()
,max()
gibi istatistiksel işlevlerle veri analizi yapabilir. Gruplama için isegroupby()
işlevini kullanır, bu sayede belirli bir sütuna veya sütun kombinasyonuna göre veriyi gruplayabilir ve gruplanmış veri üzerinde istatistiksel işlemler yapabilirsiniz. - Veri Görselleştirme Entegrasyonu: Pandas, verilerinizi görselleştirmek için matplotlib ve diğer görselleştirme kütüphaneleriyle entegre çalışır. Pandas, veri görselleştirmesi için Matplotlib ile entegredir. DataFrame ve Series nesneleri üzerinde
.plot()
yöntemini kullanarak çeşitli grafik türlerini (çizgi grafikleri, bar grafikleri, histogramlar vb.) oluşturabilirsiniz.
# Yaşı 30'dan büyük olanları seçme filtered_df = df[df['Age'] > 30] # Eksik verileri doldurma df_filled = df.fillna(0) # Şehre göre gruplama ve yaş ortalamasını hesaplama city_grouped = df.groupby('City')['Age'].mean() print("Şehre göre yaş ortalaması:") print(city_grouped) # Yaşa göre çizgi grafiği çizme df.plot(x='Name', y='Age', kind='line', title='Age Distribution')
Pandas, veri bilimi ve veri analizi alanında yaygın olarak kullanılan bir araçtır ve Python topluluğu tarafından aktif olarak geliştirilmektedir.