Insight

Mengenal Library Python untuk Data Science

Data science merupakan topik yang sangat hangat dibicarakan belakangan ini dimana sejumlah perusahaan mencari orang yang memiliki kemampuan memadukan statisika dengan ilmu komputer. Pada dasarnya data science memang statistika, hanya saja diperkaya dengan sejumlah teknik dalam ilmu komputer untuk berurusan dengan data yang lebih besar ukurannya dan lebih kompleks strukturnya.

Banyaknya kelebihan pada pemrograman python seperti efisiensi, keterbacaan kode dan kecepatan telah membuat python menjadi bahasa pemrograman yang banyak digunakan oleh para data scientist. Python menjadi pilihan untuk pada data scientist untuk mengembangkan model dan berbagai aplikasi terkait data science.

Karena penggunaannya yang luas, Python memiliki banyak library yang memudahkan para data scientist untuk menyelesaikan tugas-tugas rumit tanpa banyak gangguan pengkodean. Berikut adalah library Python yang paling banyak digunakan untuk data science.

1.    NumPy

NumPy (Numerical Python) adalah salah satu library teratas yang memiliki kegunaan untuk operasi vektor dan matriks. Fiturnya hampir sama dengan MATLAB dalam mengelola array dan array multidimensi. Selain itu dapat juga digunakan dalam menyelesaikan persamaan aljabar linier dan perhitungan matematis lainnya.

Lebih hebatnya, NumPy terintegrasi dengan bahasa pemrograman lain seperti C/C++ dan Fortran. Fleksibilitas perpustakaan NumPy memungkinkannya untuk dengan mudah dan cepat bergabung dengan berbagai database dan tools.

2.    Pandas

Pandas (Python for Data Analysis) adalah library Python yang fokus untuk proses analisis data seperti manipulasi data, persiapan data, dan pembersihan data. Pandas menyediakan struktur data dan fungsi high-level untuk membuat pekerjaan dengan data terstruktur/tabular lebih cepat, mudah, dan ekspresif.

Ada tiga jenis struktur data di library ini:

  • Series: single-dimensional, array homogen
  • DataFrame: two-dimensional dengan kolom yang diketik secara heterogen
  • Panel: three-dimensional, array size-mutable

Pandas memadukan library NumPy yang memiliki kemampuan manipulasi data yang fleksibel dengan database relasional (seperti SQL).

3.    Matplotlib

Matplotlib adalah library Python yang fokus pada visualisasi data seperti membuat plot grafik. Matplotlib dapat digunakan dalam skrip Python, Python dan IPython shell, server aplikasi web, dan beberapa toolkit graphical user interface (GUI) lainnya.

Visualisasi dari matplotlib adalah sebuah gambar grafik yang terdapat satu sumbu atau lebih. Setiap sumbu memiliki sumbu horizontal (x) dan sumbu vertikal (y), dan data yang direpresentasikan menjadi warna dan glyphs seperti marker (contohnya bentuk lingkaran) atau lines (garis) atau poligon.

Sumber

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.