Pada kesempatan yang lalu telah kita telah membahas Big Data dan Data Science.
Yang mana Big Data adalah istilah khusus yang digunakan untuk data yang melebihi kapasitas pemrosesan database konvensional karena berjumlah terlalu besar, bergerak terlalu cepat, dan tidak sesuai dengan kemampuan structural dari arsitektur database tradisional.
Sehingga kita harus melakukan suatu proses dengan sistem terintegrasi yang mampu menangani Big Data yang bernama Big Data Analytics. Sedangkan data science adalah studi tentang data mentah dan unstructured data yang mengolahnya melalui keahlian.
Menggunakan keahlian seperti statistika dan matematika, pemrograman atau IT, pengolahan data, analisis data dan pengetahuan yang luas tentang berbagai bidang.
Untuk membantu dalam menangani hal tersebut, membutuhkan tools pendukung, baik tools untuk big data maupun data science.
Oleh karena itu, pada kesempatan kali ini kita akan bahas mengenai Tools untuk Platform Big Data Analytics dan Data Scientists. Yuk kita simak artikel berikut ini untuk mengetahui lebih jauh lagi.
Tools untuk Platform Big Data Analytics
Terdapat banyak tools yang bisa platform big data analytics gunakan, yaitu:
Apache Hadoop
Kita tidak bisa berbicara tentang big data tanpa menyebut Hadoop. Hadoop adalah kerangka kerja yang memungkinkan pemrosesan terdistribusi dari kumpulan data besar pada seluruh kelompok komputer menggunakan model pemrograman sederhana dengan model pemrograman MapReduce.
Cloudera



Cloudera adalah platform modern untuk manajemen dan analisis data yang menyediakan platform Apache Hadoop untuk membantu dunia bisnis memecahkan masalah-masalah paling menantang terkait data, khususnya yang berjumlah besar.
Kalau mau menganalogikan, Cloudera mirip seperti Red Hat. Sama-sama berbasiskan tekhnologi Hadoop, tapi dengan distro Cloudera.
Apache Cassandra
Mengutip dari medium.com, Cassandra atau lengkap APACHE CASSANDRA adalah salah satu produk open source untuk menajemen database yang Apache distribusikan.
Sehingga Apache Cassandra ini sangat scalable (dapat mengukurnya) dan merancangnya untuk mengelola data terstruktur.
Data terstruktur yang berkapasitas sangat besar (Big Data) yang tersebar pada banyak server. Cassandra merupakan salah satu implementasi dari NoSQL (Not Only SQL) seperti mongoDB .
Lumify
Altamira memiliki Lumify, yang terkenal sebagai teknologi keamanan nasional. Lumify merupakan open-source integrasi big data, analisis, dan platform visualisasi.
Fitur utamanya meliputi pencarian teks lengkap, visualisasi grafik 2D dan 3D, tata letak otomatis, analisis link antara entitas grafik, dan integrasi dengan sistem pemetaan.
Selain itu fitur utama dari Lumify adalah analisis geospasial, analisis multimedia, serta kolaborasi waktu nyata melalui serangkaian proyek atau ruang kerja.
Talend
Produk Big Data Integration meliputi:
- Open Studio for Big Data sangat bagus untuk membuat prototipe pipeline data besar.
- Big Data Platform merupakan platform yang memiliki lisensi berlangganan berbasis pengguna. Komponen dan konektornya adalah MapReduce dan Spark. Ini menyediakan dukungan Web, email, dan telepon.
- Real-time big data platform merupakan platform yang memiliki lisensi berlangganan berbasis pengguna dengan komponen dan konektornya termasuk streaming Spark, machine learning, dan IoT.
Tools untuk Data Scientists
Terdapat banyak tools yang bisa berguna untuk data scientists, yaitu sebagai berikut:
Microsoft Excel
Microsoft Excel adalah aplikasi pengolah data yang menggunakan spreadsheet untuk manajemen data dan perintah.
Tidak bisa kita pungkiri, hampir semua perusahaan menggunakan Microsoft Excel untuk melakukan olah data.
Dalam hal ilmu data, Microsoft Excel berpartisipasi untuk melakukan analisis data skala kecil menjadi lebih mudah.
Kemudian terdapat beberapa fitur yang Ms Excel berikan seperti tabel pivot, add-ins, team, dan macro. Fitur-fitur tersebut merupakan fitur yang sangat berguna untuk melakukan analisis data.
Selain itu banyak formula-formula pendukung seperti financial, statistical, dan engineering yang dapat mempermudah melakukan perhitungan terhadap data menggunakan metode-metode tertentu.
SAS (Statistical Analysis System)
Mengutip dari advernesia.com, SAS adalah software yang telah sebagian besar negara gunakan untuk melakukan analisis statistika dan perencanaan keuangan.
Indonesia merupakan salah satu negara yang telah menjadi pelanggan dan partner setia dari SAS, khususnya Direktorat Jenderal Perbendaharaan Kementerian Keuangan RI.
SAS menjadi pilihan terbaik untuk melakukan analisis big data karena pengelolaan resource hardware seperti prosesor dan RAM sangat efisien.
Sehingga pada tahun 2015, SAS memperoleh peringkat satu “Magic Quadrant” dalam hal eksekusi komputasi pemodelan dan data mining.
Selain itu SAS mempunyai kompatibilitas terhadap software big data yang terbilang lebih muda, seperti Hadoop, Pig dan Hive. Namun, dari segi harga software SAS masih menjadi software termahal di jajaran software analisis data.
Apache Spark
Mengutip dari kepo.co, Apache Spark adalah engine (perangkat lunak) analisis terpadu super cepat untuk memproses data dalam skala besar; meliputi Big Data dan machine learning.
Selain itu Apache Spark memiliki algoritma yang berbeda dengan Map/Reduce, tetapi dapat berjalan diatas Hadoop melalui YARN.
Secara lebih detailnya, Apache Spark dapat didefinisikan sebagai engine untuk memproses data dalam skala besar secara in-memory, lengkap dengan API pengembangan yang elegan dan ekspresif.
Hal itu guna memudahkan para pekerja data dalam mengeksekusi pekerjaan-pekerjaan yang membutuhkan perulangan akses yang cepat terhadap data yang diproses. Seperti halnya streaming, machine learning, maupun SQL, secara efisien.
Sehingga inti dari Spark adalah distributed execution engine, dan API Java, Scala maupun Python disediakan sebagai platform untuk mengembangkan aplikasi ETL (Extract, Transform, Load) terdistribusi.
Kemudian, library perangkat lunak tambahan, yang dibangun diatas inti (core)-nya, memfasilitasi berbagai jenis pekerjaan yang berhubungan dengan streaming, SQL, dan machine learning.
Tableau
Tableau adalah alat visualisasi data luar biasa yang baru-baru ini diakuisisi oleh Salesforce, salah satu CRM perusahaan terkemuka di dunia.
Berfokus pada penyediaan representasi data yang jelas dalam waktu singkat, Tableau dapat membantu pengambilan keputusan yang lebih cepat.
Namun itu dilakukan dengan memanfaatkan online analytical processing cubes, database cloud, spreadsheet, dan database relasional.
Setelah menyimak penjelasan pada artikel ini, mungkin anda tertarik untuk mempelajari salah satunya. Demikian artikel singkat mengenai Tools untuk Platform Big Data Analytics dan Data Scientists. Semoga bermanfaat.