Annisa, Nadya (2014) Analisis performa pengolahan data terdistribusi menggunakan cloudera hadoop pada data genbank tidak terkompresi. Diploma thesis, Universitas Al Azhar Indonesia.
Text (UAI)
- Published Version
Available under License Creative Commons Attribution Non-commercial. Download (0B) |
Abstract
Pengolahan terdistribusi data genbank menggunakan framework Hadoop dengan tujuan mengetahui efektifitas pengolahan data genbank khususnya pada pencarian sequences dengan data masukan yang berukuran besar, telah dilakukan penelitian dengan kondisi file terkompresi. Melihat karakteristik hasil penelitian sebelumnya, dengan data besar dan terkompresi, kali ini mencoba pendekatan yang berbeda, yaitu dengan metode data tidak terkompresi. Asumsi awal adalah penyebaran data lebih banyak dalam satu kali proses, sehingga hasil yang diharapkan adalah waktu pencarian yang jauh lebih singkat. Data tidak terkompresi yang memiliki jumlah map yang lebih banyak, tidak mengalami percepatan yang begitu ekstrim seperti data terkompresi. Pada proses dengan 1 host, waktu yang dibutuhkan untuk pencarian dengan besar data 22GB tersebut adalah di angka 1293,6 detik. Peran ini kemudian dibantu pada saat dilakukan penambahan 1 host, dimana terjadi percepatan paling banyak yaitu sebanyak 298.2 detik menuju angka 995.4 detik. Pada data tidak terkompresi dengan kemampuan pemisahan data (splitable) dengan menggunakan blocksize, baik 128 MB, 64 MB dan 32 MB, menunjukan percepatan yang sedikit namun stabil dimulai dari 2 host hingga 7 host, sehingga diasumsikan bahwa penambahan jumlah host akan berdampak sangat jauh bagi percepatan waktu pencarian. Dengan menggunakan Cloudera Manager, hal ini dapat sangat terbantu, dimana proses instalasi, monitoring host, dan kondisi cluster dapat sangat terbantu
Item Type: | Thesis (Diploma) |
---|---|
Additional Information: | Identifier : IF 14 110 Language : Indonesia Copyright : Attribution 4.0. International |
Subjects: | Library of Congress Subject Areas > Skripsi Library of Congress Subject Areas > Skripsi Library of Congress Subject Areas > Database searching Library of Congress Subject Areas > Data processing Library of Congress Subject Areas > Genbank |
Divisions: | Universitas Al-Azhar Indonesia (UAI) > Fakultas Sains dan Teknologi (FST) > Teknik Informatika |
Depositing User: | Rahman Pujianto |
Date Deposited: | 19 Jul 2018 05:16 |
Last Modified: | 31 Mar 2020 02:24 |
URI: | http://eprints.uai.ac.id/id/eprint/1056 |
Actions (login required)
View Item |