HadoopとTalend Studio
ITスペシャリストが通常「ビッグデータ」と呼ぶのは、従来のデータ管理ツールでは処理できない膨大で複雑なデータセットのことです。このように膨大なデータが生じるのには、さまざまな理由があります。たとえば、自動的に生成されたデータストリーム(レポート、ログ、カメラフッテージなど)や、顧客の動向を詳しく分析した結果(消費データ)、科学的な調査(該当する例としては大型ハドロン衝突型加速器などが挙げられる)、またはさまざまなデータソースの結合などが挙げられます。
これらのデータリポジトリーはペタバイトやエクサバイト規模に肥大化することが多く、従来のデータベースシステムは処理能力が限られているため分析を行うのは困難です。ビッグデータの分析を行うには、演算能力を数千台規模のコンピューターに分散し、分析した結果を中央のコンピューターに転送する膨大な並列環境が必要です。
Hadoopのオープンソースプラットフォームは、ビッグデータの分析を行う主要なフレームワークとして登場しました。この分散ファイルシステムでは、情報をいくつかのデータブロックに分割し、ネットワーク内の複数のシステム(Hadoopクラスター)で処理します。Hadoopは、演算能力を分散化することで、可用性と冗長性も高まります。「マスターノード」では、ファイルストレージと要求を処理します。
Hadoopは、ビッグデータを処理するうえで非常に強力なコンピューティングプラットフォームです。外部の要求を受け入れ、クラスターの中にある個々のコンピューターに分散化し、個々のノードで並列実行できます。その結果は、中央に送り返して分析できます。
ただし、データアナリストがHadoopの利点を活用するには、データをHadoopにロードし、その後、このオープンソースシステムからデータを抽出するための方法が必要です。その方法を提供するのがTalend Studioです。
Talend Studioはグラフィック開発環境で簡単に使えるため、複雑なコードの習得や記述を行わずにビッグデータのソースとターゲットとのインタラクションが可能になります。ビッグデータの接続を設定すると、基盤となるコードが自動的に生成され、サービスや実行可能なジョブ、またはスタンドアロンのジョブとしてデプロイし、HDFS、HCatalog、HBase、Sqoop、Hiveなどビッグデータのクラスター上でネイティブに実行できます。
Talend のビッグデータソリューションは、すべての主要なビッグデータプラットフォームへの包括的なサポートを提供しています。Talendのビッグデータコンポーネントは、主流のビッグデータのHadoopディストリビューションであるCloudera、Greenplum、Hortonworks、MapRなどと連携して動作します。 さらにTalendでは、Greenplum、Netezza、Teradata、Verticaなどの主流のアプライアンスベンダーの多様なビッグデータプラットフォームをネイティブサポートしています。