Accéder au contenu principal Passer au contenu complémentaire

Préparer les tables Hive

Procédure

  1. Créez la table Hive dans laquelle vous souhaitez écrire des données. Dans ce scénario, cette table est nommée agg_result et vous pouvez la créer à l'aide de l'instruction suivante dans le tHiveRow : create table agg_result (id int, name string, address string, sum1 string, postal string, state string, capital string, mostpopulouscity string) partitioned by (type string) row format delimited fields terminated by ';' location '/user/ychen/hive/table/agg_result'
    Dans cette instruction, '/user/ychen/hive/table/agg_result' est le répertoire utilisé pour stocker la table créée dans HDFS. Vous devez le remplacer par le répertoire à utiliser dans votre environnement.
    Pour plus d'informations concernant le tHiveRow, consultez tHiveRow.
  2. Créez deux tables d'entrée Hive contenant les colonnes sur lesquelles vous souhaitez effectuer une jointure et que vous souhaitez agréger dans la table Hive de sortie, agg_result. Les instructions à utiliser sont : create table customer (id int, name string, address string, idState int, id2 int, regTime string, registerTime string, sum1 string, sum2 string) row format delimited fields terminated by ';' location '/user/ychen/hive/table/customer' et create table state_city (id int, postal string, state string, capital int, mostpopulouscity string) row format delimited fields terminated by ';' location '/user/ychen/hive/table/state_city'
  3. Utilisez le tHiveRow pour charger les données dans les deux tables d'entrée, customer et state_city. Les instructions à utiliser sont : "LOAD DATA LOCAL INPATH 'C:/tmp/customer.csv' OVERWRITE INTO TABLE customer" et "LOAD DATA LOCAL INPATH 'C:/tmp/State_City.csv' OVERWRITE INTO TABLE state_city"
    Les deux fichiers, customer.csv et State_City.csv, sont deux fichiers locaux créés pour ce scénario. Vous devez créer vos fichiers afin de fournir les données aux tables Hive d'entrée. Le schéma des données de chaque fichier doit être identique à la table correspondante.
    Vous pouvez utiliser le tRowGenerator et le tFileOutputDelimited pour créer facilement les deux fichiers. Pour plus d'informations concernant ces deux composants, consultez tRowGenerator et tFileOutputDelimited.

    Pour plus d'informations, consultez Hive query language manual (en anglais).

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.