Come leggere i file XML direttamente dal disco in un lavoro parallelo di DataStage

Risposta

La fase di input XML deve prendere una singola colonna come input. È possibile configurare la fase di input XML per accettare l’intero contenuto di un documento XML o un percorso di file ( o URL) da cui è possibile leggere il contenuto effettivo del documento. La configurazione della fase di input XML per accettare il percorso del file è l’opzione migliore per i lavori paralleli. La fase di input XML aprirà quindi il file come flusso di input e leggerà il file direttamente dal disco senza alterarlo in alcun modo. Questo metodo è più veloce, consuma meno risorse ed è molto meno soggetto a errori rispetto all’utilizzo di una fase di file sequenziale.

Il metodo path richiede un modo per generare il percorso completo del file (o dei file) che verrà quindi passato alla fase di input XML. La fase di origine esterna fa un ottimo lavoro fornendo questa capacità. La fase di origine esterna sborserà ed eseguirà qualsiasi programma eseguibile, quindi reindirizzerà l’output standard di quel programma nel lavoro. Per ottenere un elenco dei percorsi dei file, possiamo far eseguire allo stadio Sorgente esterno il programma ‘find’ che è comunemente incluso con un sistema operativo Unix o Linux. Sulla piattaforma Windows, questo programma viene fornito anche come parte del Toolkit MKS che viene installato automaticamente dall’installazione di DataStage.

Ecco un esempio di come il programma find può produrre il percorso completo dei documenti XML come output:

find / data / input-name “*.xml ” – print

L’esecuzione del programma con questi argomenti produrrà un elenco di percorsi completi per ogni file che termina con il .estensione xml nella directory / data / input o in una qualsiasi delle sue sottodirectory. L’output avrà un percorso di file per riga, terminato con un nuovo carattere di riga.

Leave a Reply

Il tuo indirizzo email non sarà pubblicato.