Como ler arquivos XML diretamente do disco em um trabalho paralelo de DataStage
resposta
o estágio de entrada XML deve ter uma única coluna como entrada. É possível configurar o estágio de entrada XML para aceitar todo o conteúdo de um documento XML ou um caminho de arquivo ( ou URL) de onde o conteúdo real do documento pode ser lido. Configurar o estágio de entrada XML para aceitar o caminho do arquivo é a melhor opção para trabalhos paralelos. O estágio de entrada XML abrirá o arquivo como seu fluxo de entrada e lerá o arquivo diretamente do disco sem alterá-lo de forma alguma. Esse método é mais rápido, consome menos recursos e é muito menos propenso a erros do que usar um estágio de arquivo sequencial.
o método path requer uma maneira de gerar o caminho completo para o arquivo (ou arquivos) que será passado para o estágio de Entrada XML. O estágio de fonte externa faz um excelente trabalho fornecendo essa capacidade. O estágio de origem externa irá desembolsar e executar qualquer programa executável e, em seguida, redirecionar a saída padrão desse programa para o trabalho. Para obter uma lista dos caminhos do arquivo, podemos fazer com que o estágio de origem externa execute o programa ‘find’, que geralmente é incluído em um sistema operacional Unix ou Linux. Na plataforma Windows, este programa também é fornecido como parte do MKS Toolkit, que é instalado automaticamente pela instalação do DataStage.
Aqui está um exemplo de como encontrar o programa pode produzir o caminho completo para documentos XML como saída:
localizar /dados/entrada -name “*.xml ” – imprimir
executar o programa com esses argumentos produzirá uma lista de caminhos completos para cada arquivo que termina com o.extensão xml no diretório/data / input ou em qualquer um de seus subdiretórios. A saída terá um caminho de arquivo por linha, encerrado com um novo caractere de linha.