python - 如何使用 Watson Studio 获取 IBM COS Bucket 中的文件列表

Question

我有一个可工作的 Python 脚本，用于合并多个我想移动到 Watson Studio 项目的 xlsx 文件。我当前的代码使用传递给 glob 的路径变量...

path = '/Users/Me/My_Path/*.xlsx' files = glob.glob(path)

由于 Watson Studio 中的凭证特定于单个文件，我如何获取 IBM COS 存储桶中所有文件的列表？我还想知道如何创建文件夹来分隔存储桶中的文件？

score 1 · Accepted Answer

IBM Cloud Object Storage (COS) 中的凭证处于 COS 实例级别，而不是单个文件级别。每个 COS 实例可以有任意数量的存储桶，每个存储桶都包含文件。您可以从 Bluemix 控制台获取 COS 实例的凭证。

https://console.bluemix.net/docs/services/cloud-object-storage/iam/service-credentials.html#service-credentials

您可以使用 boto3 python 包来访问这些文件。 https://boto3.amazonaws.com/v1/documentation/api/latest/index.html

import boto3
s3c = boto3.client('s3', endpoint_url='XXXXXXXXX',aws_access_key_id='XXXXXXXXXXX',aws_secret_access_key='XXXXXXXXXX')
s3.list_objects(Bucket=bucket_name, Prefix=file_path)
s3c.download_file(Filename=filename, Bucket=bucket, Key=objectname)
s3c.upload_file(Filename=filename, Bucket=bucket, Key=objectname)

score 1 · Accepted Answer

Watson Studio 云提供了一个名为project-lib的帮助程序库，用于处理 Cloud Object Storage 实例中的对象。查看此文档以在 Python 中使用该包：https ://dataplatform.cloud.ibm.com/docs/content/analyze-data/project-lib-python.html

对于你的具体问题，get_files()应该做你需要的。这将返回您存储桶中所有文件的列表，然后您可以进行模式匹配以仅保留您需要的内容。基于此过滤列表，您可以迭代并使用列表get_file(file_name)中的每个file_name。

要在存储桶中创建“文件夹”，您需要遵循文件的命名约定来创建“伪文件夹”。例如，如果要创建资产的“数据”文件夹，则应为属于该文件夹的对象的文件名添加前缀data/.

score 1 · Accepted Answer

可能有一种更 Pythonic 的方式来编写它，但这是我使用project-lib根据@Greg Filla 提供的答案编写的代码

files = []  # List to hold data file names

# Get list of all file names in storage bucket
all_files = project.get_files()  # returns list of dictionaries

# Create list of file names to load based on prefix
for f in all_files:
    if f['name'][:3] == DataFile_Prefix: 
        files.append(f['name'])

print ("There are " + str(len(files)) + " data files in the storage bucket.")

python - 如何使用 Watson Studio 获取 IBM COS Bucket 中的文件列表

3 回答 3

Related

Reference