Перед тем как подключить Azure Databricks к Azure Storage, нужно подготовить инфраструктуру хранилища. Создай Azure Storage Account с приватным контейнером для своих файлов данных. Загрузи свой blob-файл, потом сгенерируй SAS Token из контекстного меню. Сохрани этот токен в безопасном месте — он тебе понадобится для аутентификации.
Разверни Azure Databricks workspace, выбрав подписку, группу ресурсов, предпочитаемый регион и ценовой уровень. Пройди процесс валидации и разверни workspace. После завершения развёртывания перейди к ресурсу и нажми Launch Workspace, чтобы получить доступ к интерфейсу Databricks.
В левой панели навигации создай новый кластер с понятным названием и выбери Standard в качестве режима кластера. Запусти кластер и подожди, пока он не перейдёт в рабочее состояние. Затем создай новый notebook, кликнув правой кнопкой на workspace, выбрав create → notebook, задав ему подходящее имя и выбрав Scala в качестве языка программирования.
Выполни следующий код в своём ноутбуке, чтобы смонтировать storage account:
val containerName = "your-container-name"
val storageAccountName = "your-storage-account"
val sas = "your-sas-token"
val config = "fs.azure.sas." + containerName + "." + storageAccountName + ".blob.core.windows.net"
dbutils.fs.mount(
source = "wasbs://" + containerName + "@" + storageAccountName + ".blob.core.windows.net/",
extraConfigs = Map(config -> sas))
val mydf = spark.read.option("header","true").option("inferSchema", "true").csv("/mnt/myfile")
display(mydf)
Если данные отображаются успешно, значит ты успешно настроил подключение между Azure Databricks и своим storage account.
SAS Token должен быть сгенерирован из контекстного меню Azure Storage Account и безопасно сохранён перед подключением к Azure Databricks.
Новый — ещё не проверен сообществом
Вы