Как BigQuery использует данные, хранящиеся в облаке Google?

Ребята, очень простой вопрос, но не в состоянии расшифровать, пожалуйста, помогите мне.

Q1: Когда мы создаем таблицу bigquery с помощью приведенной ниже команды, данные находятся в том же облачном хранилище?

bq load --source_format=CSV 'market.cust$20170101' \
  gs://sp2040/raw/cards/cust/20170101/20170101_cust.csv

Q2: скажем, мой директор данных gs://sp2040/raw/cards/cust/ для файла клиента. Структура таблицы определена следующим образом:

bq mk --time_partitioning_type=DAY market.cust \ 
  custid:string,grp:integer,odate:string

Каждый день я создаю новый каталог в корзине, например, 20170101,20170102..для загрузки нового набора данных. Итак, после загрузки данных в это ведро мне нужно запускать запросы ниже.

D1:

bq load --source_format=CSV 'market.cust$20170101' \
  gs://sp2040/raw/cards/cust/20170101/20170101_cust.csv

D2:

bq load --source_format=CSV 'market.cust$20170102' \ 
  gs://sp2040/raw/cards/cust/20170102/20170102_cust.csv

google-cloud-platform google-cloud-storage google-bigquery

05.10.2017

У вас низкая ставка. Важно по SO - можно vote on answer. Проголосуйте за полезные ответы. ... Вы можете узнать, что делать, когда кто-то ответит на ваш вопрос - stackoverflow.com/help/someone-answers. Следуя этим простым правилам, вы увеличиваете свой собственный рейтинг репутации и в то же время сохраняете у нас мотивацию отвечать на ваши вопросы: o) пожалуйста, подумайте! 18.10.2017

Ответы:

Когда мы создаем таблицу bigquery с помощью команды ниже, данные находятся в том же облачном хранилище?

Неа! BigQuery не использует облачное хранилище для хранения данных (если это не объединенная таблица, связанная с облачным хранилищем).
Установите флажок BigQuery Under the Hood с Тино Терешко и Джорданом Тигани - вам понравится

Нужно ли мне запускать запросы ниже

да. вам нужно загрузить эти файлы в BigQuery, чтобы вы могли запрашивать данные

05.10.2017

1. Итак, мой входной набор данных сначала находится в CloudStorage. 2 Когда я запускаю команду ниже, копия данных перемещается в bigquery? Я прав? .bq load --source_format = CSV 'market.cust $ 20170102' \ gs: //sp2040/raw/cards/cust/20170102/20170102_cust.csv 05.10.2017

не перемещается - загружается в bigquery. так что ваш исходный файл останется нетронутым - и если он вам больше не нужен - вы можете удалить его 05.10.2017

хорошо спасибо. Пожалуйста, потерпите ... Основные вопросы ... Значит, все мои запросы будут относиться к данным, находящимся в облачном хранилище? Это внешняя таблица? Я вижу, что есть собственные таблицы: таблицы, поддерживаемые собственным хранилищем BigQuery? Теперь мой вопрос: как вы можете загрузить файл CSV в собственную таблицу с форматом хранения BIGQuery? 05.10.2017

ваши D1 и D2 фактически загружают данные в BigQuery. итак, приведенные таблицы ЯВЛЯЮТСЯ собственными таблицами: o) 05.10.2017

Ok. Вариант 1: загрузка bq --source_format = CSV 'market.cust' 20170101_cust.csv Вариант 2: загрузка bq --source_format = CSV 'market.cust' gs: //sp2040/raw/cards/cust/20170101/20170101_cust.csv .. Случай -1: Мои исходные данные находятся в локальном каталоге (область посадки Lynux), а во-вторых, я переместил их в облачное хранилище. Видите ли вы разницу в производительности запросов? 05.10.2017

загрузка в собственные таблицы и запросы - это два полностью отдельных друг от друга элемента. как только вы поместили свои данные в таблицу bigquery - от предполагаемого запроса не имеет значения, как вы их загрузили! Я рекомендую вам прочитать документацию (cloud.google.com/bigquery/docs / loading-data-cloud-storage) перед тем, как задать следующий вопрос (ы). тем временем подумайте хотя бы о голосовании за ответ, если вы думаете, что это каким-то образом помогло вам приблизиться к тому, что вам нужно 05.10.2017

Да, вам нужно будет загрузить данные в BigQuery с помощью этих команд.

Однако есть несколько альтернатив

PubSub и Dataflow: вы можете настроить PubSub для наблюдения за вашим облачным хранилищем и создания уведомлений при добавлении файлов, как описано здесь. Затем у вас может быть задание Dataflow, которое импортирует файл в BigQuery. Документация по DataFlow
Внешние таблицы BigQuery: BigQuery может запрашивать файлы cvs, которые хранятся в облачном хранилище, без импорта данных, как описано здесь. Существует поддержка подстановочных знаков для имен файлов, поэтому ее можно настроить один раз. Производительность может быть не такой хорошей, как при прямом хранении элементов в BigQuery.

05.10.2017

Спасибо за ответ. Мои файлы данных поступают из внешнего источника (когда-то ежедневно не транслировались), поэтому я должен хранить их в CloudStorage для архивирования. Затем мне нужно выполнить загрузку в Bigquery для анализа. Для этого я должен использовать команду Load для загрузки данных в Bigquery. Как только данные будут размещены в обоих местах: одно в облачном хранилище, а другое - в Bigquery? 05.10.2017

Новые материалы

Коллекции публикаций по глубокому обучению

Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita

Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2

1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -

1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame

Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии

КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning AI React Software Engineering Nodejs Front End Development Java Algorithms Computer Science Typescript Data Tech Development CSS HTML Programming Languages Startup Productivity Python Programming Tutorial Angular Neural Networks Computer Vision Open Source Javascript Tips AWS Education Learning NLP Mlops