Arhn - архитектура программирования

Как BigQuery использует данные, хранящиеся в облаке Google?

Ребята, очень простой вопрос, но не в состоянии расшифровать, пожалуйста, помогите мне.

Q1: Когда мы создаем таблицу bigquery с помощью приведенной ниже команды, данные находятся в том же облачном хранилище?

bq load --source_format=CSV 'market.cust$20170101' \
  gs://sp2040/raw/cards/cust/20170101/20170101_cust.csv

Q2: скажем, мой директор данных gs://sp2040/raw/cards/cust/ для файла клиента. Структура таблицы определена следующим образом:

bq mk --time_partitioning_type=DAY market.cust \ 
  custid:string,grp:integer,odate:string

Каждый день я создаю новый каталог в корзине, например, 20170101,20170102..для загрузки нового набора данных. Итак, после загрузки данных в это ведро мне нужно запускать запросы ниже.

D1:

bq load --source_format=CSV 'market.cust$20170101' \
  gs://sp2040/raw/cards/cust/20170101/20170101_cust.csv

D2:

bq load --source_format=CSV 'market.cust$20170102' \ 
  gs://sp2040/raw/cards/cust/20170102/20170102_cust.csv

  • У вас низкая ставка. Важно по SO - можно vote on answer. Проголосуйте за полезные ответы. ... Вы можете узнать, что делать, когда кто-то ответит на ваш вопрос - stackoverflow.com/help/someone-answers. Следуя этим простым правилам, вы увеличиваете свой собственный рейтинг репутации и в то же время сохраняете у нас мотивацию отвечать на ваши вопросы: o) пожалуйста, подумайте! 18.10.2017

Ответы:


1

Когда мы создаем таблицу bigquery с помощью команды ниже, данные находятся в том же облачном хранилище?

Неа! BigQuery не использует облачное хранилище для хранения данных (если это не объединенная таблица, связанная с облачным хранилищем).
Установите флажок BigQuery Under the Hood с Тино Терешко и Джорданом Тигани - вам понравится

Нужно ли мне запускать запросы ниже

да. вам нужно загрузить эти файлы в BigQuery, чтобы вы могли запрашивать данные

05.10.2017
  • 1. Итак, мой входной набор данных сначала находится в CloudStorage. 2 Когда я запускаю команду ниже, копия данных перемещается в bigquery? Я прав? .bq load --source_format = CSV 'market.cust $ 20170102' \ gs: //sp2040/raw/cards/cust/20170102/20170102_cust.csv 05.10.2017
  • не перемещается - загружается в bigquery. так что ваш исходный файл останется нетронутым - и если он вам больше не нужен - вы можете удалить его 05.10.2017
  • хорошо спасибо. Пожалуйста, потерпите ... Основные вопросы ... Значит, все мои запросы будут относиться к данным, находящимся в облачном хранилище? Это внешняя таблица? Я вижу, что есть собственные таблицы: таблицы, поддерживаемые собственным хранилищем BigQuery? Теперь мой вопрос: как вы можете загрузить файл CSV в собственную таблицу с форматом хранения BIGQuery? 05.10.2017
  • ваши D1 и D2 фактически загружают данные в BigQuery. итак, приведенные таблицы ЯВЛЯЮТСЯ собственными таблицами: o) 05.10.2017
  • Ok. Вариант 1: загрузка bq --source_format = CSV 'market.cust' 20170101_cust.csv Вариант 2: загрузка bq --source_format = CSV 'market.cust' gs: //sp2040/raw/cards/cust/20170101/20170101_cust.csv .. Случай -1: Мои исходные данные находятся в локальном каталоге (область посадки Lynux), а во-вторых, я переместил их в облачное хранилище. Видите ли вы разницу в производительности запросов? 05.10.2017
  • загрузка в собственные таблицы и запросы - это два полностью отдельных друг от друга элемента. как только вы поместили свои данные в таблицу bigquery - от предполагаемого запроса не имеет значения, как вы их загрузили! Я рекомендую вам прочитать документацию (cloud.google.com/bigquery/docs / loading-data-cloud-storage) перед тем, как задать следующий вопрос (ы). тем временем подумайте хотя бы о голосовании за ответ, если вы думаете, что это каким-то образом помогло вам приблизиться к тому, что вам нужно 05.10.2017

  • 2

    Да, вам нужно будет загрузить данные в BigQuery с помощью этих команд.

    Однако есть несколько альтернатив

    • PubSub и Dataflow: вы можете настроить PubSub для наблюдения за вашим облачным хранилищем и создания уведомлений при добавлении файлов, как описано здесь. Затем у вас может быть задание Dataflow, которое импортирует файл в BigQuery. Документация по DataFlow

    • Внешние таблицы BigQuery: BigQuery может запрашивать файлы cvs, которые хранятся в облачном хранилище, без импорта данных, как описано здесь. Существует поддержка подстановочных знаков для имен файлов, поэтому ее можно настроить один раз. Производительность может быть не такой хорошей, как при прямом хранении элементов в BigQuery.

    05.10.2017
  • Спасибо за ответ. Мои файлы данных поступают из внешнего источника (когда-то ежедневно не транслировались), поэтому я должен хранить их в CloudStorage для архивирования. Затем мне нужно выполнить загрузку в Bigquery для анализа. Для этого я должен использовать команду Load для загрузки данных в Bigquery. Как только данные будут размещены в обоих местах: одно в облачном хранилище, а другое - в Bigquery? 05.10.2017
  • Новые материалы

    Коллекции публикаций по глубокому обучению
    Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

    Представляем: Pepita
    Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

    Советы по коду Laravel #2
    1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

    Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
    Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

    3 способа решить квадратное уравнение (3-й мой любимый) -
    1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

    Создание VR-миров с A-Frame
    Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

    Демистификация рекурсии
    КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..