Arhn - архитектура программирования

красивый суп против селена против urllib

Я работаю над проектом веб-автоматизации. Мне нужно иметь возможность извлекать страницы, оценивать данные и иметь возможность взаимодействовать со страницей (например, входить в систему, вводить значения и публиковать сообщения на сайте). В качестве производной от логинов, я думаю, мне понадобится что-то, что позволит мне оставаться в системе с учетом учетных данных (например, хранить учетные данные или файлы cookie).

Я уже использовал библиотеки UrlLib и Requests для извлечения файлов и самих страниц.

Я пытаюсь выбрать лучшую библиотеку Python для этой задачи.

Любые предложения будут очень признательны.

благодарю вас!


  • этот вопрос может быть отклонен, так как он носит открытый характер / основан на мнении. Но, по сути, лучшая библиотека для использования зависит от ваших потребностей. Если вы можете надежно воссоздать HTTP-запросы, используемые для аутентификации логинов, и скорость важна, лучше всего подойдет urllib / requests для выполнения этих HTTP-запросов и beautifulsoup для анализа ответов HTML. В противном случае вам больше всего повезет в Selenium. Дайте мне знать, если вам нужны подробности. 21.03.2019
  • @ n1c9: когда вы говорите: «Если вы можете надежно воссоздать HTTP-запросы, используемые для аутентификации логинов». Вы имеете в виду URL-адрес mail.yahoo.com (а затем вход в систему) или файл cookie (/ auth), уже включенный в запрос URL? 21.03.2019
  • URL-адрес. По сути, вход в систему потребует от вас использования либо объекта requests.Session () (для поддержки одного и того же сеанса, файлов cookie и т. Д. По ряду HTTP-запросов), либо использования Selenium для достижения того же результата. Если вы плохо разбираетесь в HTTP-аутентификации и скорость не вызывает особого беспокойства (т.е. вы не выиграете от улучшения скорости на 500 миллисекунд), я бы порекомендовал Selenium, поскольку он выполняет многие из этих вещей за вас. 21.03.2019
  • Спасибо чувак. Это так же просто использовать как urllib? Сложен ли монтаж? 21.03.2019
  • Установка должна быть простой pip install selenium - сложно реально сравнить ее с urllib, потому что они выполняют разные функции, но, по моему опыту, это довольно удобно, в то время как urllib немного более простой. 22.03.2019

Ответы:


1

@n1c9

Если вы можете надежно воссоздать HTTP-запросы, используемые для аутентификации логинов, и скорость важна, лучше всего подойдет urllib / requests для выполнения этих HTTP-запросов и beautifulsoup для анализа ответов HTML. В противном случае вам больше всего повезет в Selenium. Дайте мне знать, если вам нужны подробности.

Похоже, Selenium - правильный ответ.

22.03.2019
Новые материалы

Коллекции публикаций по глубокому обучению
Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita
Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2
1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -
1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame
Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии
КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..