я построил сканирование для страницы, которая имеет только 1 таблицу и уже настроена со столбцами и тому подобным. Довольно прямолинейно. на этом веб-сайте есть 3 разные таблицы, разбитые на случайные ячейки. Мне нужна информация только из первой таблицы. Я создал список необходимой мне информации. Не знаю, как его организовать и запустить, извлекая URL-адреса из CSV-файла.
если я разобью его только на один URL-адрес, я смогу распечатать информацию из лицензии. Но я не могу заставить его работать для нескольких URL-адресов. я чувствую, что я полностью усложняю вещи.
Вот несколько примеров URL-адресов, которые я пытаюсь запустить:
http://search.ccb.state.or.us/search/business_details.aspx?id=221851
http://search.ccb.state.or.us/search/business_details.aspx?id=221852
http://search.ccb.state.or.us/search/business_details.aspx?id=221853
Код весь измучен, но вот что у меня есть
Я ценю любую помощь
import csv
from urllib.request import urlopen
import pandas as pd
from bs4 import BeautifulSoup as BS
from email import encoders
import time
import os
import smtplib
from email.mime.multipart import MIMEMultipart
from email.mime.text import MIMEText
from email.mime.base import MIMEBase
def get_page():
contents = []
with open('OR_urls.csv','r') as csvf:
urls = 'csv.reader(csvf)'
r = requests.get(url)
data = {}
data['biz_info_object'] = soup(id='MainContent_contractornamelabel')[0].text.strip()
data['lic_number_object'] = soup(id='MainContent_licenselabel')[0].text.strip()
data['lic_date_object'] = soup(id='MainContent_datefirstlabel')[0].text.strip()
data['lic_status_object'] = soup(id='MainContent_licensestatuslabel')[0].text.strip()
data['lic_exp_object'] = soup(id='MainContent_licenseexpirelabel')[0].text.strip()
data['biz_address_object'] = soup(id='MainContent_addresslabel')[0].text.strip()
data['biz_phone_object'] = soup(id='MainContent_phonelabel')[0].text.strip()
data['biz_address_object'] = soup(id='MainContent_endorsementlabel')[0].text.strip()
with open('OR_urls.csv','r') as csvf: # Open file in read mode
urls = csv.reader(csvf)
for url in urls:
page = ('get_page')
df1 = pd.read_html(page)
openpyxl
. 24.09.2018