Arhn - архитектура программирования

Удалить форматирование из строк

Я пытаюсь проанализировать некоторые данные из Интернета с помощью BeautifulSoup. Пока что я получил нужные мне данные из таблицы, используя следующий код:

def webParsing(canvas):
url='http://www.cmu.edu/dining/hours/index.html'
try:
    page= urllib.urlopen(url)
except:
    print 'Error while opening html file. Please ensure that you',
    print ' have a working internet connection.'
    return
sourceCode=page.read()
soup=BeautifulSoup(sourceCode)
#heading=soup.html.body.div
tableData=soup.table.tbody
parseTable(canvas,tableData)
def parseTable(canvas,tableData):
    canvas.data.hoursOfOperation=dict()
    rowTag='tr'
    colTag='td'
    for row in tableData.find_all(rowTag):
        row_text=[]
        for item in row.find_all(colTag):
            text=item.text.strip()
            row_text.append(text)
        (locations,hoursOpen)=(row_text[0],row_text[1])
        locations=locations.split(',')
        for location in locations:
            canvas.data.hoursOfOperation[location]=hoursOpen
    print canvas.data.hoursOfOperation

Как видите, «элементы» в первом столбце сопоставляются с элементами во втором столбце с помощью словаря. Данные в значительной степени соответствуют тому, что я хотел бы при печати, однако в python в этих строках много форматирования, например '\ n', '\ xe9' или '\ n \ xao'. Есть ли способ удалить все форматирование? Другими словами, удалить все символы новой строки, все, что представляет конкретную кодировку, все, что представляет собой символ с диакритическими знаками, и просто получить строковый литерал? Мне не нужен самый эффективный или безопасный метод, я начинающий программист, поэтому желательно, чтобы самый простой метод был оценен по достоинству! Спасибо!


Ответы:


1

Вот уловка: вы можете закодировать его как ascii, а все остальное удалить:

>>> 'abc\xe9'.encode('ascii', errors='ignore')
b'abc'

Изменить:

Ах, я забыл, что вам не нужны стандартные специальные символы. Используйте вместо этого:

''.join(s for s in string if ord(s)>31 and ord(s)<126)

Надеюсь это поможет!

25.11.2013
  • Удалит ли это символы новой строки? 25.11.2013
  • @ 4d4c - ›Да, будет. 05.04.2020

  • 2

    Из этого вопроса вы можете попробовать что-то вроде этого:

    def removeNonAscii(s): return "".join(i for i in s if ord(i)<126 and ord(i)>31)
    
    25.11.2013
    Новые материалы

    Коллекции публикаций по глубокому обучению
    Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

    Представляем: Pepita
    Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

    Советы по коду Laravel #2
    1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

    Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
    Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

    3 способа решить квадратное уравнение (3-й мой любимый) -
    1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

    Создание VR-миров с A-Frame
    Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

    Демистификация рекурсии
    КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..