Arhn - архитектура программирования

Преобразование C-строк из локальной кодировки в UTF8

Я пишу небольшое приложение, в котором я читаю текст с консоли, который затем сохраняется в классической строке char *.
Как это бывает, мне нужно передать его в библиотеку, которая принимает только строки в кодировке UTF-8 . Поскольку консоль Windows использует локальную кодировку, мне нужно преобразовать локальную кодировку в UTF-8.
Если я не ошибаюсь, я мог бы использовать MultiByteToWideChar (..) для кодирования в UTF-16, а затем использовать WideCharToMultiByte (. .) преобразовать в UTF-8.

Однако мне интересно, есть ли способ напрямую преобразовать из локальной кодировки в UTF-8 без использования каких-либо внешних библиотек, поскольку идея преобразования в wchar только для того, чтобы иметь возможность преобразовать обратно в char (кодировка utf-8, но все же) мне это кажется странным.


Ответы:


1

Преобразование из UTF-16 в UTF-8 - чисто механический процесс, но преобразование из локальной кодировки в UTF-16 или UTF-8 связано с некоторыми большими специализированными таблицами поиска. C-runtime просто разворачивается и вызывает WideCharToMultiByte и MultiByteToWideChar для нетривиальных случаев.

Что касается использования UTF-16 в качестве промежуточного этапа, насколько я знаю, здесь нет никакого пути - извините.

Поскольку вы уже подключаетесь к внешней библиотеке для ввода файла, вы можете также подключиться к той же библиотеке, чтобы получить WideCharToMultiByte и MultiByteToWideChar.

Использование c-runtime сделает ваш код повторно компилируемым для других операционных систем (теоретически), но это также добавит накладных расходов между вами и библиотекой, которая в данном случае выполняет всю реальную работу - kernel32.dll.

27.12.2009
  • Было бы просто удобно делать это напрямую. На мой взгляд, имеет значение, если мне нужно выделить память для UTF16-String и выполнить проверку ошибок при двух вызовах функций вместо того, чтобы просто вызывать одну функцию и проверять ее на наличие ошибок. Думаю, это цена, которую вы должны заплатить, пытаясь сохранить совместимость с Unicode :) 27.12.2009

  • 2

    Мир POSIX любит iconv lib именно за это. Он преобразует практически любую кодировку, используя char *.

    27.12.2009
    Новые материалы

    Коллекции публикаций по глубокому обучению
    Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

    Представляем: Pepita
    Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

    Советы по коду Laravel #2
    1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

    Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)
    Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

    3 способа решить квадратное уравнение (3-й мой любимый) -
    1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

    Создание VR-миров с A-Frame
    Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

    Демистификация рекурсии
    КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..