std:: mblen
|
헤더 파일에 정의됨
<cstdlib>
|
||
|
int
mblen
(
const
char
*
s,
std::
size_t
n
)
;
|
||
첫 번째 바이트가 s 로 가리켜지는 멀티바이트 문자의 크기를 바이트 단위로 결정합니다.
만약 s 가 널 포인터인 경우, 전역 변환 상태를 재설정하고 시프트 시퀀스 사용 여부를 결정합니다.
이 함수는 std:: mbtowc ( nullptr, s, n ) 호출과 동등하지만, std::mbtowc 의 변환 상태는 영향을 받지 않습니다.
목차 |
참고 사항
mblen
에 대한 각 호출은 내부 전역 변환 상태(이 함수만이 알고 있는
std::mbstate_t
타입의 정적 객체)를 갱신합니다. 멀티바이트 인코딩이 시프트 상태를 사용하는 경우, 역추적이나 다중 스캔을 피하도록 주의해야 합니다. 어떤 경우든 여러 스레드가 동기화 없이
mblen
을 호출해서는 안 됩니다: 대신
std::mbrlen
을 사용할 수 있습니다.
매개변수
| s | - | 멀티바이트 문자에 대한 포인터 |
| n | - | 검사할 수 있는 s의 바이트 수 제한 |
반환값
만약 s 가 널 포인터가 아닌 경우, 멀티바이트 문자에 포함된 바이트 수를 반환하거나 - 1 를 반환합니다(만약 s 가 가리키는 첫 번째 바이트들이 유효한 멀티바이트 문자를 구성하지 않는 경우). 또는 0 를 반환합니다(만약 s 가 널 문자 ' \0 ' 를 가리키는 경우).
만약 s 가 null 포인터인 경우, 내부 변환 상태를 초기 shift 상태를 나타내도록 재설정하고 현재 멀티바이트 인코딩이 상태 독립적일 경우(shift sequence를 사용하지 않음) 0 을 반환하며, 현재 멀티바이트 인코딩이 상태 의존적일 경우(shift sequence를 사용함) 0이 아닌 값을 반환합니다.
예제
#include <clocale> #include <cstdlib> #include <iomanip> #include <iostream> #include <stdexcept> #include <string_view> // 멀티바이트 문자열의 문자 수는 mblen() 결과들의 합입니다 // 참고: 더 간단한 접근법은 std::mbstowcs(nullptr, s.c_str(), s.size())입니다 std::size_t strlen_mb(const std::string_view s) { std::mblen(nullptr, 0); // 변환 상태 초기화 std::size_t result = 0; const char* ptr = s.data(); for (const char* const end = ptr + s.size(); ptr < end; ++result) { const int next = std::mblen(ptr, end - ptr); if (next == -1) throw std::runtime_error("strlen_mb(): conversion error"); ptr += next; } return result; } void dump_bytes(const std::string_view str) { std::cout << std::hex << std::uppercase << std::setfill('0'); for (unsigned char c : str) std::cout << std::setw(2) << static_cast<int>(c) << ' '; std::cout << std::dec << '\n'; } int main() { // mblen()이 UTF-8 멀티바이트 인코딩으로 동작하도록 허용 std::setlocale(LC_ALL, "en_US.utf8"); // UTF-8 네로우 멀티바이트 인코딩 const std::string_view str = "z\u00df\u6c34\U0001f34c"; // 또는 u8"zß水🍌" std::cout << std::quoted(str) << " is " << strlen_mb(str) << " characters, but as much as " << str.size() << " bytes: "; dump_bytes(str); }
가능한 출력:
"zß水🍌" is 4 characters, but as much as 10 bytes: 7A C3 9F E6 B0 B4 F0 9F 8D 8C
참고 항목
|
다음 멀티바이트 문자를 와이드 문자로 변환
(함수) |
|
|
상태를 고려하여 다음 멀티바이트 문자의 바이트 수를 반환
(함수) |
|
|
C documentation
for
mblen
|
|