문자셋과 인코딩 문서 원본 보기
←
문자셋과 인코딩
둘러보기로 가기
검색하러 가기
문서 편집 권한이 없습니다. 다음 이유를 확인해주세요:
요청한 명령은 다음 권한을 가진 사용자에게 제한됩니다:
사용자
.
이 문서는 편집하거나 다른 명령을 할 수 없도록 보호되어 있습니다.
문서의 원본을 보거나 복사할 수 있습니다.
==문자셋과 인코딩== ===문자셋과 인코딩의 정의=== *문자셋 (charset, Character Set) :하나의 언어권에서 사용하는 언어를 표현하기 위한 모든 문자(활자)의 모임을 문자셋이라고 합니다. 다시 말하면 우리가 얘기하는 언어를 책으로 출판할 때 필요한 문자(활자)를 모두 모은 것이라고 보면 됩니다. 그러므로 부호와 공백 등과 같은 특수 문자도 문자셋에 포함 됩니다. :영어의 경우 알파벳 대소문자와 특수 문자 등으로 간단하게 문자셋을 구성할 수 있지만 한글의 경우 출판에서 가나다 등으로 출판함으로 훨씬 다양한 문자셋을 가지고 또한 한자를 병행해서 사용함으로 문자셋의 범위는 더욱 넓어 집니다. :*추상적인 글자 셋으로 여러개의 인코딩을 가질 수 있습니다. :*MIME 문자셋은 IANA에서 정의하며 인터넷 및 XML 파일에서 사용 합니다. *인코딩 (encoding) :인코딩은 문자셋을 컴퓨터가 이해할 수 있는 바이트와의 매핑 규칙 입니다. 예를 들면 ASCII Code에서 ABC 등은 문자셋이고 A는 코드 65, B는 코드 66 등 바이트 순서와 매핑한 것이 인코딩 입니다. 따라서 문자셋을 어떻게 매핑 하느냐에 따라 하나의 문자셋이 다양한 인코딩을 가질 수 있습니다. :*추상적인 문자셋을 구체적인 bit-stream으로 표기하는 방법 입니다. :*여러가지 문자셋을 동시에 표시할 수 있습니다. :*대부분의 인코딩에서는 대소문자를 구분하지 않습니다. :*대한민국에서 가장 많이 사용하는 인코딩은 "UTF-8", "KSC5601", "ISO-8859-1" 입니다. *문자셋(인코딩)의 예 :*한글 : 8bit KSC5601 (8bit EUC-KR, 7bit ISO-2022-KR, ISO-2022-Int) :*영문 : KSC5636, US-ASCII (둘 간의 차이는 화페 단위 뿐) :*한글+영문 : KSC5861 (EUC-KR), KSC5636 + KSC5601를 모두 포함한다. :*유니코드 : 4byte Unicode < ISO-10646 UCS (ISO-8859-1, UTF-8, UTF-16) 문자셋과 인코딩은 동일한 명칭을 가질 수 있어 서로 혼용하여 사용되는 경우가 많다.<br> EUC-KR은 원래 유닉스용 표준이었는데 인터넷으로 확장되어 사용 됩니다.<br> KSC5601은 인터넷에서 원활한 한글(완성형) 사용을 위하여 정의된 표준 입니다.<br> EUC (Extended UNIX Code), UTF (UCS Transformation format)<br> ===기본 인코딩=== *Windows : 시스템 언어와 관련된 코드 페이지를 따름 **영문 Windows는 CP1252 인코딩을 사용 **한글 Windows는 MS949 인코딩을 사용 *Unix : LANG 환경 변수로 지정된 로케일에 해당하는 인코딩 :*Solaris는 LANG 환경 변수가 ko, ko_KR일 경우 EUC-KR 인코딩을 사용 :*HP는 LANG 환경 변수가 ko_KR, ko_KR.eucKR일 경우 EUC-KR 인코딩을 사용 :*Unix에서 locale -a 명령을 사용하여 LANG 환경 변수에 지정 가능한 문자셋을 확인할 수 있다. :*ksh 환경에서 환경 변수 설정 예 LANG=ko_KR.utf8 export LANG :*csh 환경에서 환경 변수 설정 예 set LANG ko_KR.utf8 setenv LANG ko_KR.utf8 *HTML : ISO-8859-1와 ISO-10646 *XML : UTF-8 *웹 브라우져 : 내부적으로 모두 유니코드로 처리를 한다.<br> *HTTP/1.0 : ISO-8859-1 *HTTP (URL,URI) : US-ASCII, %hexadecimal_code, JavaScript escape() 함수 사용 *Java : 유니코드 2.0 *직렬화된 Java Class : UTF-8 *J2EE : ISO-8859-1 *Oracle : UTF-8 (AL32UTF8), 한국에서는 KSC5601 (KO16KSC5601) [[그림:Charset_sample.png|700px|웹 서비스 표준 인코딩과 포탈에서 필요한 인코딩]]
문자셋과 인코딩
문서로 돌아갑니다.
둘러보기 메뉴
개인 도구
로그인
이름공간
문서
토론
변수
보기
읽기
원본 보기
역사 보기
더 보기
검색
주요 메뉴
오픈소스 컨설팅
오픈소스
오픈소스 라이선스
오픈소스 커뮤니티
오픈소스 종류
오픈소스 현황
오픈소스 한글화
문자셋과 인코딩
Storage
Network
보안
고가용성
모니터링
오픈 API
오픈 서비스
Cloud
BigData
Android
산사랑 노트
둘러보기
인기 문서
최근 수정 문서
모든 문서
모든 분류
임의 문서
위키 사용법
자매 사이트
CMS
오비컨 홈페이지
오비컨 CMS
블로그
데모 - SuiteCRM
산사랑의 Twitter
산사랑의 Facebook
친구 사이트
공개SW 포털
OLIS
한국공개소프트웨어협회
AppCenter 지원본부
OLC
PSEG
개발자 블로그
블로터
개인 메뉴
메뉴 수정
양식함
도구
여기를 가리키는 문서
가리키는 글의 최근 바뀜
특수 문서 목록
문서 정보