Лекция – Юникод: как люди учат компьютеры понимать все письменности мира

Алек­сандр Запрягаев 

Мате­ма­тик, спе­ци­а­лист по мате­ма­ти­че­ской логи­ке, кан­ди­дат наук. Выпуск­ник мех­ма­та, пре­по­да­ёт в Выс­шей шко­ле эко­но­ми­ки и зани­ма­ет­ся язы­ка­ми. Увле­ка­ет­ся исто­ри­ей китай­ско­го и япон­ско­го язы­ков, а так­же все­ми аспек­та­ми китай­ской пись­мен­но­сти. Про­тас­ки­ва­ет сим­во­лы в Юникод.

Появ­ле­ние стан­дар­та Юни­код в кон­це 1980‑х при­бли­зи­ло чело­ве­че­ство к мечте сохра­нить все тек­сты мира в еди­ном ком­пью­тер­ном фор­ма­те. Пер­во­на­чаль­но лишь обоб­щав­ший уже суще­ство­вав­шие к тому момен­ту коди­ров­ки тек­ста, Юни­код посте­пен­но взял на себя более амби­ци­оз­ную зада­чу — зако­ди­ро­вать для ком­пью­те­ров все суще­ству­ю­щие ныне и в про­шлом пись­мен­но­сти мира. Ныне он вклю­ча­ет 159801 сим­вол из 172 пись­мен­но­стей – но как она рабо­та­ет и кто те люди, кото­рые его из года в год пополняют?

Мы не толь­ко обсу­дим то, как Юни­код устро­ен, как ком­пью­те­ры его пони­ма­ют и как шриф­ты вос­про­из­во­дят его в понят­ной для людей фор­ме, но и посмот­рим на пас­халь­ные яйца и ляпы, остав­ши­е­ся со ста­рых вер­сий, уви­дим, как вклю­че­ние в Юни­код ожив­ля­ет пись­мен­но­сти и целые язы­ки, как Юни­код защи­щён от оши­бок при пере­да­че фай­лов и поче­му эмод­зи 👩🏻‍❤‍💋‍👨🏼 – это на самом деле десять сим­во­лов (U+1F469 U+1F3FB U+200D U+2764 U+FE0F U+200D U+1F48B U+200D U+1F468 U+1F3FC)!

А ещё 63,8% все­го Юни­ко­да состо­ит из китай­ских иеро­гли­фов — мы раз­бе­рём­ся, поче­му так полу­чи­лось, как новые сим­во­лы попа­да­ют в Юни­код каж­дый год и чем каж­дый из нас может поспо­соб­ство­вать вклю­че­нию новых (а то и добить­ся вклю­че­ния сим­во­ла, при­ду­ман­но­го вами самими)!