normalize neodstraní bílé znaky \xc2 \xa0

knyttl

Parsuju teď složitější texty a řešil jsem, proč mi na konci řádku zůstávají bílé znaky. Nakonec jsem tam našel \xc2 a \xa0. Normalize je samo o sobě neodstraní – nevím, jestli je to chyba, nebo prostě to už jsou znaky, které už ani nejsou „bílé“…

Taky by asi bylo fajn, kdyby normalize umělo odstranit bílé znaky i na začátku řádků – např. něco jako String::normalize($string, self::BOTH_SIDES).

David Grudl

Ono je to tím, že normalize() lze použít i na jiném kódování než UTF-8. Ale myslím, že kdybych ji omezil čistě na UTF-8 a naučil ořezávat nedělitelné mezery, k žádnému BC breaku by nedošlo.

knyttl

A co tedy UTF8 nějak detekovat? A k tomu oboustrannému ořezávání?

Díky moc.

David Grudl

V oboustranném ořezávání nevidím moc smysl…

knyttl

Já právě parsuju spousty textů a používám to pořád. Takhle používám normalize a k tomu ještě funkci navíc. Ale byl to jen nápad, no.

pekelnik

K ořezu přeci slouží…

<?php
Nette\String::trim($s, $charlist);
?>

knyttl

Aha, tak to je asi to, co jsem chtěl. Díky.