Uniqni em va tish-tirnoq o'rtasida farqlash uchun qanday majburlash kerak?

uniq (GNU coreutils 8.5) does not seem to distinguish between em- and en-dashes:

$ echo -e "a-b \ na-b" | uniq -c

  2 a–b

Bu farqni majburlashning biron bir usuli bormi? LC_COLLATE uchun turli xil sozlamalarni sinab ko'rdim.

2

1 javoblar

Men uchun ishladi

echo -e "a–b\na—b" | LC_COLLATE=C uniq -c
      1 a–b
      1 a—b
3
qo'shib qo'ydi
Men ko'ryapman. LC_COLLATE = en_GB.utf8 ning ishlashi uchun kerak bo'lishi kerakligini utf8 deb atashga harakat qildim. LC_COLLATE = C kutilgan natijalarni beradi. Cheers!
qo'shib qo'ydi muallif user918938, manba