Kampen for at bevare Urdu-skriftet i den digitale verden
12 mins read

Kampen for at bevare Urdu-skriftet i den digitale verden

Zeerak Ahmed har tilbragt årevis i USA og arbejdet for nogle af verdens største teknologivirksomheder. Men en ting, han er blevet frustreret over, er, hvordan “databehandling behandler ikke-latinske sprog som andenrangsborgere.” Et sådant sprog er hans modersmål, urdu, det nationale sprog og lingua franca i Pakistan, som også er udbredt i Indien. Ahmed, som er fra Lahore, har haft mange samtaler med sine venner og familie om vanskelighederne ved at prøve at bruge eksisterende urdu-tastaturer eller læse urdu-type. Og han har set mange unge mennesker i stedet ty til engelsk eller såkaldt romersk urdu, ved at bruge det latinske skrift til at fremstille en fonetisk translitteration, i mangel af en bedre løsning.

Mens han tog sin kandidatgrad i ingeniørdesign på Harvard University, fandt han på sin egen løsning. Efter fem års arbejde med projektet lancerede han sidste år Matnsaz iOs-appen. Appen tilbyder brugerne et mere raffineret urdu-tastatur, der grupperer bogstaver efter form, autokorrigerer og endda foreslår efterfølgende ord. Det er en markant forbedring af de standard urdu-tastaturer, der er tilgængelige på almindelige enheder.

På trods af at det er det 10. mest udbredte sprog i verden, er urdu ifølge referencepublikationen Ethnologue kommet bagud i den digitale tidsalder på grund af flere begrænsninger. Mange pakistanere uden for tech-industrien mener, at urdu-tekst er uforenelig med computere, siger Ahmed. Men han hævder, at det er en fejl på computerens side snarere end sproget. En indsats er i gang for at ændre fortællingen.

Mere fra TIME

Udfordringerne ved urdu-skriftet

“Vi lever i et tekstmættet samfund, så eksponeringen af ​​de yngre generationer for typografisk kompleksitet er meget høj,” siger grafisk designer og webudvikler Abeera Kamran. “De forventer sofistikerede resultater.” Det, der er tilgængeligt på urdu, lever ofte ikke op til disse forventninger, fordi forfattere har modstået digitalisering i lang tid på grund af kompleksiteten af ​​dens skriftlige form. (Urdu bruger Nastaliq-skrifttypen, en udsmykket og flydende variation af skriftlig arabisk, der er særligt kompleks, fordi formen på hvert bogstav er afhængig af det følgende bogstav.) Det betyder nu, at der er meget lidt digitalt indhold tilgængeligt på urdu, der kan konkurrere med, hvad brugerne er bruges til i latinske skrifter. Roman Urdu bruges ofte som stand-in online. Tidligere forsøg på at digitalisere urdu-skriftet var baseret på den arabiske Naskh-skrifttype, som er mere lige og derfor lettere at kode. Men nogle har hævdet, at Naskh-skrifttypen er ringere end Nastaliq, når den bruges til at udtrykke urdu-sproget på skrift. Efterhånden som flere af vores liv bliver afhængige af digital information og kommunikation, bekymrer nogle sig om, at manglen på en tilgængelig digital version af sprogets sande skrevne form kan føre til, at urdu bliver irrelevant for yngre generationer, som bruger mere tid online end deres ældre.

“Der er denne tro på, at man ikke kan bruge urdu til moderne formål, og det gør det derfor svært for sproget at udvikle sig og forblive relevant for unge mennesker,” siger Ahmed.

Ahmed og Kamran er blandt dem, der leder fremstødet for at forhindre, at det sker. Matnsaz-appen er en del af et større initiativ af samme navn, som har til formål at bygge forbruger- og udviklerværktøjer til urdu online. I øjeblikket omfatter Ahmeds arbejde Makhzan, et open source urdu-tekstkorpus, og Naqqash, et strengbehandlingsbibliotek til arabisk skrift.

Ahmed siger, at han havde leget med ideen i årevis, før han for alvor startede indsatsen i 2017. “I Europa bruger de fleste computere på deres modersmål, men i Pakistan gør vi det ikke,” siger han. “Hvis du taler med pakistanere uden for teknologiindustrien, tror de, at du ikke kan lave moderne computere i urdu.” Ahmed mener, at urdu sagtens kunne bruges i databehandling på samme måde, hvis det fik samme betydning som latinske scripts og fik bygget værktøjer til at understøtte det. Den idé blev grundlaget for Matnsaz, fordi så meget fremskridt i urdu blev hindret, simpelthen fordi de grundlæggende byggesten ikke eksisterede, siger han.

Urdu tales af omkring 230 millioner mennesker globalt – hovedsageligt i Pakistan og Indien, såvel som blandt diasporasamfund rundt om i verden. Mens der har været individuelle forsøg på at digitalisere sproget, skal der bygges bro mellem forskellige indsatser for at få en global effekt, siger Kamran. Hun bemærker, at adoptionen af ​​typografisk trykning i urdu først skete i slutningen af ​​det 20. århundrede på grund af kompleksiteten af ​​Nastaliq-skrifttypen og manglende interesse blandt det pakistanske samfund i Naskh som et alternativ. Før det blev aviser og bøger håndskrevne og derefter fotokopieret for at lave flere kopier efter behov.

Kulturelle kompleksiteter

Pakistan har et langvarigt kulturelt bånd med Nastaliq, og Lahori Nastaliq i særdeleshed – den stil, som urdu er skrevet i – som kan være kompleks at kode med eksisterende datasæt, siger Kamran. De kulturelle associationer til sproget er også vigtige at forstå og overveje i bestræbelserne på at digitalisere urdu, tilføjer hun. “Jeg indså, at vi ikke kan gøre noget af det her uden en kulturel opgørelse af, hvordan Urdu og Nastaliq er ideologisk bundet til hinanden.”

Pakistans socio-politiske kampe og presset på at skabe en muslimsk-pakistansk national identitet har resulteret i modstand mod visse ændringer, der anses for at være vestlige eller udenlandsk påvirkede udviklinger, siger Kamran. Urdu er sammenflettet med pakistansk identitet og er landets officielle sprog, selvom der tales en række andre sprog der. I pre-partition Indien brugte urdu-talende sproget som en måde at stå op mod britisk kolonisering. I dag er det fortsat et spændingspunkt i Indien, hvor det stadig tales af millioner af mennesker, men er truet. Selvom urdu ikke udelukkende tales af muslimer, er det tæt forbundet med troens praksis i regionen. “Når det kommer til Lahori Nastaliq, tænker vi på både pakistanere og muslimsk identitet sammen, og på grund af det modstod vi forandring,” siger Kamran.

Denne forbindelse er det, der fik Zeeshan Nasar og hans far Nasrullah Mehr til at starte MehrType, et digitalt støberi med fokus på tilpassede urdu, arabiske og persiske skrifttyper. Mehr, en anerkendt kalligraf i Pakistan, arbejder i Lahori Nastaliq-manuskriptet. For ham var de tilgængelige ligaturbaserede tastaturer – som giver mulighed for fleksibilitet, når du skriver scripts som arabisk og Nastaliq ved at tilpasse sig skiftende bogstavstilarter afhængigt af, hvad der bliver skrevet – simpelthen ikke nok. Nasar betegner ligaturbaserede tilgange til urdu som en ‘jugad’, en urdu-betegnelse for en midlertidig løsning. “Med ligaturbaserede skrifttyper, hvis du indtaster et nyt ord på tastaturet, og det ikke genkender det, vil det bryde det op og ødelægge bogstavernes ord og stil,” siger Nasar.

Det er derfor, MehrType fokuserede på at skabe tegnbaserede letvægtsskrifttyper, der ville fungere godt til webindlejring. Nasar siger, at hvis en fil er for stor, tager det for lang tid at arbejde, når den er indlejret i et link, og det kan få websteder til at blive langsommere. Holdet tester i øjeblikket et nyt indstillingsværktøj, der ikke kun vil give deres skrifttyper bedre onlinesikkerhed, men også vil inkludere typografifunktioner. I fremtiden sigter virksomheden mod at bevare forskellige urdu-kalligrafistile ved at omdanne dem til typografi. Det håber også at få flere mennesker involveret i at bruge Urdu digitalt ved at levere tjenester til at tilpasse typografi, tilbyde korte kurser til at lære Urdu-typografi og konvertere eksisterende bøger og tekster til Mehr-skrifttyper.

På den anden side af grænsen i Indien har Sanjiv Saraf kurateret det største onlinebibliotek med urdu-poesi under banneret Rekhta. Onlineplatformen, opkaldt efter et tidligt navn for urdu-dialekten, digitaliserer urdu-indhold for at gøre det mere tilgængeligt. Siden startede med arbejde fra 50 digtere i 2013 og er nu hjemsted for mere end 5.000 forfatteres arbejde. Sarafs mål er at bringe urdu til et bredere publikum, og hjemmesiden præsenterer urdulitteratur og poesi i forskellige formater. “Meget af det indhold, vi har på nettet, er også blevet reciteret, så folk får en idé om diktionen, for udtalen er også meget vigtig for sproget,” siger Saraf. Mens Rekhta-teamet, som består af 230 ansatte og 100 frivillige, scanner et stort antal urdubøger for at udgive indholdet online hver dag, kan de ikke rigtigt digitalisere værkerne, før de er i stand til at skrive urdu-tekst og litteratur. Den nuværende mangel på optisk tegngenkendelse (OCR) – som konverterer skrevet, skrevet eller trykt tekst til maskinkodet tekst – for urdu har begrænset tilgængeligheden af ​​scannede materialer på sproget. Kamran siger, at der er flere grunde til dette.

“For det første læses tekst forskelligt på tryk og online, så det skaber et tilgængelighedsproblem. Du kan ikke søge i billeder, og det betyder, at enhver form for forskning og konstatering [available] ressourcer bliver svære, fordi du måske aldrig ved, at de er der. Roman Urdu har heller ingen faste stavemåder, så der er ingen måde at søge efter urdu-materiale på,” siger hun.

Kamran startede sin mastergrad i typografi efter at have forsøgt at skabe et urdu-websted for Karachi Urban Lab, en organisation med fokus på forskning, undervisning og fortalervirksomhed omkring udvikling og urbanisering i Karachi gennem data. Hun fandt, at manglen på typografiske ressourcer var en anstødssten. Hendes mål er at bidrage til det arbejde, som udviklere og sprogeksperter over hele verden gør for at digitalisere urdu ved at tage højde for dets kulturhistorie. Hun siger, at vigtigheden af ​​Nastaliq ikke kan forstås, før dets forbindelser til muslimsk-pakistansk identitetsopbygning er lige forstået. “Urdu og Nastaliq er ideologisk bundet til hinanden,” siger Kamran. På grund af følsomheden omkring urdu mener hun, at enhver ændring af præsentationen skal accepteres i samfundet, før der kan gøres fremskridt.

“Resultatet bør være at skabe komplekse ressourcer, som brugerne kan bruge i dokumenter til at skabe detaljerede stiliserede dokumenter på urdu på samme måde, som vi ser formatering på engelsk,” siger hun.

Det nuværende udviklingsstadium inden for urdu-digitalisering, med tastaturer og grundlæggende skrifttyper nu tilgængelige, har været længe undervejs, og der er meget mere, der skal gøres. Nasar har arbejdet på urdu-udvikling i 18 år. Mange af de skrifttyper, han vil arbejde på, er stadig i gang, simpelthen fordi skrifttypeudvikling er så dyr en proces. Men der er faktisk sket store fremskridt i løbet af det sidste årti. Udviklere er gået fra tidligere at stole på Inpage – en tekstbehandlings- og sidelayoutsoftware, der bruges til sprog som arabisk, urdu og persisk – til nu at have flere indsatser i gang med datasæt og design. Denne hurtige vækst i urdu-digitaliseringsindsatsen og ressourceudviklingen gennem de seneste år giver håb om, at fundamentet bliver lettere at bygge videre på. Og nu, med AI-sprogmodeller i fokus, kan teknologigiganter som Google måske bidrage til det momentum. Virksomheden annoncerede i juli, at AI-platformen Google Bard nu understøtter ni indiske sprog, inklusive urdu.

Saraf har en plads på forreste række til fremskridtet og er optimistisk. “Jeg tror ikke, at Urdu kæmper på nettet med den måde, vores læserskare vokser på. Vi har 24 millioner følgere på Rekhta for urdu-indhold, og hver måned vokser det,” siger han. “Så nøglen er simpelthen at præsentere informationen på en let tilgængelig måde.”

Flere must-reads fra TIME


Kontakt os[email protected].

Leave a Reply

Your email address will not be published. Required fields are marked *