Multilingual Religious Parallel Corpus (Kaleem Art Press)
License:
CC-BY-SA-4.0
Steward:
Kaleem Art Press
Task: MT
Release Date: 1/5/2026
Format: CSV
Size: 2.27 MB
Description
This dataset is a multilingual parallel sentences corpus containing 6,465 aligned sentence units with approximately 0.98 million words, curated from Kaleem Art Press archives. It includes parallel religious text data in Arabic, Urdu, Saraiki (standard and dialectal), Punjabi (Shahmukhi), and English, supporting research in machine translation, comparative linguistics, digital humanities, and low-resource language studies.
Specifics
Licensing
Creative Commons Attribution Share Alike 4.0 International (CC-BY-SA-4.0)
https://spdx.org/licenses/CC-BY-SA-4.0.htmlMetadata
Dataset Overview
This dataset is a multilingual parallel sentences corpus containing 6,465 aligned sentence units with approximately 0.98 million words, curated from Kaleem Art Press archives. It includes parallel religious text data in Arabic, Urdu, Saraiki (standard and dialectal), Punjabi (Shahmukhi), and English, supporting research in machine translation, comparative linguistics, digital humanities, and low-resource language studies.
Languages Covered
This corpus brings together Arabic, Urdu, English, Punjabi (Shahmukhi), and two Saraiki varieties (Standard and Khanpuri) to support multilingual and dialect-aware research. Arabic functions as the anchor source language, providing a stable reference point for alignment across all translations. Urdu adds a high-utility South Asian bridge layer in Nastaliq script, improving interpretability and accessibility for regional scholarship. The dataset centers Saraiki (Standard) as a core low-resource target variety for building practical NLP resources, while Saraiki (Khanpuri) captures dialect-level variation from southern Punjab to enable fine-grained analysis of regional phonology and vocabulary in translation. Punjabi (Shahmukhi) strengthens comparative work among closely related Indo-Aryan languages in Perso-Arabic scripts, supporting cross-script modeling and transfer learning. Finally, English provides a globally accessible reference layer that enhances reuse, benchmarking, and integration into multilingual NLP pipelines.
Dataset Statistics
Aligned sentence units: 6,465
Total words (all languages): ~0.98 million
Languages: Arabic, Urdu, English, Punjabi (Shahmukhi), Saraiki (Standard), Saraiki (Dialectal)
Content domain: Religious text (parallel/translated)
Format: Sentence-level aligned multilingual parallel corpus
Source: Kaleem Art Press archives
Processing (recommended)
Text normalization: apply Unicode normalization (NFC), standardize whitespace, and normalize punctuation across all languages.
Script-specific cleanup: ensure consistent handling of Perso-Arabic characters (e.g., ی/ے, ہ/ھ, ں/ن) and remove mixed-script noise if present.
Alignment validation: verify each sentence unit is correctly aligned across languages; flag missing segments, severe length mismatches, or misplaced line breaks.
Deduplication: remove exact/near-duplicate sentence units to reduce repetition from recurring religious passages.
Structural tagging (optional): add light metadata such as surah/section, verse/line index, or document/chapter ID if available to support digital humanities analysis.
Sample (Multilingual Parallel Alignment)
| English | Punjabi Hadayat-Ullah | Saraiki (Khan Pur Dialect) | Saraiki Standard Dialect | Asan Urdu | Arabic |
|---|---|---|---|---|---|
| 12. In fact, they are the troublemakers, but they are not aware. | سُننا ایں ضرور اوہو ایہہ نیں وگاڑو پَر نئیں سمجھدے۔ | خبردار پک اے اُوہے اُوہے ای فسادی ان پر انہیں کوں شعور کینی۔ ١٢۔ | خیال رکھائے ، بیشک ایہ لوک فساد گَھتّن والے ہِن ، وَل ایہ جو اُنھاں کوں کوئی شعور وی کائے نھیں (١٢)۔ | 2:12 : خبردار ! حقیقت میں یہی لوگ ہیں فساد برپا کرنے والے، مگر انہیں شعور نہیں۔ | اَلَاۤ اِنَّهُمْ هُمُ الْمُفْسِدُوْنَ وَ لٰكِنْ لَّا یَشْعُرُوْنَ۱۲ |
| 13. And when it is said to them, “Believe as the people have believed,” they say, “Shall we believe as the fools have believed?” In fact, it is they who are the fools, but they do not know. | تے جد کوئی آکھے اوہناں نوں مَنّو جویں منّیاں اے لوکاں نے آکھدے نے اسیں کیوں مَنّیے جِویں منّیاں اے مُورکھاں نے سُن لئیں ضرور اوہو ایہہ نے مُورکھ پر نئیں جاندے۔ | اتے جیں ویلھے آکھیا ونڄے انہیں کوں (اینویں )ایمان آنو جیویں ایمان آندے ٻھنیں لوکیں (صحابہ کرام)آکھدن کیا اساں اینویں ایمان آنوں جیویں ایمان آندے بے وقوفیں خبردار پک اے اُوہے اُوہے ای بے وقوف ان پر او ڄاݨدے نئیں ۔ ١٣۔ | اَتے جِہڑے ویلے اُنھاں کُوں آکھیا ویندے جو جَیں طرح ٻِئے لوک ایمان گِھن آئن، تُساں وِی ایمان گِھن آؤ تاں اَکھیندن، جو کیا اساں وی اُنھائیں پاگلاں دی کلی ایمان گِھن آؤں، سمجھ گِھنو، جو خود اِیہے اِی پاگل ہِن، پر ایں ڳالھ کوں سمجھدے اَصلُوں کائے نھیں (١٣)۔ | 2:13 : اور جب کہا جاتا ہے ان سے کہ ایمان لاؤ جس طرح ایمان لائے اور لوگ تو کہتے ہیں کہ کیا ایمان لائیں ہم جس طرح ایمان لائے بیوقوف، خبردار ! حقیقت میں یہی لوگ ہیں بیوقوف، لیکن جانتے نہیں۔ | وَ اِذَا قِیْلَ لَهُمْ اٰمِنُوْا كَمَاۤ اٰمَنَ النَّاسُ قَالُوْۤا اَنُؤْمِنُ كَمَاۤ اٰمَنَ السُّفَهَآءُ ؕ اَلَاۤ اِنَّهُمْ هُمُ السُّفَهَآءُ وَ لٰكِنْ لَّا یَعْلَمُوْنَ۱۳ |
| 14. And when they come across those who believe, they say, “We believe”; but when they are alone with their devils, they say, “We are with you; we were only ridiculing.” | تے جد مِلدے نیں مَنّن والیاں نوں آکھدے نیں اساں منّیا تے جد وکھرے ہوندے نیں اپنے شطونگڑیاں کول آکھدے نیں اسیں ضرور تساڈے نال آں اسیں نِرا ٹھٹھا کرنے ہونّے آں۔ | اتے جیں ویلھے ملن ایمان والیں کوں آکھدن اساں ایمان آندے۔ اتے جیں وی |
