-
Notifications
You must be signed in to change notification settings - Fork 102
KatkıVermeKılavuzu
mythes-tr ile Microsoft Word ve benzeri ticari ofis yazılımlarında yer alan Türkçe eş anlamlı kelimeler sözlüğünün başta LibreOffice'e olmak üzere tüm özgür ofis yazılımlarına kazandırılması amaçlanıyor.
Bu amaç ancak gelecek katkılarla gerçekleştirilebilir. Aşağıda mythes-tr'ye hangi alanlarda nasıl katkı verebileceğinizi öğrenebilirsiniz.
Bilgisayar dünyasıyla pek içli dışlı olmayan ama Türkçe ile ilgili olduğundan katkı vermek isteyenler için Google'nin ofis araçlarıyla oluşturulmuş basit bir form ve buradaki girdilerden oluşturulmuş bir elektronik tablo hazırlanmıştır. Biraz elle biraz da otomatik olarak buradaki verilerden gerekli şekilde biçimlendirilmiş sözlük elde edilebiliyor. Yalnız burada bir sınırlamaya gidilerek sadece üç anlam grubu oluşturulabilmesi ayarlanmıştır. Bundan daha çoğu için alternatif yöntemlerden birinin tercihi daha mantıklıdır. Bu yöntem en basiti olmakla birlikte en pratiği değildir. Yapabiliyorsanız diğer yöntemleri tercih etmeniz tavsiye edilir.
Katkıcılar form aracılığıyla istedikleri zaman eş anlamlı kelime girişi yapar ve projeden sorumlu olan kişi de belli aralıklarla elektronik tabloyu kontrol ederek buraya eklenmiş kelimeleri ana sözlüğe geçirir ve sonrasında da elektronik tablodaki ana sözlüğe eklenmiş girdileri siler.
Kelime katkısı vermek isteyenlerin için en iyi yöntemlerden biri proje sayfası üzerinden kayıt açmaktır. Buradan çeşitli kelimeler için düzenlenmiş haldeki dosyalar gönderilebilir. Bunlar da proje deposuna yazma hakkı olan kişi veya kişilerce kontrol edilip ana sözlük dosyasına eklenebilir.
Önümüzde bir yol haritası olabilmesi ve çalışmaların birbirini tekrar eder yapıya düşmemesi için bir kelime listesi kullanılmaktadır. Elimizde yaklaşık 90 bin kelimelik bir liste vardır. Bu kelime listesi sayesinde gönüllüler, üzerinde çalışmak istedikleri kelime aralıklarını belirtebilir ve aynı kelimeler üzerinde başka kimseler de aynı anda çalışmamış olur. Eşanlamlıları yazılan kelimeler de tamamen listeden çıkarılarak ilerleme gözlenebilir.
Veriler dizininde ayrıca yararlanılabilecek başka kaynaklar da yer almaktadır. Benzer bir düşüncenin sonuçları doğal dil işleme grubu Kemik'in Veri Kümelerimiz sayfasında görülebilir.
Proje sayfasında yer alan ikinci dizinse betikler'dir. Burada sözlük veritabanını düzenlemek veya farklı biçimlere çevirmek için küçük araçlar ve çevrimiçi sözlüklerden yararlanmak için indirme araçları bulunabilir.
Sözlüğün bu en son halini test etmek isteyenler proje sayfasındaki şu arşiv dosyasını indirebilir. Arşivi indirip açtıktan sonra içinden çıkan th_tr_TR_v2.dat ve th_tr_TR_v2.idx dosyalarını /usr/share/mythes dizinine kopyalamanız gerekiyor. Daha sonra sözlüğü LibreOffice ve diğer uyumlu ofis araçlarıyla kullanabilirsiniz. Tüm bunların öncesinde dağıtımınızın deposundan mythes paketini yüklediğinizden ve kullanacağınız uygulamada mythes'i etkinleştirdiğinizden emin olunuz.
Sözlüğün kesinlikle kullanılabilecek seviyede olmadığını da lütfen unutmayınız. Otomatik yöntemlerle oluşturulduğu için binlerce hatta on binlerce hata barındırıyor olabilir şu anda.
kelime-listesi.txt dosyasından kelime aralıkları seçip bu kelimelerin eşanlamlılarının çıkarılmasına yardım edebilirsiniz.
Üzerinde çalışmak istediğiniz kelime aralığına karar verdikten sonra durum takip sistemini kontrol edin. Başka biri bu kelime aralığı (ör: gıpta kelimesinden gidiş kelimesine kadar olan kelimeler) üzerinde çalışıyorsa başka bir kelime aralığı seçmeniz gerekmektedir. Kimsenin üzerinde çalışmadığı bir kelime aralığı seçtiğinize emin olduktan sonra bu kelime aralığınını diğer katkıcılara bildirmek için bir kayıt açınız.
Çalışmalarınızı yaparken th_tr_TR_v2.dat dosyası üzerinde çalışınız. Burada yer alan ve otomatik eklemelerle gelen eş anlamlı kelimeler az da olsa işinize yarayacaktır.
Burada yazılı ve çevrimiçi kaynaklardan yararlanarak eksik eşanlamlıları eklemeniz, yanlış yazılmış kelimeleri düzeltmeniz ve bir kelimenin eş anlamlısı olmayan kelimeleri silmeniz gerekmektedir. Bunları yaptıktan sonra eşanlamlı kelimeleri anlam gruplarına ayırmalısınız (örneğin aba hem abla veya anne anlamında hem de bir giyecek türü anlamındadır, bu yüzden aba'nın iki farklı anlam grubu vardır) ve her anlam grubunun sözcük türünü (ör: isim için noun, fiil için verb, sıfat için adj ve zarf için adv) belirtmelisiniz.
Tüm bunları yaptıktan sonra çalışmanızı içeren kısımları açtığınız kayda ekleyebilirsiniz. Projeden yetkili biri de bunları son bir kontrol ederek ana sözlük dosyasına yazacaktır.
Sonra üzerinde çalıştığınız kelime aralığı kelime-listesi.txt dosyasından silinecektir ve Kayıt çözüldü olarak kapatılacaktır.
En sonunda da isminiz THANKS dosyasına yaptığınız işle birlikte yazılacaktır.
Aşağıda katkı vermek isteyeceklerin yararlanabileceği bazı kaynaklar listelenmiştir:
- Türkçe'de Eş ve Karşıt Anlamlılar Sözlüğü
- Eşanlamlı Sözcükler ve Karşıt Anlamları Sözlüğü
- Altın Eşanlamlı ve Karşıt Anlamlı Kelimeler Sözlüğü
- Türk Dil Kurumu Eş ve Yakın Anlamlı Kelimeler Sözlüğü
- Dokuz Eylül Üniversitesi Dilbilim Bölümü Eş ve Yakın Anlamlı Kelimeler Sözlüğü
Sözlük için eşanlamlı kelimeler eklemek sizin için zor göründüyse daha basit ama yine aynı şekilde önemli olan test konusunda katkı vermeyi düşünebilirsiniz. Bunun için yapmanız gerekenler sözlüğün en son halini indirmek, indeks dosyasını üretmek ve ilgili dizine kopyalama yaparak LibreOffice üzerinde hem yazım hem de anlam yönünden bir hata olup olmadığını kontrol etmek. Bulduğunuz hataları proje sayfasındaki durum takip sistemi üzerinden anlam hatası veya yazım hatası etiketlerini kullanarak bildirebilirsiniz. Bir kelime için yeterli eşanlamlı kelime olmadığını düşündüğünüzde de iyileştirme etiketiyle yeni önerilerinizi gönderebilirsiniz.
En son halini test etmek isterseniz indeksi ikinci yazıda anlatıldığı biçimde kendiniz oluşturmalısınız. Bunu yapmak istemezseniz düzenli aralıklarla güncellenecek olan arşiv dosyalarını da kullanabilirsiniz.
Böyle bir projeye başlandığından daha çok kişinin haberdar olması için günlüğünüz veya sosyal ağlardaki hesaplarınız üzerinden tanıtım yazıları yazabilirsiniz. Böylece hem proje daha çok katkıcı bulabilir hem de böyle bir sözlüğe ihtiyacı olanlar ilerleyen zamanda ortaya çıkacak sözlükten yararlanabilir.
Sözlükteki kelimeler binli sayılara ulaştığı zaman paketleme konusu da düşünülmeli. Türkçe eşanlamlı kelimeler sözlüğü hem GNU/Linux dağıtımlarının depolarına eklenmeli hem de Windows kullanıcılarının da kolayca kullanabilmesi için LibreOffice eklentisi biçiminde paketlenmeli.
Depoya indeks dosyası bulundurmayı düşünmüyorum. Çünkü bunu yaparsak her seferinde depoda sözlük ve indeksi eşzamanlamak gerekecek. İndeks dosyasını sadece arşive eklemeyi düşünüyorum. Hatta make veya cmake kullanılarak derleme ve kurulum işlemlerinin de kullanıcının sisteminde gerçekleştirilmesi sağlanabilir. Bu paketçilerin de işini kolaylaştıracaktır.
Projede kişilerden gelecek maddi desteğe sıcak bakmıyorum. İleride benden başka kişiler de projeye katıldığında gerekirse bu konuyu tekrar gözden geçirebiliriz. Yine de kişisel olarak maddi anlamda bir şeyler yapmayı çok istiyorsanız yukarıda bahsi geçen sözlükleri ve dilbilgisi, programlama, yapay zeka hakkında çeşitli kitaplar hediye edebilirsiniz projedeki kişilere. Bunun için projenin vikisinde bir istek listesi açılabilir.
En önemli katkı alanını sona bıraktığımdan emin olabilirsiniz. Doğru kişi ve kurumlarla etkili iletişim bu projenin başarısını büyük oranda etkileyecektir diye düşünüyorum. İletişim süreçleri sonunda projeye muazzam maddi destek, iş gücü desteği ve veri kaynağı desteği kazandırabiliriz.
Maddi destek olarak Fatih Projesi geliyor aklıma ilk olarak. Oluşturacağımız eş anlamlı kelimeler sözlüğü hem öğrencilerin kullanacağı özgür ofis yazılımlarında yer alacak hem de istenirse küçük değişikliklerle doğrudan bir sözlük uygulamasına da dahil edilebilir. Fatih Projesi hakkında bir şeyler yapabileceğinizi düşünüyorsanız şu kayıtta belirtebilirsiniz. Maddi destek sağlayacak başka yerler de şu an aklıma gelmiyor. Sizin geliyorsa bunları belirtmekten çekinmeyiniz.
İş gücü desteği alabileceğimiz pek çok yer var. Özgür yazılım toplulukları (LibreOffice Türkiye, Özgürlükİçin, Pardus-Linux.Org, Ubuntu Türkiye...), üniversitelerin bilgisayar ve edebiyatla ilgili bölümleri, edebiyat toplulukları, doğal dil işleme grupları... Epey bir iş gücüne ihtiyacımız olacak. Basit bir hesapla bunu gözler önüne sereyim. Yaklaşık 70 bin kelimelik bir eşanlamlı kelimeler sözlüğü oluşturacağız. Projeye yapabileceğim en büyük kelime katkısı en iyi ihtimalle ortalama günde bir kelime olacaktır. Bu hızla bu sözlüğün kaç yılda tamamlanacağı ise şöyle hesaplanabilir: 70.000 / 365 = 192 yıl. O kadar daha yaşayacağımı hiç zannetmiyorum. Bu üç haneli yılı tek haneliye çevirmek için ne kadar katkıcıya ihtiyaç olduğu ortada.
Veri kaynağı desteği her şeyin seyrini değiştirebilecek güçte. Şu ana kadar yapılmış çalışmaları kullanmak için izin alabilirsek her şeye sıfırdan başlamamış oluruz. Bu da bizi epey bir önden başlatmış olur. Şimdi burada tek tek isimlerini anmak yerine doğrudan projenin durum takip sistemine kayıt açmaya başladım. İlgili kayıtlar üzerinden göz atabilirsiniz.