Skip to content

KatkıVermeKılavuzu

maidis edited this page Aug 28, 2012 · 9 revisions

mythes-tr ile Microsoft Word ve benzeri ticari yazılımlarda yer alan Türkçe eş anlamlı kelimeler sözlüğünün başta LibreOffice'e olmak üzere tüm özgür ofis yazılımlarına kazandırılması amaçlanıyor.

Bu amaç ancak gelecek katkılarla gerçekleştirilebilir. Aşağıda mythes-tr'ye hangi alanlarda nasıl katkı verebileceğinizi öğrenebilirsiniz.

Kelime Katkısı

Otomatik Form Aracılığıyla

Bilgisayar dünyasıyla pek içli dışlı olmayan ama Türkçe ile ilgili olduğundan katkı vermek isteyenler için aklıma gelen en basit yöntem Google'nin ofis araçlarıyla oluşturulmuş basit bir form ve buradaki girdilerden oluşturulmuş bir elektronik tablo. Biraz elle biraz da otomatik olarak buradaki verilerden gerekli biçimlendirilmiş sözlük elde edilebilir. Burada bir sınırlamaya giderek sadece üç anlam grubu oluşturulabilmesini ayarladım. Bundan daha çoğu için alternatif yöntemlerden birinin tercihi daha mantıklı. Bu yöntem en basiti olmakla birlikte en pratiği değil.

Proje Sayfasından Kayıt Açarak

Aklıma gelen son yöntem de katkı vermek isteyenlerin proje sayfası üzerinden kayıt açması. Buradan çeşitli kelimeler için düzenlenmiş haldeki dosyalarını gönderebilirler. Bunlar da proje deposuna yazma hakkı olan kişi veya kişilerce kontrol edilip ana sözlük dosyasına eklenebilir.

Yöntemler

Önümüzde bir yol haritası olabilmesi ve çalışmaların birbirini tekrar eder yapıya düşmemesi için bir kelime listesine ihtiyacımız olacak. Elimde yaklaşık 70 bin kelimelik bir liste var. Bu dosya üzerinde küçük birkaç çalışma daha yapıp veriler dizinine ekleyeceğim. Bu kelime listesi sayesinde gönüllüler, üzerinde çalışmak istedikleri kelime aralıklarını belirtebilir ve aynı kelimeler üzerinde başka kimseler de aynı anda çalışmamış olur. Eşanlamlıları yazılan kelimeler de tamamen listeden çıkarılarak ilerleme gözlenebilir.

Veriler dizinine ayrıca yararlanılabilecek başka kaynaklar da eklenebilir. Benzer bir düşüncenin sonuçları doğal dil işleme grubu Kemik'in Veri Kümelerimiz sayfasında görülebilir.

Proje sayfasında yer alan ikinci dizinse betikler isminde. Burada sözlük veritabanını düzenlemek veya farklı biçimlere çevirmek için küçük araçlar ve çevrimiçi sözlüklerden yararlanmak için kullanmamızın doğru olup olmayacağı hakkında tereddütlerimin olduğu indirme araçları yer alabilir ileride.

Süreç

Sözlüğün bu en son halini test etmek isteyenler proje sayfasındaki şu arşiv dosyasını indirebilir. Arşivi indirip açtıktan sonra içinden çıkan th_tr_TR_v2.dat ve th_tr_TR_v2.idx dosyalarını /usr/share/mythes dizinine kopyalamanız gerekiyor. Daha sonra sözlüğü LibreOffice ve diğer uyumlu ofis araçlarıyla kullanabilirsiniz. Tüm bunların öncesinde dağıtımınızın deposundan mythes paketini yüklediğinizden ve kullanacağınız uygulamada mythes'i etkinleştirdiğinizden emin olunuz.

Sözlüğün kesinlikle kullanılabilecek seviyede olmadığını da lütfen unutmayınız. Otomatik yöntemlerle oluşturulduğu için binlerce hatta on binlerce hata barındırıyor olabilir şu anda. Bunları düzeltmek de projeye katkı vereceklerin elinde. Daha önce söylediğim gibi tek başıma en fazla yılda 300 - 400 kelime ekleyebilir veya düzenleyebilirim. Tek başıma yıllarca böyle emek isteyen bir proje üzerinde çalışmak için de motivasyonum olacağını zannetmiyorum.

Sonunda projenin deposuna kelime-listesi.txt dosyasını ekledim. Buradan kelime aralıkları seçip bu kelimelerin eşanlamlılarının çıkarılmasına yardım edebilirsiniz. Üzerinde çalışmak istediğiniz kelime aralığına karar verdikten sonra durum takip sistemini kontrol edin. Başka biri bu kelime aralığı (ör: gıpta kelimesinden gidiş kelimesine kadar olan kelimeler) üzerinde çalışıyorsa başka bir kelime aralığı seçmeniz gerekmekte. Kimsenin üzerinde çalışmadığı bir kelime aralığı seçtiğinize emin olduktan sonra bu kelime aralığınını diğer katkıcılara bildirmek için bir kayıt açınız. Çalışmalarınızı yaparken th_tr_TR_v2.dat dosyası üzerinde çalışınız. Otomatik eklemelerden gelenler az da olsa işinize yarayacaktır. Burada yazılı ve çevrimiçi kaynaklardan yararlanarak eksik eşanlamlıları eklemeniz, yanlış yazılmış kelimeleri düzeltmeniz ve bir kelimenin eş anlamlısı olmayan kelimeleri silmeniz gerekmekte. Bunları yaptıktan sonra eşanlamlı kelimeleri anlam gruplarına ayırmalısınız ve her anlam grubunun sözcük türünü belirtmelisiniz. Tüm bunları yaptıktan sonra çalışmanızı içeren kısımları açtığınız kayda ekleyebilirsiniz. Ben de bunları son bir kontrol ederek ana sözlük dosyasına yazacağım. Sonra üzerinde çalıştığınız kelime aralığını kelime-listesi.txt dosyasından sileceği. Kaydı çözüldü olarak kapatacağım ve isminizi THANKS dosyasına yazacağım. Süreç kabaca böyle. Lütfen anlamadığınız veya size mantıksız gelen kısımları bildirin.

Yararlanılabilecek Kaynaklar

Bu alt başlıkta son olarak katkı vermek isteyeceklerin yararlanabileceği kaynaklardan bahsetmek istiyorum:

Basılı kitaplar

Türkçe Eşanlamlı kelimeler sözlüğüne sahip sözlük ve ofis araçları

Çevrimiçi Türkçe Eşanlamlı kelimeler sözlüğü

Diğer çevrimiçi sözlükler

Test

Sözlük için eşanlamlı kelimeler eklemek sizin için zor göründüyse daha basit ama yine aynı şekilde önemli olan test konusunda katkı vermeyi düşünebilirsiniz. Bunun için yapmanız gerekenler sözlüğün en son halini indirmek, indeks dosyasını üretmek ve ilgili dizine kopyalama yaparak LibreOffice üzerinde hem yazım hem de anlam yönünden bir hata olup olmadığını kontrol etmek. Bulduğunuz hataları proje sayfasındaki durum takip sistemi üzerinden anlam hatası veya yazım hatası etiketlerini kullanarak bildirebilirsiniz. Bir kelime için yeterli eşanlamlı kelime olmadığını düşündüğünüzde de iyileştirme etiketiyle yeni önerilerinizi gönderebilirsiniz.

En son halini test etmek isterseniz indeksi ikinci yazıda anlatıldığı biçimde kendiniz oluşturmalısınız. Bunu yapmak istemezseniz düzenli aralıklarla güncellenecek olan arşiv dosyalarını da kullanabilirsiniz.

Tanıtım

Böyle bir projeye başlandığından daha çok kişinin haberdar olması için günlüğünüz veya sosyal ağlardaki hesaplarınız üzerinden tanıtım yazıları yazabilirsiniz. Böylece hem proje daha çok katkıcı bulabilir hem de böyle bir sözlüğe ihtiyacı olanlar ilerleyen zamanda ortaya çıkacak sözlükten yararlanabilir.

Paketleme

Sözlükteki kelimeler binli sayılara ulaştığı zaman paketleme konusu da düşünülmeli. Türkçe eşanlamlı kelimeler sözlüğü hem GNU/Linux dağıtımlarının depolarına eklenmeli hem de Windows kullanıcılarının da kolayca kullanabilmesi için LibreOffice eklentisi biçiminde paketlenmeli.

Depoya indeks dosyası bulundurmayı düşünmüyorum. Çünkü bunu yaparsak her seferinde depoda sözlük ve indeksi eşzamanlamak gerekecek. İndeks dosyasını sadece arşive eklemeyi düşünüyorum. Hatta make veya cmake kullanılarak derleme ve kurulum işlemlerinin de kullanıcının sisteminde gerçekleştirilmesi sağlanabilir. Bu paketçilerin de işini kolaylaştıracaktır.

Maddi Destek

Projede kişilerden gelecek maddi desteğe sıcak bakmıyorum. İleride benden başka kişiler de projeye katıldığında gerekirse bu konuyu tekrar gözden geçirebiliriz. Yine de kişisel olarak maddi anlamda bir şeyler yapmayı çok istiyorsanız yukarıda bahsi geçen sözlükleri ve dilbilgisi, programlama, yapay zeka hakkında çeşitli kitaplar hediye edebilirsiniz projedeki kişilere. Bunun için projenin vikisinde bir istek listesi açılabilir.

İletişim

En önemli katkı alanını sona bıraktığımdan emin olabilirsiniz. Doğru kişi ve kurumlarla etkili iletişim bu projenin başarısını büyük oranda etkileyecektir diye düşünüyorum. İletişim süreçleri sonunda projeye muazzam maddi destek, iş gücü desteği ve veri kaynağı desteği kazandırabiliriz.

Maddi destek olarak Fatih Projesi geliyor aklıma ilk olarak. Oluşturacağımız eş anlamlı kelimeler sözlüğü hem öğrencilerin kullanacağı özgür ofis yazılımlarında yer alacak hem de istenirse küçük değişikliklerle doğrudan bir sözlük uygulamasına da dahil edilebilir. Fatih Projesi hakkında bir şeyler yapabileceğinizi düşünüyorsanız şu kayıtta belirtebilirsiniz. Maddi destek sağlayacak başka yerler de şu an aklıma gelmiyor. Sizin geliyorsa bunları belirtmekten çekinmeyiniz.

İş gücü desteği alabileceğimiz pek çok yer var. Özgür yazılım toplulukları (LibreOffice Türkiye, Özgürlükİçin, Pardus-Linux.Org, Ubuntu Türkiye...), üniversitelerin bilgisayar ve edebiyatla ilgili bölümleri, edebiyat toplulukları, doğal dil işleme grupları... Epey bir iş gücüne ihtiyacımız olacak. Basit bir hesapla bunu gözler önüne sereyim. Yaklaşık 70 bin kelimelik bir eşanlamlı kelimeler sözlüğü oluşturacağız. Projeye yapabileceğim en büyük kelime katkısı en iyi ihtimalle ortalama günde bir kelime olacaktır. Bu hızla bu sözlüğün kaç yılda tamamlanacağı ise şöyle hesaplanabilir: 70.000 / 365 = 192 yıl. O kadar daha yaşayacağımı hiç zannetmiyorum. Bu üç haneli yılı tek haneliye çevirmek için ne kadar katkıcıya ihtiyaç olduğu ortada.

Veri kaynağı desteği her şeyin seyrini değiştirebilecek güçte. Şu ana kadar yapılmış çalışmaları kullanmak için izin alabilirsek her şeye sıfırdan başlamamış oluruz. Bu da bizi epey bir önden başlatmış olur. Şimdi burada tek tek isimlerini anmak yerine doğrudan projenin durum takip sistemine kayıt açmaya başladım. İlgili kayıtlar üzerinden göz atabilirsiniz.

Clone this wiki locally