Ouvrons ce blog sur quelque chose de sérieux, je reviendrais sur mon arrivée à Taïwan et me premières impressions une autre fois.

rocling

Jeudi et vendredi derniers se son déroulées les conférences ROCLING 2008 dans les locaux de l'université normale nationale de taïwan (NTNU, pour les intimes et pour ceux qui aiment les cigles). Rien de tel donc pour ouvrir ce blog et fêter ma première semaine ici !

ROCLING, qu'est ce que c'est ? En chinois dans le texte ça donne 自然語言與語音處理研討會, "conférences sur le traitement automatique des langues et de la parole. Organisé par l'ACLCLP (Association for Computational Linguistics and Chinese Language Processing,中華民國計算語言學學會), c'est un peu la version taïwanaise de TALN (et l'ACLCLP, c'est l'ATALA). Ne vous en faites pas, j'arrête avec les cigles !

J'avais été prévenu de cette conférence il y a à peu près un mois. À la vue du programme, je m'attendais à une alternance de conf en chinois et en anglais ; il n'en fut rien ! Tout était en chinois, tout ? Oui, ou presque : j'ai eu droit à un splendide "speech" d'ouverture dans un chinglish parfait comme je n'en avais jamais entendu. Pour faire un bon chinglish c'est très simple : prenez des phrases bien formées en chinois et traduisez tous les mots pleins en anglais, les termes techniques bien sur, mais tant que vous y êtes, les autres aussi ! Traduisez-en le plus possible et ne conservez du chinois que sa structure et quelques mots de liaisons (quoi que ça fait toujours bien d'en placer aussi quelques uns en anglais, un "anyway..." par ci, un petit "also" par là et vous aurez l'air... Euh vous aurez l'air quoi au juste ?!? J'en sais trop rien. à priori je trouve ça plutôt moche, mais je dois avouer que c'est le "talk" que j'ai le mieux compris ! Et puis en y repensant, ça doit être naturel pour un chercheur chez Microsoft Research Asia.

Les autres interventions étaient faites dans des chinois plus "purs", ce que j'en ai compris est très variable, mais en gros quand le support de conf' projeté était en anglais, j'arrivais à peu près à m'accrocher et je pouvais suivre le discours, c'était encore mieux quand au moins l'abstract du papier correspondant était en anglais et que je connaissais un peu le thème et le domaine de la conférence. À l'opposé, les conf de traitement du signal en pur chinois, euuuuh, comment dire ? C'est totalement hors de portée ! Dommage puisque l'un d'eux présentait une méthode utilisant des ondelettes pour dissocier le son de la parole d'une musique de fond, j'aurais aimé y comprendre quelque chose pour le raconter à Florent (le spécialiste et préposé aux ondelettes dans la famille). Mais finalement, j'en ai plutôt profité pour faire une sieste digestive, car la nuit précédente fut courte, la matinée avait été rude et le repas fort bon.

La première conférence était donc la plus compréhensible, mais pas la plus intéressante pour moi. il y était question de moteur de Question-Réponse basé sur l'indexation et la classification des sites genre Yahoo! Answers ou Baidu 知道, son équivalent chinois. Une petite pensée pour Nico donc. (le powerpoint est en ligne sur site de Rocling, ainsi que tous les actes je crois. Moi j'ai eu droit à jolie clef USB avec tous les pdfs et ppt, en plus du bottin avec les actes, cf la photo plus haut).

La première session était celle qui m'intéressait le plus ; centrée sur la sémantique lexicale. Avec notamment une intervention de Chen Keh-Jiann (陳克健) qui est mon "research advisor" provisoire pour cette année. Il nous parlait de composition sémantique dans le Sinica Treebank, thème qui m'amuse beaucoup. Ici point de lambda calcul mais de l'unification, dommage car c'est marrant le lambda calcul... Son papier me donne l'occasion de me familiariser avec le Treebank qui est plus plat que je ne l'imaginais, il suit une "Information based Case Grammar" (ICG). À creuser !

Une autre intervention intéressante était celle de Huang Chu-ren (黃居仁) sur la segmentation. Il présentait des résultats que j'attendais avec impatience correspondants à un systèmes dont les grandes lignes avaient été présentées dans un papier de 2007 co-signé avec Laurent Prévot, un français en post-doc à l'Académia Sinica l'année dernière. Ce système présente l'originalité de s'intéresser plus à l'espace entre les sinogrammes qu'aux chaînes de caractères possibles. Et ses performances montrent qu'il est totu à fait pertinent. J'y reviendrait sûrement aussi

Une petite pensée pour Yoann aussi lors de la présentation d'un système de saisie en taïwanais, l'inexistence d'un tel système et les conséquences que ça peut avoir sur les locuteurs était un de nos grand sujet de conversations ces derniers mois ! Dans la série traitement automatique du taïwanais, on a vu aussi un étiqueteur de taïwanais romanisé entrainé sur des ressources en chinois avec conversion des transcriptions latines en sinogramme avant étiquetage puis retour au latin. La raison d'une telle quadricapillosectomie est bien sûr l'absence de ressources linguistiques type corpus étiqueté en taïwanais. Ce système a une précision de 91% ce qui n'est pas vraiment terrible. Les sources d'erreurs sont discutées dans le papier mais j'avoue avoir un peu décroché sur cette partie de la présentation !

Je dois dire que cette méthode tordue est assez caractéristique d'une tendance dans le TAL qui me laisse un peu perplexe mais contre laquelle je n'ose pas vraiment me lever : celle de "faire ce qu'on peut avec ce qu'on a". Assez souvent les techniques utilisées sont plus influencées par les ressources disponibles que par une théorie linguistique solide, je trouve ça dommage. D'un autre côté, commencer par établir une théorie solide aboutirait dans bien des cas à une impasse due à l'absence de la ressource adéquate... dur dur.

Voilà donc, deux jours de conférences forts sympathiques, mais excessivement crevant ! Pendant lesquels on était bien nourri donc tout à fait disposés à l'étude (et à la sieste à certains moments, mais c'est une tradition ici). Deux jours qui m'auront permis d'être tout de suite dans l'ambiance !