'IT · CS/NLP Tech'에 해당되는 글 3건

  1. 2014.05.19 Mining for Domain-specific Parallel Text from Wikipedia (Tech)
  2. 2014.04.20 C++ Porter's Stemmer 구현.
  3. 2014.04.09 Regular Expression and Automata

작년 한창 사전구축과 번역에 대해서 공부할때 ACL(Association for Computational Linguistics)에 게재되었던 논문 중 하나를 골라 읽고 발표를 했었는데 그때의 자료다.


한창 NLP 테크닉에 대해 공부하던 때라 통계적 기법을 처음으로 접했던 때다.


본 ppt의 내용은 우선 논문에서 사용되었던 기술들의 기초에 대해 설명한다.

SMT기법을 설명하기 위해 IBM에서 발표했었던 IBM model1과 더불어 EM algorithm에 대해 설명한다.

그 후 논문 내용을 살펴보고 평가방법에 대해서 살펴본다. 


한국어로 적었으면 더 좋았으려나? 모르겠다. 간간히 영어로 적기 귀찮아서 한글로 쓴게 보인다.

다운받아보는 어떤 이가 흥미있게 봐주길... 그치만 사소한 영어 문법은 넘어가주길...


The most important thing is how to do. 



※수정 및 배포를 허용하지 않습니다.(나도 논문 결과를 마음대로 이렇게 게재해도 되는지 모름)

Mining for Domain-specific Parallel Text from Wikipedia.pptx


'IT · CS > NLP Tech' 카테고리의 다른 글

C++ Porter's Stemmer 구현.  (0) 2014.04.20
Regular Expression and Automata  (0) 2014.04.09
Posted by 태리정
,

Information retrieval(정보 검색)에서 자주 이용되는 방법중에 하나로 스테밍이 있다.

Stemming은 같은 어미를 가진 단어들을 하나의 색인어로 맵핑하는 것이다.

이러한 일을 하는 이유는 파일크기 감소에 있다. 같은 의미를 지니는

여러 품사의 단어를 하나하나 다 색인어로 사용하게 되면 스테밍 된 단어에 몇배에 달하는

파일 크기를 가지게 되고 검색에 있어서 같은 의미를 지니는 단어에 대해 검색결과로 출력해주는데 있어

비효율적이다.


대표적인 알고리즘으로 Porter Algorithm이 존재한다. (형태소로의 복원은 아니다.)


스테머의 테스트 및 관련 링크가 잘 된 사이트가 있다.


http://jinsuk.memozee.com/articles/porter_stemmer.php?words=Unless+expressly+provided+otherwise+the+present+Regulations+apply+voyages

이곳에 들어가면 더 많은 정보를 얻을 수 있을것이다.


정보검색 시간에 공부한 내용 그대로 포터 스테머를 구현해 이곳에 첨부한다.


※배포는 자유롭게 허락하나 수정배포는 허용하지 않습니다. 수정해야 할 부분은 제게 알려주세요.

Porter.zip


몇일 전에 구현해놨는데 사실 올리기가 부끄럽다. 코드란게 그렇지 않나?
누군가에게 내 것을 보여준다는게... 라이브러리로 코드를 정리해놓았다. 부디 많은 사람이 써주면 그건 그거대로 기쁠것 같다. 조만간 어떠한 문자열 인코딩에서도 동작하도록 수정해보겠다.

Posted by 태리정
,

Speech and Language Processing(Second Edition)을 공부하고 요약한 내용이다.

Chapter2에 해당하는 정규식과 오토마타에 대해 설명하고 있는 내용의 자료를 첨부한다.


이 chapter에서는 regular expression, 보통 표기하기를 characterizing text sequences에 대해 소개하고 정의한 후 FSA(finite state automata)를 어떻게 구현하는가에 대해 설명한다.


FSA는 regular expression을 구현하는 수학적 장치일 뿐만 아니라,

computational linguistics에서 가장 중요한 도구중 하나다.


앞으로의 포스팅에서 이와 관련된 기술들을 계속해서 설명하고 구현한 내용을 첨부할 것이다.



※ 본 자료는 수정 및 배포를 허용하지 않습니다. 잘못된 내용은 알려주세요!

Chapter2 - Regular Expression.pptx


'IT · CS > NLP Tech' 카테고리의 다른 글

Mining for Domain-specific Parallel Text from Wikipedia (Tech)  (0) 2014.05.19
C++ Porter's Stemmer 구현.  (0) 2014.04.20
Posted by 태리정
,