JAVA HTML 태그 또는 모든 태그 형식 제거
잉비니 2017.01.16 18:10JAVA - 정규표현식을 이용한 HTML 태그 또는 모든 태그 형식 제거
# HTML 제거
2006/12/04 15:10HTML 태그는 < 로 시작해서 > 로 끝나고, 종료 태그의 경우는 로 끝난다. 따라서, 다음과 같은 정규 표현식은 HTML 태그를 모두 포함하게 된다.
<(/)?([a-zA-Z]*)(\\s[a-zA-Z]*=[^>]*)?(\\s)*(/)?>
자바 1.4부터 String.repalceAll(String regex, String replacemenet) 메소드를 제공하는데, 이 메소드는 문자열에서 regex의 정규 표현식에 일치하는 부분을 replacement로 취환해주는 기능을 제공한다.
특정 문자열에 HTML 태그를 제거하려면 위의 정규 표현식을 다음과 같이 적용하면 된다.
1 2 | String text = "......" ; String textWithoutTag = text.replaceAll( "<(/)?([a-zA-Z]*)(\\s[a-zA-Z]*=[^>]*)?(\\s)*(/)?>" , "" ); |
위 내용 출처 : http://blog.livephoto.info/index.php?pl=115
# 모든 태그 형식 제거
'<'로 시작, '>'로 끝나는 형식<[^>]*>
1 | String str = str.replaceAll( "<[^>]*>" , " " ); |
'이전것 > JAVA' 카테고리의 다른 글
JAVA String Null Check 자바 스트링 널 체크 (0) | 2017.04.13 |
---|---|
Context Context Context Context Context (0) | 2017.02.10 |
java 프로그램 실행시간 측정 (0) | 2017.01.20 |
JAVA HTML 태그 또는 모든 태그 형식 제거 (0) | 2017.01.16 |
Socket으로 부터 읽고/쓰는 방법 (0) | 2016.12.30 |