점진적인 개선

출발을 좋았으나 확장성이 부족했던 모듈을 소개하고 개선하는 단계로 살펴본다.

.....

이름을 붙인 방법, 함수 크기, 코드 형식

프로그램을 처음부터 잘 짜기란 쉽지 않다.
또한 대부분이 그럴 수 없다.
프로그래밍은 과학보다는 공예에 가깝다. 깨끗한 코드를 짜려면 먼저 지저분한 코드를 짠 뒤에 정리해야 한다.

글을 쓸 때도 초안 -> 수정 -> 수정 -> 최종안 을 거쳐가 듯, 코드도 단계적으로 개선해야 한다.
대다수의 신참 프로그래머는 해당 단계를 무시하거나 충실히 따르지 않는다.
그들은 돌아가는 프로그램을 목표로 잡는다. 일단 돌아가면 방치한다.

1차 초안

이 표현은 낯 뜨거운 표현이다.
결국 미완성이다.
누구든 첫 버전부터 엉망이진 않다. 버전을 거치며 구현하는 기능이 많아지고 코드가 길어지는 등의 단계를 거듭할수록
코드는 점점 내 손을 벗어난다. (그래서 작게작게 만드는 거??)

최종 목표가 모든 자료형 타입의 인자를 받는 다고 가정하자.

버전 1. boolean 타입만 구현
코드가 그리 엉망은 아니다
버전 2. String 타입도 구현
코드가 점점 길어지며, setBoolean, setString 등의 같은 기능을 하는 중복 메소드가 생긴다.
-> 책에서는 class 상속을 이용하여 중복 메소드를 하나로 줄였다.
버전 3. Int, Double 등 구현
class 상속을 이용하지 않고 별도로 구현시, 사용하는 프로퍼티/메소드 등 쓸데없는 중복이 많을 것이다.

그래서 멈췄다.

버전 2를 마친 후, 코드를 더 작성해서는 안된다.
-> 아직 추가할 타입이 2개나 남았는데, 벌써 코드가 이렇다고? 그 2개를 더 작성하면 어떻게 될지 눈에 훤하다. 그런데도 계속 작성할 것인가?
-> 물론 밀어붙이면 어떻게든 돌아가는 프로그램을 완성했겠지만
-> 그 이후가 문제다. 어떻게 유지보수할 것인가?

코드 구조를 좋은 상태로 만들기 위한 일시정지

  • 기능을 더 이상 추가하지 않고 리팩터링 시작
  • String, Integer 인수 타입을 추가한 경험을 통해, 새로운 인수 타입을 추가하려면 주요 지점 세 곳에다 코드를 추가해야 한다는 것을 겪었다.
    1. HashMap을 선택하기 위해 스키마 요소의 구문을 분석
    2. 인수 유형을 분석해 진짜 유형으로 변환
    3. getXXX 메서드를 구현해 호출자에게 진짜 유형을 반환
  • 인수 유형을 다양하지만 모두가 유사한 메서드를 제공하므로 클래스 하나가 적합하다고 판단하여 ArgumentMarshaler Abstract Class를 작성

점진적으로 개선하다

프로그램을 망치는 가장 좋은 방법 중 하나는 개선이라는 이름 하에 구조를 뒤집는 행위다
-> 프로그램을 '개선' 전과 같이 돌리기가 어렵다.
-> TDD를 통해 작성되어 있던 TC를 이용할 수 있다.

책에서는 Args Class를 구현하기 이전에 이미 단위테스트와 인수테스트를 만들었다.
그리고 해당 테스트를 모두 통과하면 올바로 동작한다고 봐도 무방했다.

순차적인 개선

기존에 변경되어야 하는 곳(parse, get, set) 메소드를 단번에 수정하지 않는다.

  1. ArgumentMarshaler Abstract Class가 아닌 ArgumentMarshaler Class의 골격을 추가하여 코드를 최소로 건드리는 변경만 가한다.
    • 해당 변경으로 꺠지는 코드를 수정
  2. 수정 후에 테스트케이스를 모두 통과하는지 확인해야 한다.
    • 단번에 많은 코드를 수정하고 테스트를 돌리면 어디가 잘못되었는지 알 수 없다.
  3. 구현할 인수 타입들을 모두 구현한 뒤, ArgumentMarshaler 를 추상 클래스로 선언하고 타입마다 XXXArgumentMarshaler Class를 선언
    • get/set 메소드를 추상 메소드로 선언
  4. Integer/String 에는 Iterator가 필요하지만 Boolean에는 필요가 없었지만, ArgumentMarshaler에서 모두 처리하기 위해, Iterator를 매개변수로 갖는 추상 메소드를 선언
  5. Args Class에서 던지는 예외는 Args와 관련이 있는 것
    • Integer관련 Exception은 IntegerArgumentMarshaler Class에서, String은 StringArgumentMarshaler에서 던진 후, Args와 같은 호출한 곳에서 Args와 관련있는 Exception으로 치환 혹은 생성하여 throw

버전 1에서부터 점진적으로 리팩토링을 진행하면서

  • 주로 Args Class에서 코드를 삭제했다.
    • 삭제된 코드는 ArgsException Class, ArgumentMarshaler Class로 옮겨졌다.

결론

그저 돌아가는 코드만으로는 부족하다. 돌아가는 코드가 심하게 망가지는 사례가 흔하기 때문이다.
설계와 구조를 개선할 시간이 없다고 변명할 지 모르지만 동의할 수 없다.
나쁜 코드보다 프로젝트에 악영향을 미치는 것은 없다

  • 나쁜 요구사항
    • 다시 정의하면 된다
  • 나쁜 팀 역학
    • 복구하면 된다
  • 나쁜 코드
    • 썩어 문드러진다.
    • 팀의 발목을 잡는다.

처음부터 코드를 깨끗하게 유지하기란 상대적으로 쉽다. 아침에 엉망으로 만든 코드를 오후에 정리하기는 어렵지 않다.
그러므로 코드는 언제나 최대한 깔끔하고 단순하게 정리하자.

동시성

객체는 처리의 추상화다. 스레드는 일정의 추상화다.
- 제임스 O. 코플리엔

동시성과 깔끔한 코드는 양립하기 어렵다.

동시성이 필요한 이유

동시성은 결합을 없애는 전략이다.
무엇언제를 분리하는 전략이다.
스레드가 하나인 프로그램은 무엇과 언제가 밀접하다.

하나의 예로 한번에 한 사용자를 처리하는 시스템이 있다고 가정하자.
사용자를 처리하는 시간은 1초다.
사용자가 늘어날수록 시스템의 응답속도도 늦춰진다.
1000명 뒤에 줄 서고 싶은 사용자는 없다.

미신과 오해

이렇듯 동시성이 필요한 상황이 존재한다. 하지만 동시성은 어렵다. 정말 어렵다.

일반적인 미신과 오해
  • 동시성은 항상 성능을 높인다.
    -> 대기 시간이 아주 길어 여러 스레드가 프로세서를 공유할 수 있거나, 여러 프로세서가 동시에 처리한 독립적인 계산이 충분히 많은 경우에만 성능이 향상된다.

  • 동시성을 구현해도 설계는 변하지 않는다.
    -> 단일 스레드 vs 다중 스레드 시스템은 설계가 다르다.

  • 웹 또는 EJB 컨테이너를 사용하면 동시성을 이해할 필요가 없다.
    -> 실제로는 컨테이너가 어떻게 동작하고, 어떻게 동시 수정, 데드락 등과 같은 문제를 피할 수 있는지를 알아야 한다.

타당한 생각
  • 동시성은 다소 부하를 유발한다.
    -> 실제로 성능에서도 약간의 부하가 걸리며, 코드도 더 길어진다.

  • 동시성은 복잡하다

  • 동시성 버그는 재현하기 어렵다.

난관

동시성이 구현하기 어려운 이유는 무엇일까?

public class X{
    private int lastIdUsed;

    public int getNextId(){
        return ++lastIdUsed;
    }
}

X를 생성하고 lastIdUsed를 42로 설정한 후, 두 스레드가 해당 인스턴스를 공유한다.
두 쓰레드가 getNextId();를 호출한다고 가정하자

결과

1) 한 스레드는 43, 다른 스레드는 44
2) 한 스레드는 44, 다른 스레드는 43
3) 한 스레드는 43, 다른 스레드는 43

정확하게 이해하기 위해서는 JIT 컴파일러가 바이트 코드를 처리하는 방식, 자바 메모리 무델이 Atomic으로 간주하는 최소 단위를 알아야 한다.

동시성 방어 원칙

동시성 코드가 일으키는 문제로부터 시스템을 방어하는 원칙과 기술을 소개한다.

SRP

SRP는 주어진 메서드/클래스/컴포넌트를 변경할 이유가 하나여야 한다는 원칙이다.
동시성은 복잡성 하나만으로도 따로 분리할 이유가 충분하다.
즉, 동시성 관련 코드는 다른 코드와 분리해야 한다는 뜻이다.

고려사항

  • 동시성 코드는 독자적인 개발, 변경, 조율 주기가 있다.
  • 동시성 코드에는 독자적인 난관이 있다.
  • 잘못 구현한 동시성 코드는 별의별 방식으로 실패한다.

권장사항

  • 동시성 코드는 다른 코드와 분리하라
자료 범위를 제한하라

앞서 봤듯이, 객체 하나를 공유한 후 동일 필드를 수정하던 두 스레드가 서로 간섭하므로 예상치 못한 결과를 내놓을 수 있다.
이런 문제를 해결하기 위해 임계 영역(C.S)을 synchronized 키워드로 보호하라 권장한다.
이러한 CS 수를 줄이는 기술이 중요하다
공유 자료를 수정하는 위치가 많을 수록 다음 가능성도 커진다.

  • 보호할 임계영역을 빼먹는다.
  • 모든 임계영역을 올바로 보호했는지 확인하느라 시간이 더 든다.
  • 그렇지 않아도 찾아내기 어려운 버그가 더 찾기 어려워진다.

권장사항

  • 자료를 캡슐화하라. 공유 자료를 최대한 줄여라.

자료 사본을 사용하라

공유 자료를 줄이려면 처음부터 공유하지 않는 방법이 좋다.
어떤 경우에는 객체를 복사해 읽기 전용으로 사용하는 방법이 가능하다.
어떤 경우에는 각 스레드가 객체를 복사해 사용한 후, 한 스레드가 해당 사본에서 결과를 가져오는 방법도 가능하다.

물론 객체를 복사하는 데 걸리는 시간, 부하가 부담스러울 수 있다.
하지만 사본을 사용해서 얻는 이점이 더 클 것이다.

스레드는 가능한 독립적으로 구현하라

자신만의 세상에 존재하는 스레드를 구현한다.
즉, 다른 스레드와 자료를 공유하지 않는다. 각 스레드는 클라이언트 요청 하나를 처리한다.
모든 정보는 로컬 변수에 저장한다.
그렇게 되면 스레드는 자신만 있는 것처럼 돌아갈 수 있다 -> 다른 스레드와 동기화가 필요없으므로

예) HTTPServlet 클래스에서 파생된 클래스는 모든 정보를 doGet과 doPost 매개변수를 받는다.
각 서블릿은 마치 자신이 독자적인 시스템에서 동작하는 것처럼 요청을 처리한다.
각자의 로컬 변수만 사용한다면 동기화 문제를 일으킬 가능성을 전무하다.

권장사항

  • 독자적인 스레드로, 가능하면 다른 프로세서에서, 돌려도 괜찮도록 자료를 독립적으로 분리하라

라이브러리를 이해하라

자바 5는 동시성 측면에서 이전보다 나아졌다. (그 이후의 나온 자바 버전들도 계속해서 나아졌겠지...)

예) Thread-Safe Collection 사용
ConcurrentHashMap은 거의 모든 상황에서 HashMap보다 빠르다. 또한 다중 스레드 환경에서의 문제도 발생하지 않는다.

권장사항

  • 언어가 제공하는 프레임워크와 클래스를 검토하라

실행모델을 이해하라

다중 스레드 App을 분류하는 방식은 여러가지다

용어

  1. 한정된 자원(Bound Resource)
    다중 스레드 환경에서 사용하는 자원으로 크기나 숫자가 제한적
    DB Connection, 길이가 일정한 버퍼 등

  2. 상호 배제(Mutual Exclusion)
    한번에 한 스레드만 공유 자료나 자원을 사용할 수 있는 경우

  3. 기아(Starvation)
    한 스레드나 여러 스레드가 오랫동안 자원을 기다리는 상황

  4. 데드락(Deadlock)
    여러 스레드가 서로 필요한 자원을 갖고 상대가 끝나기를 기다린다.

  5. 라이브락(Livelock)
    락을 거는 단계에서 각 스레드가 서로를 방해한다.

예시

  1. 생산자-소비자
    하나 이상의 생산자가 버퍼/큐에 정보를 생성하여 넣는다.
    하나 이상의 소비자가 대기열에서 정보를 가져와 사용한다.
    대기열은 한정된 자원이다.

생산자는 대기열에 빈공간이 있어야 새 정보를 넣는다.
소비자는 대기열에 정보가 있어야 가져와 사용한다.

생산자는 정보를 넣고 소비자에게 알린다.
소비자는 정보를 빼고 생산자에게 알린다.

If) 동시성 문제를 해결하지 않으면, 생산자와 소비자 서로 기다리는 상황 발생 가능

  1. 읽기-쓰기
    읽기 쓰레드를 위한 주된 정보원으로 공유 자원을 사용하지만, 쓰기 쓰레드가 공유 자원을 가끔 갱신한다고 하자
    이런 경우에는 처리율(throughput)이 핵심이다.
    처리율이 너무 높거나 낮으면 기아 현상이 생기거나 오래된 정보가 쌓인다.

따라서 읽기/쓰기 스레드를 만족시킬 적당한 처리율이 필요하다.

전략

  • 읽기 스레드가 없을 때까지 갱신을 원하는 쓰기 스레드가 버퍼(차례)를 기다린다.
    BUT, 읽기 스레드가 계속 이어진다면 쓰기 스레드는 기아 상태에 빠진다.
  • 쓰기 스레드가 없을 때까지 읽기를 원하는 읽기 스레드가 버퍼(차례)를 기다린다.
    반대 상황
  1. 식사하는 철학자들
    양손에 포크를 쥐었을 때만, 식사가 가능하다.

권장사항

  • 위의 기본 알고리즘과 각 해법을 이해하라.

동기화

동기화하는 메서드 사이에 의존성이 존재하면 동시성 코드에 찾아내기 어려운 버그가 생긴다.
자바 언어는 synchronized 개념을 지원한다.
BUT, 공유 클래스 하나에 동기화된 메서드가 여럿이라면 다시 한번 확인해봐야 한다.

동기화하는 부분을 작게 만들어라

올바른 종료 코드는 구현하기 어렵다

스레드 코드 테스트하기

  • 그때그때의 설정, 시스템 설정, 부하에 따라 결과가 다르면 안된다. 어떤 상황에서라도 테스트를 통과할 때까지 추적하라.

결론

다중 스레드 코드는 올바로 구현하기 어렵다.
간단한 코드도 여러 스레드와 공유 자료를 추가하면서 어려워진다.
잠글 코드만 잠그고 이외의 코드는 잠그지 말아라.

어떻게든 문제는 생긴다. 해당 문제들을 잡아내기 위해 TDD를 따르고
가능한 많은 상황에서 테스트를 진행해 통과시켜라.

창발성

창발적 설계로 깔끔한 코드를 구현하자

착실하게 따르기만 하면 우수한 설계가 나오는 4가지 규칙이 있다면 따르겠는가?
SRP나 DIP와 같은 원칙을 적용하기 쉬워진다면 따르겠는가?

4가지(중요도 순)

  1. 모든 테스트를 실행한다.
  2. 중복을 없앤다.
  3. 프로그래머 의도를 표현한다.
  4. 클래스와 메서드 수를 최소로 줄인다.

모든 테스트를 실행하라

무엇보다 설계는 의도한 대로 돌아가는 시스템을 내놓아야 한다.
문서로는 시스템을 완벽히 설계했지만, 의도대로 돌아가는지 검증할 수 없다면 가치를 인정받기는 힘들다.

테스트를 철저히 거쳐 모든 테스트 케이스를 항상 통과하는 시스템은 '테스트가 가능한 시스템' 이다.

SRP를 준수하는 클래스는 테스트가 훨씬 더 쉽다.
TC가 많은수록 개발자는 테스트가 쉽게 코드를 작성한다.

결합도가 높으면 TC를 작성하기 어렵다.

-> 'TC를 만들고 계속 돌려라'라는 규칙을 따르면 시스템은 낮은 결합도, 높은 응집도의 결과를 얻을 수 있다.


리팩터링

TC를 모두 작성했다면 코드와 클래스를 정리해도 괜찮다.
코드를 정리하며 TC를 돌려 시스템의 기존 기능을 망가뜨리지 않았는지 확인한다.

중복을 없애라

중복은 추가작업, 추가위험, 불필요한 복잡도를 뜻한다.

똑같은 코드

-> 비슷한 코드는 더 비슷하게 고쳐주면 리팩터링이 쉽다.

ex) 미국과 유럽연합 각각에 근무하는 직원들의 휴가 일수를 계산하는 코드 작성

  1. 지금까지 근무한 시간을 바탕으로 휴가 일수 계산
  2. 휴가 일수가 직원이 속한 지역의 법정 일수를 만족하는지 확인
  3. 휴가 일수를 적용

이때, 미국과 유럽연합 각각의 직원들은 2번이 달라야 한다.
미국 - 미국 최소 법정 일수
유럽연합 - 유럽연합 최소 법정 일수

템플릿 메소드 패턴

이처럼 하위 클래스는 중복되지 않는 정보만 제공한다.

표현하라

대다수는 엉망인 코드를 접하거나 만든 경험이 있을 것이다.
자신이 이해하는 코드를 만들기는 쉽다.
코드를 짜면서 구석구석을 이해하며 짜니깐
BUT, 다른 사람이 해당 코드를 이해하기는 어렵다.

  1. 좋은 이름을 선택하라
  2. 함수와 클래스 크기를 가능한 줄인다.
  3. 표준 명칭을 사용한다.
    커맨드/방문자 패턴을 사용한다면 클래스 이름에 COMMAND/VISITOR를 넣어준다.
  4. 단위 테스트 케이스를 꼼꼼히 작성한다.
  5. 노력하라
    코드만 돌린 후에 다음 문제로 직행하는 사례가 너무 흔하다.
    나중 사람을 위해 조금이라도 노력하자.

클래스와 메서드 수를 최소로 줄여라

SRP를 준수하기 위해 극단으로 치달으면, 클래스와 메서드 수가 너무 많아진다.
따라서 가능한 작게 유지하면서 시스템 크기도 작게 유지하라.

결론

경험을 대신할 개발 기법은 없다.

시스템

도시가 생긴다면?

혼자서 도시를 세우라하면 못 세울 것이다.
그렇다고 이미 세워진 도시를 혼자 관리하라해도 못한다.
도시는 다양한 사람/팀들에 의해 관리된다.

적절한 추상화와 모듈화 덕분에 정상적으로 돌아갈 것이다.
-> 큰 그림을 이해하지 못해도 개개인이 관리하는 '구성요소'는 효율적으로 관리되고 돌아간다.


시스템 제작과 세스템 사용을 분리하라

제작과 사용은 다르다
불행히도 대다수 애플리케이션은 시작 단계라는 관심사를 분리하지 않는다.
준비 과정 코드를 주먹구구식으로 구현할 뿐만 아니라, 런타임 로직과 뒤섞는다.
다음은 전형적인 예다.

public Service getService(){
    if (service == null)
        service = new MyServiceImpl(....);
    return service;
}
  • 이것이 초기화 지연 / 계산 지연 기법이다.
    • 객체가 실제로 필요할 때까지 생성되지 않으므로 불필요한 부하가 걸리지 않는다.
      • 따라서 애플리케이션의 시작시간이 빨라진다.
    • 어떤 경우에도 null 포인터를 반환하지 않는다.

하지만 getService 메서닥 MyServiceImpl과 생성자 인수에 의존한다.

  1. 런타임 로직에서 MyServiceImpl을 사용하지 않더라도 의존성을 해결하지 않으면 컴파일이 안된다. -> 초기화 지연 기법이므로 문제가 있을 경우 컴파일이 안된다.(사용하지 않더라도)
  2. 테스트에서도 MyServiceImpl이 무거운 객체라면, 미리 준비해야하는 별도의 준비가 필요할 수 있다.

Main 분리

시스템 생성과 사용을 분리하는 방법

팩토리

예를 들어, 주문처리 시스템에서 App은 LineItem 인스턴스를 생성해 Order에 추가한다.
이때 Abstract Factory 패턴을 사용한다. -> LineItem을 생성하는 시점은 App이 결정하지만 LineItem을 생성하는 코드는 App이 모름.

추상팩토리 패턴 링크

의존성 주입

사용과 제작을 분리하는 방법 중 하나가 DI이다.

DI : IoC 기법을 의존성 관리에 적용한 메커니즘
제어 역전에서는 한 객체가 맡은 보조 책임을 새로운 객체에거 전적으로 떠넘긴다.
새로운 객체는 넘겨받은 책임만 맡으므로 SRP를 지킨다.

의존성 관리 맥락에서 객체는 의존성 자체를 인스턴스로 만드는 책임은 지지 않는다.
대신에 이 책임을 다른 '전담 메커니즘'에 넘겨야 한다.
대개 main 루틴이나 특수 컨테이너를 사용한다.

더 나아가 클래스의 인수나 생성자 주입을 통해 DI 컨테이너가 생성한 인스턴스를 주입한다.

-> 그렇다면 lazy 기법의 장점(미리 생성하지 않기 때문에 실행이 빠름, null을 반환 X)은 포기해야하는가?
-> 대부분의 DI 컨테이너는 필요한 경우에 인스턴스를 생성하여 주입한다.


확장

초기 도시에는 전력, 상수도, 인터넥과 같은 서비스가 없었따.

현재 차선을 넓히는 도로 공사를 보며, '애초에 넓게 만들지'라고 생각한 경험이 많다.
하지만, 차가 많이 다니지 않은 도로에 미리 6차선을 만드는 데 드는 비용을 정당화할 수 있는가?

-> 오늘은 오늘의 스토리에 맞춰 시스템을 구현해야 한다.
-> 내일의 스토리가 변경되더라도 그것은 내일 있을 일이다.
하지만 이렇게 자주 변경되기 위해서는 TDD, 리팩터링, 깨끗한 코드가 뒷받침되어야 한다.


자바 프록시

자바 프록시는 단순한 상황에 적합하다.
개별 객체나 클래스에서 메서드 호출을 감싸는 경우가 좋은 예다.
하지만 JDK에서 제공하는 동적 프록시는 인터페이스만 지원한다.
-> 이러한 프록시 API 코드를 작성하기 위해서는 코드가 많아지며 복잡해진다.

순수 자바 AOP 프로임워크

다행히 대부분의 자바 프레임워크는 내부적으로 프록시를 사용한다.

......

이해되지 않는 부분들이 많아 이후에 다시 읽어야 할 듯

+ Recent posts